builtins

dsAutoMl

##set_builtins

Description

Bienvenue dans le futur de la data science ! L'action dsAutoMl explore, exécute et classe automatiquement des pipelines d'apprentissage automatique. C'est comme avoir un data scientistExpert exploitant SAS Viya pour extraire des connaissances via le Machine Learning et les statistiques, afin de résoudre des problèmes métier complexes à partir de données massives. miniature dans votre machine (mais qui ne réclame pas de café). Elle fait partie de l'action setGemini said

Groupe logique de fonctionnalités CAS (Cloud Analytic Services) contenant des actions spécifiques (statistiques, data mining, etc.) pour traiter les données en mémoire de manière optimisée.
.

Syntaxe Officielle
proc cas;
dataSciencePilot.dsAutoMl /
featureOut={name="maTableCaracteristiques"}
pipelineOut={name="maTablePipelines"}
table={name="maTableSource"}
target="maVariableCible"
transformationOut={name="maTableTransformations"};
quit;

Paramètres Clés

Nom du paramètre Description
featureOut Spécifie la table CAS de sortie pour stocker les pipelines de transformation et de génération de caractéristiques. Paramètre obligatoire.
pipelineOut Spécifie la table CAS pour stocker les résultats de l'analyse (les pipelines). Paramètre obligatoire.
table Spécifie la table d'entrée contenant vos données. Paramètre obligatoire.
target La variable cible que vous souhaitez modéliser. Paramètre obligatoire.
transformationOut Spécifie la table CAS pour stocker les pipelines de transformation. Paramètre obligatoire.
modelTypes Les types de modèles à explorer (ex: 'DECISIONTREE', 'FOREST', 'GRADBOOST', 'NEURALNET'). L'embarras du choix pour trouver le meilleur !
objective La métrique de performance du modèle à optimiser (ex: 'AUC', 'ASE', 'F1', 'MAE').

Préparation des données

Création de données d'exemple

Créons un petit jeu de données factice pour tester notre pilote automatique.

1DATA mycas.donnees_test; DO i=1 to 1000; target_var = rand('BINOMIAL', 0.5, 1); feature1 = rand('NORMAL'); feature2 = rand('UNIFORM'); OUTPUT; END; RUN;

Exemples d'utilisation

Lancement d'un AutoML basique

Voici comment lancer une exploration automatique de base en spécifiant uniquement les paramètres requis.

1PROC CAS; dataSciencePilot.dsAutoMl / TABLE={name='donnees_test'}, target='target_var', featureOut={name='out_features', replace=true}, pipelineOut={name='out_pipelines', replace=true}, transformationOut={name='out_transforms', replace=true}; RUN; QUIT;
Résultat Attendu :
L'action génère trois tables contenant les caractéristiques, les pipelines testés et les transformations, tout en vous évitant le travail fastidieux de modélisation manuelle.
AutoML avec optimisation avancée et filtres

On passe à la vitesse supérieure en limitant les types de modèles à des forêts aléatoires et des réseaux de neurones, avec une validation croisée.

1PROC CAS; dataSciencePilot.dsAutoMl / TABLE={name='donnees_test'}, target='target_var', modelTypes={'FOREST', 'NEURALNET'}, objective='AUC', kFolds=3, topKPipelines=5, featureOut={name='out_features', replace=true}, pipelineOut={name='out_pipelines', replace=true}, transformationOut={name='out_transforms', replace=true}; RUN; QUIT;
Résultat Attendu :
Seuls les modèles de type forêt aléatoire et réseau de neurones seront évalués avec une validation croisée à 3 plis, et l'action ne retiendra que les 5 meilleurs pipelines selon le critère AUC.