dsAutoMl
Description
Bienvenue dans le futur de la data science ! L'action dsAutoMl explore, exécute et classe automatiquement des pipelines d'apprentissage automatique. C'est comme avoir un data scientistExpert exploitant SAS Viya pour extraire des connaissances via le Machine Learning et les statistiques, afin de résoudre des problèmes métier complexes à partir de données massives. miniature dans votre machine (mais qui ne réclame pas de café). Elle fait partie de l'action setGemini said
Groupe logique de fonctionnalités CAS (Cloud Analytic Services) contenant des actions spécifiques (statistiques, data mining, etc.) pour traiter les données en mémoire de manière optimisée. .
Paramètres Clés
| Nom du paramètre | Description |
|---|---|
| featureOut | Spécifie la table CAS de sortie pour stocker les pipelines de transformation et de génération de caractéristiques. Paramètre obligatoire. |
| pipelineOut | Spécifie la table CAS pour stocker les résultats de l'analyse (les pipelines). Paramètre obligatoire. |
| table | Spécifie la table d'entrée contenant vos données. Paramètre obligatoire. |
| target | La variable cible que vous souhaitez modéliser. Paramètre obligatoire. |
| transformationOut | Spécifie la table CAS pour stocker les pipelines de transformation. Paramètre obligatoire. |
| modelTypes | Les types de modèles à explorer (ex: 'DECISIONTREE', 'FOREST', 'GRADBOOST', 'NEURALNET'). L'embarras du choix pour trouver le meilleur ! |
| objective | La métrique de performance du modèle à optimiser (ex: 'AUC', 'ASE', 'F1', 'MAE'). |
Préparation des données
Création de données d'exemple
Créons un petit jeu de données factice pour tester notre pilote automatique.
| 1 | DATA mycas.donnees_test; DO i=1 to 1000; target_var = rand('BINOMIAL', 0.5, 1); feature1 = rand('NORMAL'); feature2 = rand('UNIFORM'); OUTPUT; END; RUN; |
Exemples d'utilisation
Lancement d'un AutoML basique
Voici comment lancer une exploration automatique de base en spécifiant uniquement les paramètres requis.
| 1 | PROC CAS; dataSciencePilot.dsAutoMl / TABLE={name='donnees_test'}, target='target_var', featureOut={name='out_features', replace=true}, pipelineOut={name='out_pipelines', replace=true}, transformationOut={name='out_transforms', replace=true}; RUN; QUIT; |
Résultat Attendu :
AutoML avec optimisation avancée et filtres
On passe à la vitesse supérieure en limitant les types de modèles à des forêts aléatoires et des réseaux de neurones, avec une validation croisée.
| 1 | PROC CAS; dataSciencePilot.dsAutoMl / TABLE={name='donnees_test'}, target='target_var', modelTypes={'FOREST', 'NEURALNET'}, objective='AUC', kFolds=3, topKPipelines=5, featureOut={name='out_features', replace=true}, pipelineOut={name='out_pipelines', replace=true}, transformationOut={name='out_transforms', replace=true}; RUN; QUIT; |