exploreData
Description
L'action exploreDataAction SAS Viya automatisant l'analyse exploratoire pour identifier les statistiques descriptives, corrélations et problèmes de qualité des données avant la modélisation. est le premier pas indispensable de tout Data ScientistExpert exploitant SAS Viya pour extraire des connaissances via le Machine Learning et les statistiques, afin de résoudre des problèmes métier complexes à partir de données massives. qui se respecte (ou de celui qui veut gagner du temps !). Elle effectue une exploration approfondie, une analyse automatique et un groupement des variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. en utilisant un profilage statistique complet. C'est un peu comme passer vos données au scanner pour comprendre leur ADN : cardinalitéLa cardinalité représente le nombre de valeurs distinctes contenues dans une colonne. Une cardinalité élevée indique une grande diversité de données, influençant le choix des modèles dans CAS., asymétrieMesure statistique (skewness) évaluant le manque de symétrie d'une distribution de données dans SAS Viya. Elle indique si les observations se concentrent à gauche ou à droite de la moyenne., aplatissement et même la détection d'outliersValeur atypique s'écartant significativement des autres observations d'un jeu de données. Elle peut signaler une erreur de saisie ou un phénomène rare nécessitant une analyse statistique dédiée.. Elle prépare le terrain pour les étapes suivantes du pilotage de la science des données.
Paramètres Clés
Préparation des données
Création de données pour l'exploration
On charge la table Iris, un grand classique, pour tester nos capacités d'exploration.
| 1 | PROC CAS; |
| 2 | TABLE.loadTable / path="iris.sashdat", caslib="casuser", casout={name="iris", replace=true}; |
| 3 | RUN; |
Exemples d'utilisation
Exploration basique
Une petite exploration rapide pour voir ce que nos fleurs ont dans le ventre.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.exploreData / TABLE={name="iris"}, casOut={name="iris_explored", replace=true}, target="Species"; |
| 3 | RUN; |
Résultat Attendu :
Exploration avec politique personnalisée
On devient exigeant en réglant finement les seuils de cardinalité et la gestion des valeurs manquantes.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.exploreData / |
| 3 | TABLE={name="iris"}, |
| 4 | target="Species", |
| 5 | casOut={name="iris_deep_dive", replace=true}, |
| 6 | explorationPolicy={ |
| 7 | cardinality={lowMediumCutoff=10, mediumHighCutoff=50}, |
| 8 | missing={lowMediumCutoff=2, mediumHighCutoff=15} |
| 9 | }, |
| 10 | distinctCountLimit=5000, |
| 11 | misraGries=true; |
| 12 | RUN; |