dataSciencePilot

exploreData

##set_datasciencepilot

Description

L'action exploreData est le premier pas indispensable de tout Data Scientist  qui se respecte.

L'action exploreDataAction SAS Viya automatisant l'analyse exploratoire pour identifier les statistiques descriptives, corrélations et problèmes de qualité des données avant la modélisation. est le premier pas indispensable de tout Data ScientistExpert exploitant SAS Viya pour extraire des connaissances via le Machine Learning et les statistiques, afin de résoudre des problèmes métier complexes à partir de données massives. qui se respecte (ou de celui qui veut gagner du temps !). Elle effectue une exploration approfondie, une analyse automatique et un groupement des variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. en utilisant un profilage statistique complet. C'est un peu comme passer vos données au scanner pour comprendre leur ADN : cardinalitéLa cardinalité représente le nombre de valeurs distinctes contenues dans une colonne. Une cardinalité élevée indique une grande diversité de données, influençant le choix des modèles dans CAS., asymétrieMesure statistique (skewness) évaluant le manque de symétrie d'une distribution de données dans SAS Viya. Elle indique si les observations se concentrent à gauche ou à droite de la moyenne., aplatissement et même la détection d'outliersValeur atypique s'écartant significativement des autres observations d'un jeu de données. Elle peut signaler une erreur de saisie ou un phénomène rare nécessitant une analyse statistique dédiée.. Elle prépare le terrain pour les étapes suivantes du pilotage de la science des données.

Syntaxe Officielle
dataSciencePilot.exploreData /
casOut={caslib="string", indexVars={"variable-name-1"}, name="table-name", replace=TRUE|FALSE},
distinctCountLimit=integer,
ecdfTolerance=double,
event="string",
explorationPolicy={cardinality={...}, cv={...}, entropy={...}, ...},
freq="variable-name",
inputs={{format="string", name="variable-name"}},
misraGries=TRUE|FALSE,
table={caslib="string", name="table-name"},
target="variable-name",
weight="variable-name"

Paramètres Clés

Nom du paramètre Description
casOut Spécifie la table de sortie CAS pour stocker les résultats de l'analyse statistique et du profilage.
table Désigne la table CAS d'entrée contenant les données brutes à explorer.
target Indique la variable cible pour l'analyse. C'est l'étoile polaire de votre modèle.
explorationPolicy Définit les règles du jeu pour l'analyse automatique (AVAPT), comme les seuils de cardinalité, d'asymétrie (skewness) ou de détection des valeurs aberrantes (outliers).
distinctCountLimit Définit la limite du nombre de valeurs distinctes avant que l'action ne passe en mode estimation (via Misra-Gries).

Préparation des données

Création de données pour l'exploration

On charge la table Iris, un grand classique, pour tester nos capacités d'exploration.

1PROC CAS;
2 TABLE.loadTable / path="iris.sashdat", caslib="casuser", casout={name="iris", replace=true};
3RUN;

Exemples d'utilisation

Exploration basique

Une petite exploration rapide pour voir ce que nos fleurs ont dans le ventre.

1PROC CAS;
2 dataSciencePilot.exploreData / TABLE={name="iris"}, casOut={name="iris_explored", replace=true}, target="Species";
3RUN;
Résultat Attendu :
Une table 'iris_explored' contenant les métriques de profilage pour chaque variable.
Exploration avec politique personnalisée

On devient exigeant en réglant finement les seuils de cardinalité et la gestion des valeurs manquantes.

1PROC CAS;
2 dataSciencePilot.exploreData /
3 TABLE={name="iris"},
4 target="Species",
5 casOut={name="iris_deep_dive", replace=true},
6 explorationPolicy={
7 cardinality={lowMediumCutoff=10, mediumHighCutoff=50},
8 missing={lowMediumCutoff=2, mediumHighCutoff=15}
9 },
10 distinctCountLimit=5000,
11 misraGries=true;
12RUN;
Résultat Attendu :
Une analyse détaillée utilisant des critères stricts pour classer les variables comme nominales ou intervalles.