exploreCorrelation
Description
L'action exploreCorrelation est le détective privé de votre pipelineChaîne de flux de données automatisée intégrant prétraitement, sélection de variables et modèles supervisés pour comparer leurs performances et déployer le meilleur candidat dans SAS Viya. de données. Elle fait partie de l'ensemble d'actions Data Science Pilot et sert à identifier les relations linéaires et non linéaires entre vos variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage.. Contrairement aux outils classiques qui ne voient que les lignes droites, celle-ci utilise des techniques avancées comme l'Information Mutuelle (MI) pour repérer les dépendances complexes. C'est l'étape indispensable pour éliminer les variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. redondantes (multicolinéarité) et comprendre quelle variable fait de l'ombre à l'autre avant même de construire un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting).. Elle gère même les mélanges entre variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. numériques et catégorielles sans sourciller !
Paramètres Clés
Préparation des données
Création d'un jeu de données pour l'analyse de corrélations
Ce code génère une table CAS avec des relations linéaires, non linéaires et des variables catégorielles pour tester les capacités de détection de l'action.
| 1 | DATA casuser.data_to_explore; |
| 2 | DO i = 1 to 1000; |
| 3 | x1 = rannor(1); |
| 4 | x2 = x1**2 + rannor(1)*0.1; /* Relation non linéaire */ |
| 5 | x3 = x1*3 + rannor(1)*0.5; /* Relation linéaire forte */ |
| 6 | target_num = x1 * 5 + rannor(1); |
| 7 | IF mod(i,2) = 0 THEN cat1 = 'Alpha'; ELSE cat1 = 'Beta'; |
| 8 | IF cat1 = 'Alpha' THEN target_cat = 'Oui'; ELSE target_cat = 'Non'; |
| 9 | OUTPUT; |
| 10 | END; |
| 11 | RUN; |
Exemples d'utilisation
Analyse de corrélation de base
Un exemple simple pour identifier les corrélations entre toutes les variables et une cible numérique.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.exploreCorrelation / |
| 3 | TABLE={name="data_to_explore", caslib="casuser"}, |
| 4 | casOut={name="corr_results", replace=true}, |
| 5 | target="target_num"; |
| 6 | RUN; |
| 7 | fetch / TABLE="corr_results"; |
| 8 | QUIT; |
Résultat Attendu :
Exploration exhaustive (Linéaire et Non-Linéaire)
Cet exemple force l'utilisation du coefficient de Pearson pour le linéaire et de l'Information Mutuelle pour le non-linéaire, tout en incluant les variables nominales.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.exploreCorrelation / |
| 3 | TABLE={name="data_to_explore", caslib="casuser"}, |
| 4 | casOut={name="corr_detailed", replace=true}, |
| 5 | target="target_num", |
| 6 | nominals={"cat1"}, |
| 7 | binMissing=true, |
| 8 | stats={ |
| 9 | intervalInterval={"MI", "PEARSON"}, |
| 10 | nominalInterval={"MI", "FTEST"}, |
| 11 | nominalNominal={"MI", "CRAMERSV"} |
| 12 | } |
| 13 | ; |
| 14 | RUN; |
| 15 | fetch / TABLE="corr_detailed"; |
| 16 | QUIT; |