Pourquoi la discrétisation des données est-elle cruciale pour booster la performance de vos modèles de Machine Learning sous SAS Viya ?

Optimisation de la structure de données via le Binning

La discrétisation (souvent appelée binning) est une étape fondamentale de la préparation des données dans l'écosystème SAS Viya. Elle consiste à transformer des variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. continues complexes en sous-groupes ou classes statistiques. Cette technique est essentielle car elle permet de lisser le bruit statistique, de minimiser l'impact des valeurs aberrantesObservations s'écartant significativement du reste des données. Elles peuvent résulter d'erreurs de mesure ou de phénomènes rares et influencent fortement les statistiques (moyenne, variance). et de capturer des relations non linéaires subtiles qui échapperaient à des algorithmes standards.

L'action discretize, exécutée massivement en parallèle grâce aux Cloud Analytic ServicesMoteur d'exécution in-memory de SAS Viya. Il assure le traitement massivement parallèle (MPP) et distribué des données pour optimiser les performances analytiques et le passage à l'échelle., vous permet d'appliquer des méthodes de segmentation non supervisées ou supervisées. Dans des contextes métiers critiques comme le credit scoringProcessus d'application d'un modèle prédictif à de nouvelles données pour calculer une probabilité ou un score, permettant ainsi d'automatiser la prise de décision en temps réel sur SAS Viya. ou la détection de fraude, cette transformation améliore considérablement l'interprétabilité du modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). prédictif final tout en accélérant ses temps d'entraînement.

Exemples pour l'action discretize

Discrétisation basique en BUCKET (largeur égale)

On découpe la variable taille en 3 catégories de largeur identique. Une approche simple, efficace et sans prise de tête !

Discrétisation Quantile avec renommage personnalisé et détails des bacs

Ici on utilise la méthode QUANTILE (pour avoir autant d'individus dans chaque bac). On personnalise le préfixe de la variable de sortie et on sauvegarde les détails de coupe dans une table séparée pour pouvoir les réutiliser.