Données sales et imparfaites : comment l'action automatise-t-elle le traitement des valeurs aberrantes et manquantes en production ?

Automatisation native via CAS Actions

Dans les véritables plans de données métiers, l'information est rarement parfaite. L'action gère nativement ces anomalies sans nécessiter la moindre ligne de code de nettoyage supplémentaire, en s'appuyant sur son bloc de paramètres overrides.

  • Valeurs manquantes : En activant binMissing, le moteur analytique isole de manière autonome toutes les observations vides dans une classe technique dédiée (généralement dotée de l'ID 0). Cela permet à vos modèles de Machine LearningBranche de l'IA utilisant des algorithmes pour apprendre des modèles à partir de données. Il permet d'automatiser des prédictions ou des décisions sans programmation explicite de chaque règle. d'interpréter l'absence d'information comme une caractéristique potentiellement prédictive.
  • Valeurs aberrantesObservations s'écartant significativement du reste des données. Elles peuvent résulter d'erreurs de mesure ou de phénomènes rares et influencent fortement les statistiques (moyenne, variance). (outliersValeur atypique s'écartant significativement des autres observations d'un jeu de données. Elle peut signaler une erreur de saisie ou un phénomène rare nécessitant une analyse statistique dédiée.) : Grâce au paramètre binOutliers, les algorithmes créent des classes spécifiques situées aux extrémités de la distribution (les bornes inférieures et supérieures). Cela permet d'absorber le choc des valeurs extrêmesDonnée s'écartant significativement des autres observations d'un échantillon. En SAS Viya, elle peut fausser les statistiques et nécessite un traitement (exclusion ou winsorisation) via CAS. sans polluer ni fausser la distribution des classes régulières centrales.

Exemples pour l'action discretize

Discrétisation basique en BUCKET (largeur égale)

On découpe la variable taille en 3 catégories de largeur identique. Une approche simple, efficace et sans prise de tête !

Discrétisation Quantile avec renommage personnalisé et détails des bacs

Ici on utilise la méthode QUANTILE (pour avoir autant d'individus dans chaque bac). On personnalise le préfixe de la variable de sortie et on sauvegarde les détails de coupe dans une table séparée pour pouvoir les réutiliser.