Comment gérer intelligemment les valeurs manquantes et les données à forte cardinalité ?

Face à des données imparfaites, l'action propose des politiques de nettoyage avancées via screenPolicy. Si une variable présente un taux de valeurs manquantes trop élevé (défini par missingPercentThreshold), elle est automatiquement écartée pour éviter d'introduire du bruit dans le modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting)..

Pour les variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. nominales aux milliers de catégories, le paramètre distinctCountLimit est essentiel. Si ce seuil est dépassé, SAS Viya peut utiliser l'algorithme de Misra-Gries, une technique de sketch fréquentiel permettant d'estimer la distribution des fréquences de manière ultra-rapide sans saturer la mémoireGemini said
Espace de stockage temporaire (RAM) utilisé par le moteur CAS pour charger et traiter les données à haute vitesse, minimisant les accès disque pour optimiser les performances de SAS Viya.
du serveur CASMoteur analytique "in-memory" de SAS Viya. Il traite les données en parallèle (MPP) sur plusieurs nœuds pour offrir une puissance de calcul massive et une exécution ultra-rapide des actions..

Exemples pour l'action dsAutoMl

Lancement d'un AutoML basique

Voici comment lancer une exploration automatique de base en spécifiant uniquement les paramètres requis.

AutoML avec optimisation avancée et filtres

On passe à la vitesse supérieure en limitant les types de modèles à des forêts aléatoires et des réseaux de neurones, avec une validation croisée.