Comment gérer efficacement les variables à haute cardinalité sans sacrifier la performance ?

Traiter des variables catégoriellesLes variables catégorielles sont des données qualitatives divisées en groupes distincts (nominales ou ordinales), utilisées dans SAS Viya pour segmenter les analyses et définir des classes. avec des centaines de niveaux (comme un code postal ou une référence produit) est souvent un défi. L'action dtreeTrain résout ce problème grâce au paramètre greedy. Par défaut, il est réglé sur True pour une recherche exhaustive, mais en le passant à False, vous activez un algorithme rapide basé sur le clusteringLe clustering est une technique d'apprentissage non supervisé regroupant des données similaires en segments homogènes afin d'identifier des structures cachées sans étiquettes préalables. des niveaux nominaux. Cette approche réduit drastiquement le temps de calcul tout en maintenant une qualité de segmentation élevée, optimisant ainsi l'utilisation des ressources au sein de vos plans de données CAS.

Exemples pour l'action dtreeTrain

Arbre de décision basique sur les fleurs Iris

Entraînement d'un arbre de décision simple pour classifier les espèces d'iris avec les paramètres obligatoires.

Arbre de décision avancé avec élagage et importance des variables

On passe aux choses sérieuses : entraînement d'un arbre avec calcul de l'importance des variables (varImp), contrôle fin de la croissance (maxBranch, leafSize) et sauvegarde du code de scoring via aStore.