Comment traiter des variables catégorielles à très forte cardinalité sans sacrifier la performance ?

Pour les variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. possédant des milliers de niveaux, l'utilisation d'une recherche exhaustive peut devenir coûteuse en calcul. L'action propose le paramètre greedy. En le réglant sur False, vous activez un algorithme performant basé sur le clusteringLe clustering est une technique d'apprentissage non supervisé regroupant des données similaires en segments homogènes afin d'identifier des structures cachées sans étiquettes préalables. pour déterminer les points de scission. De plus, le paramètre nominalSearch permet de configurer la stratégie de tri, notamment via nominalSearch={handling='ENHANCED', maxCategories=128}, ce qui optimise le traitement des données nominales complexes dans l'architecture distribuée de SAS Viya.

Exemples pour l'action forestTrain

Entraînement de base d'une forêt

Exemple minimal pour entraîner une forêt sur la cible BAD avec quelques variables explicatives.

Forêt avancée avec sauvegarde aStore et Importance RBA

Entraînement d'une forêt robuste avec 100 arbres, calcul de l'importance RBA, évaluation OOB et sauvegarde du modèle en format binaire aStore.