Pour les variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. possédant des milliers de niveaux, l'utilisation d'une recherche exhaustive peut devenir coûteuse en calcul. L'action propose le paramètre greedy. En le réglant sur False, vous activez un algorithme performant basé sur le clusteringLe clustering est une technique d'apprentissage non supervisé regroupant des données similaires en segments homogènes afin d'identifier des structures cachées sans étiquettes préalables. pour déterminer les points de scission. De plus, le paramètre nominalSearch permet de configurer la stratégie de tri, notamment via nominalSearch={handling='ENHANCED', maxCategories=128}, ce qui optimise le traitement des données nominales complexes dans l'architecture distribuée de SAS Viya.
Comment traiter des variables catégorielles à très forte cardinalité sans sacrifier la performance ?
Exemples pour l'action forestTrain
Entraînement de base d'une forêt
Exemple minimal pour entraîner une forêt sur la cible BAD avec quelques variables explicatives.
Forêt avancée avec sauvegarde aStore et Importance RBA
Entraînement d'une forêt robuste avec 100 arbres, calcul de l'importance RBA, évaluation OOB et sauvegarde du modèle en format binaire aStore.