Quel critère de division privilégier pour optimiser la segmentation de vos clients ?

Le choix du critère via le paramètre crit est déterminant pour la forme et la pertinence de votre arbre. Pour une cible catégorielle, l'indice GINI est souvent privilégié pour sa capacité à créer des nœuds purs, tandis que CHAID ou CHISQUARE sont excellents pour détecter des interactions statistiquement significatives (ajustables avec bonferroni). Pour des variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. cibles numériques, le critère VARIANCEMesure statistique de la dispersion des données indiquant l'écart carré moyen par rapport à la moyenne. Une variance élevée traduit une grande hétérogénéité des observations autour du centre. ou FTEST permettra de minimiser l'erreur quadratique. En ajustant leafSize (nombre minimum d'observations par feuille) en complément de ces critères, vous contrôlez la granularité de vos segments marketing ou de vos profils de risque.

Exemples pour l'action dtreeTrain

Arbre de décision basique sur les fleurs Iris

Entraînement d'un arbre de décision simple pour classifier les espèces d'iris avec les paramètres obligatoires.

Arbre de décision avancé avec élagage et importance des variables

On passe aux choses sérieuses : entraînement d'un arbre avec calcul de l'importance des variables (varImp), contrôle fin de la croissance (maxBranch, leafSize) et sauvegarde du code de scoring via aStore.