Le paramètre missing offre une flexibilité avancée pour traiter les valeurs nulles. Vous pouvez choisir la politique USEINSEARCH, qui incorpore les valeurs manquantes dans le calcul de la réduction d'impureté pour trouver la branche optimale d'affectation. D'autres options permettent d'assigner ces valeurs à la branche la plus POPULAR (la plus dense) ou de créer une branche BRANCH dédiée. Pour les variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. numériques, l'option MACSMALL traite les valeurs manquantes comme la plus petite valeur machine possible, assurant ainsi une cohérence mathématique lors du fractionnement.
Quelle est la meilleure stratégie pour gérer les données manquantes sans perdre en précision prédictive ?
Exemples pour l'action dtreeSplit
Division automatique des nœuds feuilles
Cet exemple prend un arbre existant (de profondeur 2 par exemple) et tente d'ajouter une séparation supplémentaire à chaque nœud terminal.
Division ciblée et personnalisée d'un nœud
Ici, nous ciblons le nœud racine (nodeId 0) et le divisons de force en utilisant la variable 'x1' avec un point de coupure à 0.5. Parfait pour ajuster un arbre basé sur l'expertise métier.