Dans le monde réel, les données sont rarement complètes. Là où d'autres algorithmes excluraient ces observations, dtreeTrain offre une gestion intelligente via le paramètre missing. La politique USEINSEARCH incorpore les valeurs manquantes directement dans le calcul de la valeur de division, permettant au modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). de découvrir si l'absence d'une information est elle-même un prédicteur (par exemple, un client qui ne renseigne pas son revenu peut présenter un profil de risque spécifique). Vous pouvez également opter pour BRANCH, qui dédie une branche spécifique aux données manquantes, assurant ainsi qu'aucune information n'est perdue lors de l'entraînement.
Pourquoi le traitement des données manquantes par dtreeTrain est-il un avantage stratégique ?
Exemples pour l'action dtreeTrain
Arbre de décision basique sur les fleurs Iris
Entraînement d'un arbre de décision simple pour classifier les espèces d'iris avec les paramètres obligatoires.
Arbre de décision avancé avec élagage et importance des variables
On passe aux choses sérieuses : entraînement d'un arbre avec calcul de l'importance des variables (varImp), contrôle fin de la croissance (maxBranch, leafSize) et sauvegarde du code de scoring via aStore.