forestTrain
Description
L'action forestTrain permet d'entraîner un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). de forêt aléatoireAlgorithme d'apprentissage supervisé combinant plusieurs arbres de décision indépendants pour améliorer la précision et réduire le surapprentissage par agrégation de leurs prédictions. (Random ForestAlgorithme d'apprentissage supervisé combinant plusieurs arbres de décision indépendants pour améliorer la précision et réduire le surapprentissage via le bagging et la sélection aléatoire.) au sein de l'environnement SAS Viya . Elle construit une multitude d'arbres de décision indépendants et combine leurs résultats pour améliorer la robustesse et la précision des prédictions. C'est l'outil idéal pour éviter le surapprentissage (overfittingSurapprentissage d'un modèle mémorisant le bruit des données d'entraînement au lieu des tendances, réduisant ainsi sa capacité de généralisation et sa précision sur de nouvelles observations.) : parce qu'un seul arbre peut se tromper, mais une forêt a souvent raison ! Cette action nécessite impérativement une licence SAS Visual Data Mining and Machine LearningBranche de l'IA utilisant des algorithmes pour apprendre des modèles à partir de données. Il permet d'automatiser des prédictions ou des décisions sans programmation explicite de chaque règle. .
Paramètres Clés
| Nom du paramètre | Description |
|---|---|
| table | Spécifie la table d'entrée CAS contenant les données d'entraînement . |
| target | Nom de la variable cible (réponse) à prédire . |
| inputs | Liste des variables prédictives utilisées pour entraîner le modèle. |
| nominals | Liste des variables qui doivent être traitées comme catégorielles (nominales). |
| nTree | Nombre total d'arbres à construire dans la forêt (par défaut 50). |
| m | Nombre de variables sélectionnées aléatoirement à chaque nœud pour chercher la meilleure division. |
| seed | Valeur entière pour initialiser le générateur de nombres aléatoires et garantir la reproductibilité. |
| oob | Si positionné sur True, calcule l'erreur 'Out-Of-Bag' pour évaluer la performance sur les données non utilisées pendant le bootstrap. |
| saveState | Spécifie la table de sortie pour sauvegarder le modèle au format Analytic Store (binary), utilisable pour le scoring haute performance . |
Préparation des données
Préparation des données HMEQ
Chargement de la table de données HMEQ (Home Equity) souvent utilisée pour les exemples de risque de crédit.
| 1 | DATA casuser.hmeq; SET sampsio.hmeq; RUN; PROC CAS; TABLE.loadTable / caslib="casuser", path="hmeq.sas7bdat", casOut={name="hmeq", replace=true}; RUN; QUIT; |
Exemples d'utilisation
Entraînement de base d'une forêt
Exemple minimal pour entraîner une forêt sur la cible BAD avec quelques variables explicatives.
| 1 | PROC CAS; decisionTree.forestTrain / TABLE={name="hmeq"}, target="BAD", inputs={"LOAN", "MORTDUE", "VALUE"}, nominals={"BAD"}, casOut={name="forest_model", replace=true}; RUN; QUIT; |
Résultat Attendu :
Forêt avancée avec sauvegarde aStore et Importance RBA
Entraînement d'une forêt robuste avec 100 arbres, calcul de l'importance RBA, évaluation OOB et sauvegarde du modèle en format binaire aStore.
| 1 | PROC CAS; decisionTree.forestTrain / TABLE={name="hmeq", where="REASON ne ''"}, target="BAD", inputs={"LOAN", "MORTDUE", "VALUE", "REASON", "JOB", "CLAGE"}, nominals={"BAD", "REASON", "JOB"}, nTree=100, m=4, seed=12345, oob=true, varImp=true, rbaImp=true, saveState={name="forest_astore", replace=true}, casOut={name="forest_table_model", replace=true}; RUN; QUIT; |