Le paramètre subSampleRate permet d implémenter ce que l on appelle le Stochastic Gradient BoostingMéthode d'apprentissage itérative créant une suite d'arbres de décision. Chaque nouvel arbre corrige les erreurs de prédiction des précédents pour minimiser globalement la fonction de perte.. En spécifiant une fraction (par exemple 0.5), l action n utilise qu une partie aléatoire des données pour construire chaque arbre de la séquence. Cette approche a deux bénéfices majeurs : elle réduit significativement le temps de traitement sur les serveurs CAS et elle introduit une régularisation naturelle qui aide le modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). à ne pas trop coller aux spécificités du jeu d entraînement, améliorant ainsi la stabilité globale.
Quel est l intérêt d utiliser le subSampleRate dans vos calculs distribués ?
Exemples pour l'action gbtreeTrain
Entraînement de base
Un exemple minimal pour lancer votre premier boosting sur la variable 'BAD'.
Boosting optimisé avec régularisation et importance des variables
Ici, on passe aux choses sérieuses : 100 arbres, un taux d'apprentissage de 0.05, de la régularisation Ridge et le calcul de l'importance des variables.