Comment garantir la stabilité de vos prévisions face au risque de surapprentissage ?

Pour assurer la robustesse des modèles, gamSelect intègre des capacités de validation croisée et de partitionnement des données. Vous pouvez diviser vos tables en ensembles d'entraînement, de validation et de test en utilisant partByFrac ou partByVar. Le processus de sélection peut être piloté par le critère choose réglé sur CV (validation croisée) ou VALIDATE, permettant de sélectionner le modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). qui généralise le mieux sur de nouvelles données et non celui qui apprend par cœur le bruit statistique.

Exemples pour l'action gamSelect

Sélection de modèle GAM par Boosting

Un exemple simple pour ajuster un modèle avec deux splines et laisser SAS choisir le meilleur compromis.

Modèle Logistique GAM complet avec Validation et Scoring

Ici on utilise une distribution binaire, on ajoute un effet linéaire (x3), on partitionne les données et on sauvegarde le modèle.