Comment gérer des données d assurance ou de sinistralité avec la distribution Tweedie ?

Dans des secteurs comme l assurance, les données de réclamations présentent souvent une forte concentration de zéros (aucun sinistre) et des valeurs positives continues. L action gbtreeTrain permet de modéliser ces données spécifiques en réglant le paramètre distribution sur TWEEDIE. En ajustant le paramètre power (généralement entre 1 et 2), vous pouvez calibrer précisément la relation entre la moyenne et la varianceMesure statistique de la dispersion des données indiquant l'écart carré moyen par rapport à la moyenne. Une variance élevée traduit une grande hétérogénéité des observations autour du centre., offrant ainsi une flexibilité statistique que les modèles de régression standards ne peuvent égaler.

Exemples pour l'action gbtreeTrain

Entraînement de base

Un exemple minimal pour lancer votre premier boosting sur la variable 'BAD'.

Boosting optimisé avec régularisation et importance des variables

Ici, on passe aux choses sérieuses : 100 arbres, un taux d'apprentissage de 0.05, de la régularisation Ridge et le calcul de l'importance des variables.