Regroupement supervisé ou non supervisé : comment transformer intelligemment vos variables ?

L'action offre une flexibilité stratégique selon que vous travaillez avec ou sans variable cible :

  • Méthodes non supervisées : La technique GROUPRARE est idéale pour nettoyer les données en fusionnant les modalités anecdotiques dans une catégorie commune, sans biais lié à une réponse spécifique.
  • Méthodes supervisées : Les techniques DTREE, RTREE et WOE utilisent des algorithmes d'apprentissage (comme les arbres de décision ou de régression) pour créer des groupes de modalités qui maximisent la séparation ou la corrélation avec une variable cible. Cela permet de capturer la structure prédictive réelle des données plutôt que de se fier uniquement à la fréquence brute.

Cette réponse vous a-t-elle aidé ?

Vos votes aident à améliorer notre base de connaissances.

Exemples pour l'action catTrans

Nettoyage des niveaux rares

On regroupe les constructeurs (Make) qui apparaissent moins de 5 fois dans la table.

Transformation complète avec WOE et Statistiques

Exemple exhaustif utilisant la méthode WOE, avec gestion des valeurs manquantes, calcul des statistiques d'évaluation et génération du code de scoring.