Les modalités rares sont souvent source de surapprentissage (overfittingSurapprentissage d'un modèle mémorisant le bruit des données d'entraînement au lieu des tendances, réduisant ainsi sa capacité de généralisation et sa précision sur de nouvelles observations.). Pour stabiliser vos modèles, catTrans propose les paramètres rareThreshold (seuil fixe d'observations) et rareThresholdPercent (seuil relatif). En activant preprocessRare, l'action identifie les catégories "bruit" et les regroupe dans un bin spécifique (souvent l'ID 0). Cette étape de nettoyage est exécutée au sein même de la mémoireGemini said
Espace de stockage temporaire (RAM) utilisé par le moteur CAS pour charger et traiter les données à haute vitesse, minimisant les accès disque pour optimiser les performances de SAS Viya. vive de SAS Viya, ce qui évite des transferts de données coûteux et assure que les modalités restantes possèdent une significativité statistique suffisante.
Comment automatiser la gestion des modalités rares pour stabiliser vos prédictions ?
Cette réponse vous a-t-elle aidé ?
Exemples pour l'action catTrans
Nettoyage des niveaux rares
On regroupe les constructeurs (Make) qui apparaissent moins de 5 fois dans la table.
Transformation complète avec WOE et Statistiques
Exemple exhaustif utilisant la méthode WOE, avec gestion des valeurs manquantes, calcul des statistiques d'évaluation et génération du code de scoring.