Comment assurer la fidélité des variables fantômes par rapport aux données réelles contenant des valeurs manquantes ?

L'intégrité statistique est préservée grâce au paramètre probeMissing. Lorsqu'il est défini sur True (sa valeur par défaut), l'action reproduit le taux de valeurs manquantes observé dans la variable d'origine au sein de sa variable fantôme correspondante. De plus, avec ecdfTolerance, l'action utilise une fonction de distribution cumulative empirique pour s'assurer que les valeurs générées respectent la forme de la distribution originale des données numériques, évitant ainsi de biaiser l'analyse de l'importance des variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage..

Exemples pour l'action generateShadowFeatures

Génération basique d'ombres

Génère 5 ombres par défaut pour les variables x1 et x2.

Génération contrôlée avec sauvegarde du modèle

On limite à 2 ombres, on fixe la graine aléatoire pour la reproductibilité et on sauvegarde l'état pour une utilisation future (scoring).