L'intégrité statistique est préservée grâce au paramètre probeMissing. Lorsqu'il est défini sur True (sa valeur par défaut), l'action reproduit le taux de valeurs manquantes observé dans la variable d'origine au sein de sa variable fantôme correspondante. De plus, avec ecdfTolerance, l'action utilise une fonction de distribution cumulative empirique pour s'assurer que les valeurs générées respectent la forme de la distribution originale des données numériques, évitant ainsi de biaiser l'analyse de l'importance des variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage..
Comment assurer la fidélité des variables fantômes par rapport aux données réelles contenant des valeurs manquantes ?
Exemples pour l'action generateShadowFeatures
Génération basique d'ombres
Génère 5 ombres par défaut pour les variables x1 et x2.
Génération contrôlée avec sauvegarde du modèle
On limite à 2 ombres, on fixe la graine aléatoire pour la reproductibilité et on sauvegarde l'état pour une utilisation future (scoring).