Comment l'action 'analyzeMissingPatterns' gère-t-elle les grandes quantités de valeurs distinctes ou les distributions de fréquence complexes ?

Optimisation de la Cardinalité et Algorithmes de Flux

L'action analyzeMissingPatterns utilise des mécanismes avancés pour gérer efficacement les données, même avec un grand nombre de valeurs distinctes. Deux paramètres clés régissent ce comportement :

  • distinctCountLimit : Cet entier spécifie le nombre maximal de valeurs distinctes pour lesquelles un comptage exact est effectué. Si le nombre de valeurs distinctes d'une variable dépasse cette limite (la valeur par défaut est 10000), le comportement dépend du paramètre misraGries.
  • misraGries : Ce paramètre booléen (TRUE par défaut) active l'algorithme de Misra-Gries pour l'estimation de la distribution de fréquence si le distinctCountLimit est dépassé. L'algorithme de Misra-Gries est une technique d'ébauche (sketching) qui permet d'estimer les fréquences des éléments les plus fréquents dans un flux de données avec une empreinte mémoireGemini said
    Espace de stockage temporaire (RAM) utilisé par le moteur CAS pour charger et traiter les données à haute vitesse, minimisant les accès disque pour optimiser les performances de SAS Viya.
    réduite, particulièrement utile pour les ensembles de données volumineux ou les variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. à cardinalitéLa cardinalité représente le nombre de valeurs distinctes contenues dans une colonne. Une cardinalité élevée indique une grande diversité de données, influençant le choix des modèles dans CAS. élevée. Si misraGries est FALSE et la limite est dépassée, l'opération de comptage distinct est abandonnée pour cette variable.

De plus, le paramètre ecdfTolerance (par défaut 0.001) spécifie la tolérance pour la fonction de distribution cumulative empirique, utilisée par l'algorithme de quantification pour estimer les quantilesLes quantiles sont des valeurs divisant un jeu de données trié en intervalles égaux. Ils permettent d'analyser la distribution et la dispersion des données (ex: quartiles pour des segments de 25%). avec précision.

Schéma : Comment l'action 'analyzeMissingPatterns' gère-t-elle les grandes quantités de valeurs distinctes ou les distributions de fréquence complexes ?

Exemples pour l'action analyzeMissingPatterns

Analyse globale basique

Exécution de l'action sur la table entière avec les options par défaut, en spécifiant simplement la table d'entrée et la table de sortie.

Analyse ciblée avec variables nominales et algorithme robuste

Cette fois, on cible un sous-ensemble de variables (inputs), en forçant le format de 'Type', en ajoutant la variable 'MSRP' comme cible et en activant le filet de sécurité algorithmique Misra-Gries.