L'action analyzeMissingPatterns utilise des mécanismes avancés pour gérer efficacement les données, même avec un grand nombre de valeurs distinctes. Deux paramètres clés régissent ce comportement :
distinctCountLimit: Cet entier spécifie le nombre maximal de valeurs distinctes pour lesquelles un comptage exact est effectué. Si le nombre de valeurs distinctes d'une variable dépasse cette limite (la valeur par défaut est10000), le comportement dépend du paramètremisraGries.misraGries: Ce paramètre booléen (TRUEpar défaut) active l'algorithme de Misra-Gries pour l'estimation de la distribution de fréquence si ledistinctCountLimitest dépassé. L'algorithme de Misra-Gries est une technique d'ébauche (sketching) qui permet d'estimer les fréquences des éléments les plus fréquents dans un flux de données avec une empreinte mémoire réduite, particulièrement utile pour les ensembles de données volumineux ou les variables à cardinalité élevée. SimisraGriesestFALSEet la limite est dépassée, l'opération de comptage distinct est abandonnée pour cette variable.
De plus, le paramètre ecdfTolerance (par défaut 0.001) spécifie la tolérance pour la fonction de distribution cumulative empirique, utilisée par l'algorithme de quantification pour estimer les quantiles avec précision.