Pourquoi l'action highCardinality est-elle indispensable pour vos environnements Big Data ?

Dans le contexte du Big Data, compter exactement le nombre de valeurs distinctes au sein de milliards de lignes peut devenir un goulot d'étranglement majeur pour les performances. L'action highCardinality résout ce problème en effectuant une estimation probabiliste de la cardinalitéLa cardinalité représente le nombre de valeurs distinctes contenues dans une colonne. Une cardinalité élevée indique une grande diversité de données, influençant le choix des modèles dans CAS. à l'aide de l'algorithme HyperLogLogUn algorithme probabiliste qui estime le nombre d'éléments uniques (cardinalité) dans de grands jeux de données en utilisant très peu de mémoire, avec une erreur type d'environ 2%.++. Cela permet d'obtenir des métriques de distribution et de diversité de données de manière quasi instantanée, facilitant ainsi la prise de décision rapide sans mobiliser des ressources de calcul massives.

Exemples pour l'action highCardinality

Estimation basique de la cardinalité

Un appel minimaliste de l'action pour estimer rapidement le nombre de clients uniques et de catégories dans notre grande table d'achats.

Haute précision et affichage forcé des résultats

Nous augmentons ici la précision de l'algorithme avec `nRegisterBits=16` (la limite maximale), incluons les valeurs manquantes, et nous forçons l'affichage du résultat dans le journal via `outputTableOptions`.