Comment dompter les milliards de lignes de vos tables avec l'option groupByLimit ?

Maîtriser la Cardinalité sous CAS

La gestion de la mémoireGemini said
Espace de stockage temporaire (RAM) utilisé par le moteur CAS pour charger et traiter les données à haute vitesse, minimisant les accès disque pour optimiser les performances de SAS Viya.
distribuée est critique dans l'écosystème SAS Viya. Le paramètre groupByLimit vous sauve la mise en plafonnant le nombre maximum de niveaux (cardinalitéLa cardinalité représente le nombre de valeurs distinctes contenues dans une colonne. Une cardinalité élevée indique une grande diversité de données, influençant le choix des modèles dans CAS.) dans une opération de regroupement. Si le serveur détecte que le nombre de croisements dépasse cette limite, il interrompt l'exécution au lieu de saturer les nœuds de calcul. C'est un mécanisme de défense indispensable pour prévenir les goulets d'étranglement lors de tabulations exploratoires sur des données brutes non préparées.

Exemples pour l'action crossTab

Tabulation simple à une entrée

Comptage simple des occurrences pour chaque type de produit.

Tableau croisé à deux entrées

Croisement entre la région et le type de produit.

Analyse statistique complète avec pondération

Cet exemple croise la région et le produit, applique un poids, calcule les statistiques de Chi-deux et les mesures d'association.

Tabulation avec discrétisation (Binning)

Idéal quand vous voulez croiser une variable catégorielle avec une variable numérique continue découpée en intervalles.