Optimisation CAS pour Cardinalités Extrêmes

Comment optimiser les performances de traitement pour des cardinalites massives sur un cluster CAS distribue ? - compare

Pour les environnements CAS Cloud Analytic ServicesMoteur d'exécution in-memory de SAS Viya. Il assure le traitement massivement parallèle (MPP) et distribué des données pour optimiser les performances analytiques et le passage à l'échelle. traitant de multiples threadsUnités d'exécution parallèles au sein d'un processus CAS. Ils permettent de distribuer simultanément les calculs sur plusieurs cœurs CPU pour accélérer le traitement des données dans SAS Viya. et d'innombrables sous-groupes, il est crucial d'activer le parametre sparse. En le configurant a True, chaque thread se concentre uniquement sur un sous-ensemble specifique de groupes, reduisant la saturation de la memoire. De plus, pour des performances maximales sans impacter le reseau, il faut privilegier une syntaxe complete telle que s.simple.compare(table="df1", table2="df2", groupByMode="NOSORT", sparse=True), ce qui evitera la redistribution couteuse des lignes entre les noeuds de calcul.

Exemples pour l'action compare

Comparaison basique de deux tables

On compare les groupes basés sur la colonne 'produit' entre les deux tables.

Comparaison avancée avec tables de sortie et colonnes générées

Cet exemple génère une table de fréquences et inclut toutes les colonnes de diagnostic (_Frequency_, _GroupID_, etc.) pour voir exactement où les données divergent.

Vous pourriez aussi aimer...

Conseil de l'Expert

Ne confondez pas le partitionnement et le regroupement. Pour des cardinalités massives, pré-partitionnez votre table en amont avec l'instruction partition lors du chargement en mémoire. Cela garantit que tous les enregistrements d'un même groupe résident physiquement sur le même nœud, éliminant ainsi le "data shuffling" (mouvement de données inter-nœuds) pendant l'exécution de l'action analytique.

Leviers Techniques de Performance CAS

Mode Sparse (Clairsemé) : Activez sparse=True pour éviter que chaque thread n'alloue des structures de données pour des groupes qu'il ne possède pas, prévenant ainsi les erreurs Out of Memory.

Cette réponse vous a-t-elle aidé ?