Comment optimiser les performances de traitement pour des cardinalites massives sur un cluster CAS distribue ?

Optimisation CAS pour Cardinalités Extrêmes

Pour les environnements CAS Cloud Analytic ServicesMoteur d'exécution in-memory de SAS Viya. Il assure le traitement massivement parallèle (MPP) et distribué des données pour optimiser les performances analytiques et le passage à l'échelle. traitant de multiples threadsUnités d'exécution parallèles au sein d'un processus CAS. Ils permettent de distribuer simultanément les calculs sur plusieurs cœurs CPU pour accélérer le traitement des données dans SAS Viya. et d'innombrables sous-groupes, il est crucial d'activer le parametre sparse. En le configurant a True, chaque thread se concentre uniquement sur un sous-ensemble specifique de groupes, reduisant la saturation de la memoire. De plus, pour des performances maximales sans impacter le reseau, il faut privilegier une syntaxe complete telle que s.simple.compare(table="df1", table2="df2", groupByMode="NOSORT", sparse=True), ce qui evitera la redistribution couteuse des lignes entre les noeuds de calcul.

Exemples pour l'action compare

Comparaison basique de deux tables

On compare les groupes basés sur la colonne 'produit' entre les deux tables.

Comparaison avancée avec tables de sortie et colonnes générées

Cet exemple génère une table de fréquences et inclut toutes les colonnes de diagnostic (_Frequency_, _GroupID_, etc.) pour voir exactement où les données divergent.

Vous pourriez aussi aimer...