L'optimisation des performances dans SAS Viya passe par une compréhension fine du plan de données. En utilisant le paramètre partition positionné à True, vous indiquez au système que la table est déjà segmentée, ce qui réduit les mouvements de données entre les nœuds du clusterEnsemble de nœuds (machines) interconnectés, gérés par Kubernetes, qui collaborent pour exécuter les microservices et le moteur CAS de SAS Viya, assurant haute disponibilité et passage à l'échelle. (data shuffling). De plus, l'utilisation de resultLimit permet de restreindre le nombre de groupes retournés, ce qui est crucial pour la consommation mémoireGemini said
Espace de stockage temporaire (RAM) utilisé par le moteur CAS pour charger et traiter les données à haute vitesse, minimisant les accès disque pour optimiser les performances de SAS Viya. lors de l'analyse de variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. à très haute cardinalitéLa cardinalité représente le nombre de valeurs distinctes contenues dans une colonne. Une cardinalité élevée indique une grande diversité de données, influençant le choix des modèles dans CAS.. Pour des besoins de haute disponibilité, le paramètre repeatedTable peut dupliquer les résultats sur tous les nœuds ouvriers.
Performance Hack : comment optimiser vos opérations de regroupement sur des architectures distribuées ?
Exemples pour l'action groupBy
Groupement simple par région et produit avec somme
Cet exemple regroupe les données par 'region' et 'produit', en calculant la somme des montants pour chaque groupe.
Groupement détaillé avec tri décroissant, moyenne et limite
Ici, nous allons calculer la moyenne des montants, trier les variables du groupe par ordre décroissant, inclure les valeurs manquantes, limiter la sortie aux 10 premiers résultats et promouvoir la table en mémoire globale (pour que tout le monde en profite).