Quelles stratégies adopter pour maximiser les performances de l'action dlJoin sur des téraoctets de données ?

Optimisation Massive de dlJoin sur SAS Viya

Pour exploiter pleinement la puissance de calcul du clusterEnsemble de nœuds (machines) interconnectés, gérés par Kubernetes, qui collaborent pour exécuter les microservices et le moteur CAS de SAS Viya, assurant haute disponibilité et passage à l'échelle. SAS Viya, vous devez paramétrer finement l'allocation des ressources. L'ajustement du paramètre nThreads permet de dicter le nombre exact de processus concurrents alloués à l'opération de jointure. L'activation du paramètre booléen singlePass constitue une autre stratégie d'optimisation majeure : il empêche la création de tables transitoires sur le serveur, réduisant drastiquement les entrées et sorties physiques. Il faut toutefois noter que cette méthode peut entraîner une perte de l'ordre séquentiel strict des lignes dans la table de sortie.

Exemples pour l'action dlJoin

Jointure gauche basique

Un petit exemple classique pour lier nos données à leurs étiquettes avec une jointure gauche (LEFT join).

Jointure interne (INNER) avec paramètres avancés

Soyons un peu plus stricts et conservons uniquement les enregistrements ayant une correspondance dans les deux tables, tout en utilisant la compression pour la table de sortie.