Optimisation des flux : comment accélérer le traitement avec l'option sparse ?

Question

Nicolas Housset · Accepted Answer

L'option sparse est une technique d'optimisation pour les architectures massivement parallèles. Lorsqu'elle est activée, chaque thread de calcul se concentre uniquement sur un sous-ensemble restreint de groupes plutôt que de scanner l'intégralité de la table. C'est un gain de temps considérable pour les tables possédant des millions de petits groupes, permettant de réduire les entrées/sorties disque et les mouvements de données entre les nœuds du contrôleur et des travailleurs.

Optimisation des flux : comment accélérer le traitement avec l'option sparse ?

Exemples pour l'action groupByInfo

Calcul basique des identifiants et fréquences de groupes

Utilisation avancée avec Algorithm2, filtres et nommage sur-mesure

Action CAS associée

À lire aussi...