Optimisation des flux : comment accélérer le traitement avec l'option sparse ?

L'option sparse est une technique d'optimisation pour les architectures massivement parallèles. Lorsqu'elle est activée, chaque thread de calcul se concentre uniquement sur un sous-ensemble restreint de groupes plutôt que de scanner l'intégralité de la table. C'est un gain de temps considérable pour les tables possédant des millions de petits groupes, permettant de réduire les entrées/sorties disque et les mouvements de données entre les nœuds du contrôleur et des travailleurs.

Exemples pour l'action groupByInfo

Calcul basique des identifiants et fréquences de groupes

Dans cet exemple, on regroupe simplement les véhicules par origine (Origin). L'action générera toutes les colonnes de diagnostic par défaut.

Utilisation avancée avec Algorithm2, filtres et nommage sur-mesure

Passons aux choses sérieuses ! On combine plusieurs colonnes de regroupement, on active l'algorithme de haute performance, et on personnalise les noms des colonnes de métadonnées pour que la table de sortie soit immédiatement présentable.