L'option sparse est une technique d'optimisation pour les architectures massivement parallèles. Lorsqu'elle est activée, chaque thread de calcul se concentre uniquement sur un sous-ensemble restreint de groupes plutôt que de scanner l'intégralité de la table. C'est un gain de temps considérable pour les tables possédant des millions de petits groupes, permettant de réduire les entrées/sorties disque et les mouvements de données entre les nœuds du contrôleur et des travailleurs.
Optimisation des flux : comment accélérer le traitement avec l'option sparse ?
Exemples pour l'action groupByInfo
Calcul basique des identifiants et fréquences de groupes
Dans cet exemple, on regroupe simplement les véhicules par origine (Origin). L'action générera toutes les colonnes de diagnostic par défaut.
Utilisation avancée avec Algorithm2, filtres et nommage sur-mesure
Passons aux choses sérieuses ! On combine plusieurs colonnes de regroupement, on active l'algorithme de haute performance, et on personnalise les noms des colonnes de métadonnées pour que la table de sortie soit immédiatement présentable.