Data Quality : comment gérer les valeurs manquantes pour ne pas fausser vos statistiques de groupe ?

Dans tout projet de Data Science, les valeurs manquantes peuvent biaiser les résultats de segmentation. L'action groupBy propose le paramètre includeMissing qui, par défaut, est à True. Cela signifie que les Null ou Missing sont considérés comme un niveau de groupe distinct. Si votre logique métier impose d'ignorer ces données pour ne pas polluer vos rapports, vous pouvez ajuster ce comportement. Cela garantit que vos plans de données restent cohérents avec les règles de gestion définies par les analystes métier.

Exemples pour l'action groupBy

Groupement simple par région et produit avec somme

Cet exemple regroupe les données par 'region' et 'produit', en calculant la somme des montants pour chaque groupe.

Groupement détaillé avec tri décroissant, moyenne et limite

Ici, nous allons calculer la moyenne des montants, trier les variables du groupe par ordre décroissant, inclure les valeurs manquantes, limiter la sortie aux 10 premiers résultats et promouvoir la table en mémoire globale (pour que tout le monde en profite).