Quelle est la différence stratégique entre le filtrage des clés en double et l'élimination des clés uniques lors de la préparation de nos tables analytiques ?

Duel Stratégique : Unicité vs Récurrence

L'action propose deux leviers de contrôle majeurs pour vos architectures de données. Le paramètre noDuplicateKeys conserve un seul représentant par groupe de valeurs et isole le reste, ce qui est parfait pour consolider un référentiel client unique. À l'inverse, le paramètre noUniqueKeys est conçu pour la détection de fraudes ou l'analyse de comportement récurrent : il purge toutes les transactions isolées pour ne conserver que les groupes comportant des répétitions. Les résultats écartés peuvent être intelligemment redirigés vers les tables de sortie dédiées duplicateOut ou uniqueOut pour un audit ultérieur et une gouvernance parfaite.

Exemples pour l'action deduplicate

Dédoublonnage basique par identifiant client

Cet exemple élimine les doublons sur la variable `id_client`. L'algorithme ne garde qu'une seule ligne par client dans `cmd_dedoublonnees`, sans que nous ayons forcé le tri.

Conservation intelligente de la commande la plus récente avec sauvegarde des rejets

L'approche la plus recommandée : nous utilisons `orderBy` en descendant sur la date pour garantir que la ligne conservée soit la commande la plus récente. Les anciennes commandes sont poussées dans une table d'archive via `duplicateOut`.

Filtrage inversé : ne garder que les clients ayant commandé plusieurs fois

Ici, on détourne l'action. Au lieu de dédoublonner, on veut repérer nos clients récurrents. En activant `noUniqueKeys`, on élimine les clients ponctuels (Martin).

Conseil de l'Expert

Pour des volumes massifs (Téraoctets), privilégiez toujours l'action table.partition avec ces paramètres plutôt qu'un PROC SORT classique. L'exécution multi-threadée en mémoire CAS est exponentiellement plus rapide pour gérer les collisions de clés.

Cette réponse vous a-t-elle aidé ?

Vos votes aident à améliorer notre base de connaissances.

Action CAS associée

deduplication

deduplicate