Le choix de l'enregistrement survivant ne doit pas être laissé au hasard dans vos processus de qualification de données. Vous pouvez utiliser le paramètre orderBy pour trier les observations au sein de chaque partition de données avant l'évaluation des doublons. De plus, le moteur distribué vous permet de choisir si le regroupement doit se baser sur les valeurs brutes ou formatées grâce au paramètre groupByRaw. Cela est particulièrement critique lorsque vos variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. de regroupement possèdent des formatsInstructions de présentation appliquées aux valeurs des variables pour modifier leur apparence (dates, monnaies, libellés) sans altérer la donnée stockée dans les tables SAS Viya. personnalisés appliqués dynamiquement en mémoireGemini said
Espace de stockage temporaire (RAM) utilisé par le moteur CAS pour charger et traiter les données à haute vitesse, minimisant les accès disque pour optimiser les performances de SAS Viya., garantissant ainsi que l'agrégation reflète exactement vos règles métiers.
Comment maîtriser avec précision la ligne qui sera conservée lors du dédoublonnage de nos enregistrements complexes ?
Maîtrise de la Survie de Donnée en CAS
Exemples pour l'action deduplicate
Dédoublonnage basique par identifiant client
Cet exemple élimine les doublons sur la variable `id_client`. L'algorithme ne garde qu'une seule ligne par client dans `cmd_dedoublonnees`, sans que nous ayons forcé le tri.
Conservation intelligente de la commande la plus récente avec sauvegarde des rejets
L'approche la plus recommandée : nous utilisons `orderBy` en descendant sur la date pour garantir que la ligne conservée soit la commande la plus récente. Les anciennes commandes sont poussées dans une table d'archive via `duplicateOut`.
Filtrage inversé : ne garder que les clients ayant commandé plusieurs fois
Ici, on détourne l'action. Au lieu de dédoublonner, on veut repérer nos clients récurrents. En activant `noUniqueKeys`, on élimine les clients ponctuels (Martin).