L'action catTrans du set d'actions dataPreprocess est un moteur de transformation de haut niveau au sein de SAS Viya. Dans un écosystème de données modernes, les variables catégoriellesLes variables catégorielles sont des données qualitatives divisées en groupes distincts (nominales ou ordinales), utilisées dans SAS Viya pour segmenter les analyses et définir des classes. à forte cardinalitéLa cardinalité représente le nombre de valeurs distinctes contenues dans une colonne. Une cardinalité élevée indique une grande diversité de données, influençant le choix des modèles dans CAS. (beaucoup de modalités) posent souvent des problèmes de performance et de précision pour les modèles prédictifsAlgorithmes entraînés sur SAS Viya pour analyser des données historiques et estimer la probabilité de résultats futurs, facilitant ainsi la prise de décision proactive et automatisée.. Cette action permet de regrouper et d'encoder ces variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. de manière distribuée sur CAS Cloud Analytic ServicesMoteur d'exécution in-memory de SAS Viya. Il assure le traitement massivement parallèle (MPP) et distribué des données pour optimiser les performances analytiques et le passage à l'échelle.. En automatisant le regroupement des modalités, elle réduit la dimensionnalité et prépare les données pour des algorithmes exigeants comme les forêts aléatoires ou les réseaux de neurones, tout en garantissant une scalabilité horizontale sur des plans de données massifs.
Pourquoi catTrans est-il indispensable pour optimiser la préparation de vos données massives ?
Cette réponse vous a-t-elle aidé ?
Exemples pour l'action catTrans
Nettoyage des niveaux rares
On regroupe les constructeurs (Make) qui apparaissent moins de 5 fois dans la table.
Transformation complète avec WOE et Statistiques
Exemple exhaustif utilisant la méthode WOE, avec gestion des valeurs manquantes, calcul des statistiques d'évaluation et génération du code de scoring.