tpWordVector
Description
L'action tpWordVector applique un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). vectoriel de mots (word vector) pour scorerAction d'appliquer un modèle statistique à de nouvelles données pour calculer une probabilité ou une valeur prédite. C’est l’étape de déploiement transformant les entrées en prédictions actionnables. sémantiquement des documents. Les mots deviennent des vecteurs numériques, un petit tour de magie mathématique particulièrement utile pour le deep learningSous-ensemble du Machine Learning basé sur des réseaux de neurones artificiels profonds. Il excelle dans l'extraction automatique de motifs complexes depuis des données brutes (images, texte, son). ! Attention, cette action requiert une licence SAS Visual Text Analytics .
Paramètres Clés
| Nom du paramètre | Description |
|---|---|
| casOut | Spécifie la table CAS de sortie qui recevra les résultats du scoring par plongement lexical (word embeddings). |
| modelTable | Spécifie la table CAS d'entrée contenant le modèle vectoriel pré-entraîné. La première colonne doit impérativement contenir le mot, et les colonnes suivantes ses valeurs vectorielles numériques (alias : model). |
| table | Spécifie la table CAS d'entrée contenant les offsets des termes, qui est généralement la table de sortie produite en amont par l'action tpParse (alias : offset, offsetTable). |
Préparation des données
Génération de la table d'offset requise
L'action tpWordVector a besoin d'une table d'offset en entrée. Nous utilisons donc d'abord l'action tpParse pour analyser le texte et générer cette fameuse table d'offset.
| 1 | PROC CAS; |
| 2 | textParse.tpParse / |
| 3 | TABLE={name="mes_documents"} |
| 4 | docId="id" |
| 5 | text="texte_document" |
| 6 | offset={name="ma_table_offset", replace=true}; |
| 7 | RUN; |
Exemples d'utilisation
Application basique d'un modèle vectoriel
Cet exemple applique le modèle vectoriel sur la table d'offset fraîchement parsée.
| 1 | PROC CAS; |
| 2 | textParse.tpWordVector / |
| 3 | TABLE={name="ma_table_offset"} |
| 4 | modelTable={name="mon_modele_word2vec"} |
| 5 | casOut={name="mes_documents_vectorises", replace=true}; |
| 6 | RUN; |
Résultat Attendu :
Scoring avancé avec options de tables CAS
Exemple d'utilisation avec des paramètres étendus : ciblage par caslib, filtre where pour traiter un sous-ensemble des données à la volée, et promotion de la table finale.
| 1 | PROC CAS; |
| 2 | textParse.tpWordVector / |
| 3 | TABLE={name="ma_table_offset", caslib="casuser", where="_Index_ < 1000"} |
| 4 | modelTable={name="modele_glove_preentraine", caslib="public"} |
| 5 | casOut={name="vecteurs_promus", caslib="casuser", promote=true, replace=true}; |
| 6 | RUN; |