textParse

tpWordVector

##deeplearning ##set_textparse

Description

L'action tpWordVector applique un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). vectoriel de mots (word vector) pour scorerAction d'appliquer un modèle statistique à de nouvelles données pour calculer une probabilité ou une valeur prédite. C’est l’étape de déploiement transformant les entrées en prédictions actionnables. sémantiquement des documents. Les mots deviennent des vecteurs numériques, un petit tour de magie mathématique particulièrement utile pour le deep learningSous-ensemble du Machine Learning basé sur des réseaux de neurones artificiels profonds. Il excelle dans l'extraction automatique de motifs complexes depuis des données brutes (images, texte, son). ! Attention, cette action requiert une licence SAS Visual Text Analytics .

Syntaxe Officielle
proc cas;
textParse.tpWordVector /
casOut={name="nom_table_sortie"}
modelTable={name="nom_modele_vectoriel"}
table={name="nom_table_offset"};
run;

Paramètres Clés

Nom du paramètre Description
casOut Spécifie la table CAS de sortie qui recevra les résultats du scoring par plongement lexical (word embeddings).
modelTable Spécifie la table CAS d'entrée contenant le modèle vectoriel pré-entraîné. La première colonne doit impérativement contenir le mot, et les colonnes suivantes ses valeurs vectorielles numériques (alias : model).
table Spécifie la table CAS d'entrée contenant les offsets des termes, qui est généralement la table de sortie produite en amont par l'action tpParse (alias : offset, offsetTable).

Préparation des données

Génération de la table d'offset requise

L'action tpWordVector a besoin d'une table d'offset en entrée. Nous utilisons donc d'abord l'action tpParse pour analyser le texte et générer cette fameuse table d'offset.

1PROC CAS;
2 textParse.tpParse /
3 TABLE={name="mes_documents"}
4 docId="id"
5 text="texte_document"
6 offset={name="ma_table_offset", replace=true};
7RUN;

Exemples d'utilisation

Application basique d'un modèle vectoriel

Cet exemple applique le modèle vectoriel sur la table d'offset fraîchement parsée.

1PROC CAS;
2 textParse.tpWordVector /
3 TABLE={name="ma_table_offset"}
4 modelTable={name="mon_modele_word2vec"}
5 casOut={name="mes_documents_vectorises", replace=true};
6RUN;
Résultat Attendu :
Crée une table 'mes_documents_vectorises' où chaque document est représenté numériquement par les dimensions du modèle vectoriel appliqué.
Scoring avancé avec options de tables CAS

Exemple d'utilisation avec des paramètres étendus : ciblage par caslib, filtre where pour traiter un sous-ensemble des données à la volée, et promotion de la table finale.

1PROC CAS;
2 textParse.tpWordVector /
3 TABLE={name="ma_table_offset", caslib="casuser", where="_Index_ < 1000"}
4 modelTable={name="modele_glove_preentraine", caslib="public"}
5 casOut={name="vecteurs_promus", caslib="casuser", promote=true, replace=true};
6RUN;
Résultat Attendu :
Génère et promeut en mémoire globale la table 'vecteurs_promus' dans le caslib 'casuser', mais uniquement pour un sous-ensemble limité par la clause where (Index inférieur à 1000).