compileConcept
Description
L'action compileConcept est le cerveau qui transforme vos règles linguistiques (souvent écrites en langage LITI) en un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). binaire optimisé. Ce modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting)., une fois compilé, peut être utilisé par d'autres actions comme tpParse ou tmMine pour extraire des entités ou des faits complexes depuis vos textes. C'est un peu comme transformer votre dictionnaire de poche en une super-intelligence capable de repérer des concepts spécifiques en un clin d'œil !
Paramètres Clés
| Nom du paramètre | Description |
|---|---|
| casOut | Spécifie la table CAS de sortie qui contiendra le modèle conceptuel binaire. Ce fichier est indispensable pour les étapes ultérieures de parsing. |
| table | Désigne la table CAS d'entrée contenant vos définitions de concepts et vos règles LITI. |
| config | Nom de la colonne dans la table d'entrée qui contient le texte brut de la configuration ou des règles linguistiques. |
| ruleId | Indique la colonne servant d'identifiant unique pour chaque règle. Pratique pour ne pas s'emmêler les pinceaux ! |
| language | Définit la langue utilisée pour le traitement linguistique (ex: FRENCH, ENGLISH, SPANISH). |
| enablePredefined | Si activé (TRUE), inclut les entités prédéfinies de SAS (comme les dates, les noms de lieux, etc.) dans le modèle compilé. |
| predefinedSentiment | Si TRUE, permet d'étendre le modèle de sentiment prédéfini pour la langue sélectionnée. |
| tokenizer | Définit la méthode de segmentation du texte. 'STANDARD' est la norme, mais 'BASIC' peut être utile pour certaines langues asiatiques. |
Préparation des données
Préparation des règles de concepts
Création d'une table CAS contenant une règle simple pour extraire des mentions de boissons caféinées.
| 1 | DATA casuser.concepts_rules; |
| 2 | LENGTH config $200 ruleId 8; |
| 3 | ruleId=1; config='CONCEPT:Caféine: (OR, "café", "thé", "expresso")'; OUTPUT; |
| 4 | RUN; |
| 5 | PROC CAS; |
| 6 | TABLE.loadtable / path="concepts_rules.sas7bdat", casout={name="concepts_rules"}; |
| 7 | QUIT; |
Exemples d'utilisation
Compilation basique d'un modèle de concepts
Cet exemple compile simplement les règles présentes dans la table d'entrée vers un modèle binaire.
| 1 | PROC CAS; |
| 2 | textRuleDevelop.compileConcept / |
| 3 | TABLE={name="concepts_rules"}, |
| 4 | config="config", |
| 5 | ruleId="ruleId", |
| 6 | casOut={name="compiled_concept_model", replace=true}; |
| 7 | RUN; QUIT; |
Résultat Attendu :
Compilation avancée avec entités prédéfinies et langue française
On compile ici un modèle en spécifiant explicitement le français et en activant les entités prédéfinies de SAS (comme CURRENCY, DATE, etc.) pour enrichir notre analyse future.
| 1 | PROC CAS; |
| 2 | textRuleDevelop.compileConcept / |
| 3 | TABLE={name="concepts_rules"}, |
| 4 | config="config", |
| 5 | ruleId="ruleId", |
| 6 | language="FRENCH", |
| 7 | enablePredefined=true, |
| 8 | tokenizer="STANDARD", |
| 9 | casOut={ |
| 10 | caslib="casuser", |
| 11 | name="full_concept_model_fr", |
| 12 | replace=true, |
| 13 | promote=true |
| 14 | }; |
| 15 | RUN; QUIT; |