textRuleDevelop

compileConcept

##set_textruledevelop

Description

L'action compileConcept  est le cerveau qui transforme vos règles linguistiques (souvent écrites en langage LITI) en un modèle  binaire optimisé

L'action compileConcept est le cerveau qui transforme vos règles linguistiques (souvent écrites en langage LITI) en un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). binaire optimisé. Ce modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting)., une fois compilé, peut être utilisé par d'autres actions comme tpParse ou tmMine pour extraire des entités ou des faits complexes depuis vos textes. C'est un peu comme transformer votre dictionnaire de poche en une super-intelligence capable de repérer des concepts spécifiques en un clin d'œil !

Syntaxe Officielle
textRuleDevelop.compileConcept /
casOut={caslib="nom_caslib", name="nom_table_sortie", replace=true},
table={caslib="nom_caslib", name="nom_table_entree"},
config="nom_colonne_config",
ruleId="nom_colonne_id_regle",
language="FRENCH",
enablePredefined=true,
predefinedSentiment=false,
tokenizer="STANDARD";

Paramètres Clés

Nom du paramètre Description
casOut Spécifie la table CAS de sortie qui contiendra le modèle conceptuel binaire. Ce fichier est indispensable pour les étapes ultérieures de parsing.
table Désigne la table CAS d'entrée contenant vos définitions de concepts et vos règles LITI.
config Nom de la colonne dans la table d'entrée qui contient le texte brut de la configuration ou des règles linguistiques.
ruleId Indique la colonne servant d'identifiant unique pour chaque règle. Pratique pour ne pas s'emmêler les pinceaux !
language Définit la langue utilisée pour le traitement linguistique (ex: FRENCH, ENGLISH, SPANISH).
enablePredefined Si activé (TRUE), inclut les entités prédéfinies de SAS (comme les dates, les noms de lieux, etc.) dans le modèle compilé.
predefinedSentiment Si TRUE, permet d'étendre le modèle de sentiment prédéfini pour la langue sélectionnée.
tokenizer Définit la méthode de segmentation du texte. 'STANDARD' est la norme, mais 'BASIC' peut être utile pour certaines langues asiatiques.

Préparation des données

Préparation des règles de concepts

Création d'une table CAS contenant une règle simple pour extraire des mentions de boissons caféinées.

1DATA casuser.concepts_rules;
2 LENGTH config $200 ruleId 8;
3 ruleId=1; config='CONCEPT:Caféine: (OR, "café", "thé", "expresso")'; OUTPUT;
4RUN;
5PROC CAS;
6 TABLE.loadtable / path="concepts_rules.sas7bdat", casout={name="concepts_rules"};
7QUIT;

Exemples d'utilisation

Compilation basique d'un modèle de concepts

Cet exemple compile simplement les règles présentes dans la table d'entrée vers un modèle binaire.

1PROC CAS;
2 textRuleDevelop.compileConcept /
3 TABLE={name="concepts_rules"},
4 config="config",
5 ruleId="ruleId",
6 casOut={name="compiled_concept_model", replace=true};
7RUN; QUIT;
Résultat Attendu :
Une table binaire nommée 'compiled_concept_model' est créée dans la bibliothèque active.
Compilation avancée avec entités prédéfinies et langue française

On compile ici un modèle en spécifiant explicitement le français et en activant les entités prédéfinies de SAS (comme CURRENCY, DATE, etc.) pour enrichir notre analyse future.

1PROC CAS;
2 textRuleDevelop.compileConcept /
3 TABLE={name="concepts_rules"},
4 config="config",
5 ruleId="ruleId",
6 language="FRENCH",
7 enablePredefined=true,
8 tokenizer="STANDARD",
9 casOut={
10 caslib="casuser",
11 name="full_concept_model_fr",
12 replace=true,
13 promote=true
14 };
15RUN; QUIT;
Résultat Attendu :
Le journal confirme la compilation réussie. La table 'full_concept_model_fr' contient désormais vos règles personnalisées ET les entités standard de SAS, prête à être partagée avec d'autres sessions (promote=true).