boolRule

brScore

##deeplearning ##set_boolrule

Description

L'action brScore du jeu d'actions Boolean RuleCondition logique combinant des variables via des opérateurs (AND, OR, NOT). Elle permet de filtrer des données ou de définir des segments précis selon des critères de vrai ou faux. (boolRuleAction de filtrage ou de classification basée sur une expression logique (ET, OU, NON). Elle permet de valider des conditions spécifiques pour segmenter des données ou déclencher des événements.) est l'arbitre de vos données textuelles. Elle prend des règles booléennes (souvent générées par brTrain ) et les applique à de nouvelles données pour voir quels documents correspondent à quels critères. C'est un moyen extrêmement efficace et explicitable de classifier du texte sans l'effet 'boîte noire' de certains modèles de Deep LearningSous-ensemble du Machine Learning basé sur des réseaux de neurones artificiels profonds. Il excelle dans l'extraction automatique de motifs complexes depuis des données brutes (images, texte, son).. Si un document contient les bons mots-clés selon la logique ET/OU/NON, il gagne son badge de conformité !

Syntaxe Officielle
boolRule.brScore /
casOut={casouttable},
docId="variable-name",
nThreads=integer,
ruleTerms={castable},
table={castable},
termId="variable-name",
useOldNames=TRUE | FALSE

Paramètres Clés

Nom du paramètre Description
ruleTerms Indique la table de données contenant les termes de chaque règle générée par l'action d'entraînement. C'est le dictionnaire de votre manuel de règles.
table La table d'entrée contenant les données textuelles à évaluer (scorer).
casOut La table de sortie qui stockera les résultats : quels documents ont 'matché' avec quelles règles.
docId Le nom de la colonne servant d'identifiant unique pour les documents. Par défaut : _document_.
termId Le nom de la colonne contenant l'identifiant des termes. Par défaut : _termnum_.
nThreads Nombre de threads à utiliser par nœud pour paralléliser le travail et aller plus vite que la lumière (ou presque).

Préparation des données

Préparation des données pour le scoring

Nous créons ici une table de termes par document et une table de règles simplifiée pour illustrer le mécanisme de scoring.

1DATA mycas.test_terms;
2 INPUT _document_ _termnum_;
3 DATALINES;
41 10
51 20
62 10
73 30
8;
9RUN;
10DATA mycas.rules_definitions;
11 INPUT _batch_ _ruleid_ _termnum_ _sign_;
12 DATALINES;
131 1 10 1
141 1 20 1
151 2 30 1
16;
17RUN;

Exemples d'utilisation

Exemple

Application des règles de base sur une table de documents.

1PROC CAS;
2 boolRule.brScore / TABLE={name="test_terms"}, ruleTerms={name="rules_definitions"}, casOut={name="score_results", replace=true};
3RUN;
Résultat Attendu :
Une table CAS nommée 'score_results' est créée, indiquant pour chaque document s'il satisfait les règles définies.
Exemple

Utilisation de colonnes d'identifiants spécifiques et limitation des ressources de calcul.

1PROC CAS;
2 boolRule.brScore /
3 TABLE={name="test_terms", where="_termnum_ > 0"},
4 ruleTerms={name="rules_definitions"},
5 docId="_document_",
6 termId="_termnum_",
7 nThreads=4,
8 casOut={name="score_results_adv", replace=true, label="Résultats scoring complexe"};
9RUN;
Résultat Attendu :
Le scoring est effectué sur un sous-ensemble des données (where clause), avec une parallélisation contrôlée (4 threads) et une table de sortie étiquetée.