Stratégie de Correspondance : Le Paramètre matchType

Quelles sont les options de correspondance pour l'extraction de concepts et leur impact ? - applyConcept

Le paramètre matchType spécifie le type de correspondance d'entrée et peut prendre les valeurs "ALL", "BEST", ou "LONGEST". La valeur par défaut est ALL.

Schéma : Quelles sont les options de correspondance pour l'extraction de concepts et leur impact ?

Exemple de Code Additionnel

1	<pre>/* CASL Script : Gestion des Chevauchements avec matchType
2	(c) Nicolas Housset 2026 */
3	PROC CAS;
4	/* Chargement de l'action set d'analyse textuelle */
5	LOADACTIONSET "textRuleScore";
6	/* Application du modèle avec la stratégie de correspondance "La plus longue" */
7	textRuleScore.applyConcept /
8	TABLE={
9	name="corpus_bancaire",
10	caslib="Public"
11	}
12	model={
13	name="modele_entites_financieres",
14	caslib="Public"
15	}
16	docId="document_id"
17	text="contenu"
18	casOut={
19	name="concepts_extraits",
20	caslib="casuser",
21	replace=true
22	}
23	/* Paramètre stratégique : on ne garde que l'entité la plus longue
24	pour éviter le multi-comptage sur les mots imbriqués */
25	matchType="LONGEST";
26	PRINT "Exécution terminée. Les concepts ont été extraits sans chevauchement (LONGEST).";
27	RUN;
28	QUIT;</pre>

Exemples pour l'action applyConcept

Application du modèle de concept de base

Cet exemple illustre l'extraction d'entités via l'action applyConcept. Sans paramètre model, le moteur NLP déploie son modèle LISI natif pour isoler types d'entités et faits structurés.

Extraction avancée avec filtrage de concepts et optimisation mémoire

Cet exemple optimise l'action applyConcept : segmentation par chunks de 16 Ko, filtrage sélectif via dropConcepts et traçabilité des règles avec ruleMatchOut pour un scoring haute précision.

Conseil de l'Expert

Dans 90% des projets de NLP (Traitement du Langage Naturel) que je supervise, laisser le paramètre matchType sur sa valeur par défaut ("ALL") génère du "bruit" analytique et fausse les comptages dans vos tableaux de bord.

Pourquoi ? Parce que "ALL" autorise les chevauchements. Si votre texte contient "Banque Nationale de Paris", un modèle peut extraire "Banque", "Banque Nationale", et "Banque Nationale de Paris" sur le même segment de texte, créant ainsi trois occurrences de concepts là où il n'y a qu'une seule entité réelle.

Cette réponse vous a-t-elle aidé ?