L'action applyCategory peut générer plusieurs tables de sortie pour détailler les résultats :
casOut : Spécifie le nom de la table de données de sortie des catégories, contenant les résultats de la catégorisation.
matchOut : Crée une table des termes correspondants qui détaille chaque correspondance de règle par ligne.
groupedMatchOut : Produit une table des termes correspondants regroupés par catégorie pour chaque document, offrant une vue consolidée des correspondances. Les informations sont les mêmes que matchOut mais dans un format différent, avec un délimiteur (matchDelimiter) qui est par défaut "|".
modelOut : Spécifie le nom de la table de sortie du modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). de catégories.
Exemple de Code Additionnel
<pre>/* CASL Script : Analyse Granulaire avec applyCategory
(c) Nicolas Housset 2026 */
proc cas;
textMining.applyCategory /
table={name="REVIEWS_DATA", caslib="Public"}
model={name="SENTIMENT_MODEL", caslib="Models"}
text="review_text"
docId="review_id"
/* Sortie standard : Résultats par document */
casOut={name="CAT_RESULTS", caslib="Casuser", replace=true}
/* Sortie détaillée : Chaque occurrence de règle /
matchOut={name="CAT_MATCHES", caslib="Casuser", replace=true}
/* Sortie groupée : Synthèse des termes par catégorie */
groupedMatchOut={name="CAT_GROUPED", caslib="Casuser", replace=true};
quit;</pre>
1
<pre>/* CASL Script : Analyse Granulaire avec applyCategory
Gemini said
Cet exemple automatise l'extraction de concepts via l'action applyCategory. Il projette un modèle de règles linguistiques sur un corpus CAS pour mapper chaque docId à ses thématiques cibles.
Cet exemple déploie un scoring pondéré pour isoler les déclencheurs textuels. Il génère une traçabilité granulaire via matchOut et groupedMatchOut afin d'auditer les preuves de classification.
Conseil de l'Expert
Pour des performances optimales sur de gros volumes de données (plusieurs millions de lignes), évitez de générer systématiquement la table matchOut en environnement de production. Elle peut devenir extrêmement volumineuse car elle génère une ligne par "match". Réservez-la pour la phase de Test & Validation de vos concepts linguistiques (LCO) afin d'ajuster la précision de vos règles de catégorisation.
Cette réponse vous a-t-elle aidé ?
Vos votes aident à améliorer notre base de connaissances.