SAS Viya : Action buildTermIndex | Indexation de Termes CAS

Description

L'action buildTermIndex de l'ensemble d'actions searchAnalyticssearchAnalytics est une action CAS permettant d'indexer et d'analyser des données textuelles pour effectuer des recherches complexes, extraire des tendances et mesurer la pertinence des résultats. permet de créer une table d'indexStructure de données accélérant la lecture des lignes d'une table en ciblant directement les valeurs des colonnes indexées, réduisant ainsi les entrées/sorties disque et le temps de traitement. des termes pour les termes significatifs. En gros, c'est l'outil idéal pour extraire la substantifique moelle de vos documents indexés et permettre à votre moteur de recherche de savoir exactement de quoi on parle, sans se perdre dans un dictionnaire entier. Elle identifie les mots-clés importants qui aideront à affiner l'expérience utilisateur lors des recherches.

Syntaxe Officielle

                                searchAnalytics.buildTermIndex / 

  casOut={caslib="string", name="nom-table", replace=TRUE|FALSE, ...}, 

  fields={"champ-1", "champ-2"}, 

  language="ARABIC"|"CHINESE"|"ENGLISH"|"FRENCH"|..., 

  table={caslib="string", name="nom-table-index", ...}, 

  tokenize=TRUE|FALSE;

Paramètres Clés

Nom du paramètre	Description
casOut	Spécifie les paramètres de la table de sortie qui contiendra la liste des termes générée. C'est ici que votre futur index prendra racine.
fields	Optionnel. Liste des champs (colonnes) dans lesquels la fréquence des termes doit être comptée. Si vous ne spécifiez rien, l'action cherchera partout.
language	Définit la langue utilisée pour la segmentation (tokenization) des champs. Supporte de nombreuses langues dont le 'FRENCH'. Par défaut : 'UNIVERSAL'.
table	La table CAS d'entrée qui sert de base pour l'extraction des termes. Elle est souvent désignée par l'alias 'index'.
tokenize	Valeur booléenne indiquant si le texte des champs doit être décomposé en jetons (tokens) individuels. Indispensable si vous traitez du texte brut.

Préparation des données

Création de données textuelles pour l'indexation

Nous créons une table de commentaires clients pour démontrer l'extraction de termes.

1	DATA casuser.commentaires;
2	LENGTH text $200;
3	INPUT id text $;
4	DATALINES;
5	1 SAS Viya est une plateforme analytique puissante
6	2 Le texte brut nécessite un bon tokenizer
7	3 L'analyse de recherche améliore l'expérience utilisateur
8	4 Le cloud est l'avenir de l'analytique
9	;
10	RUN;

Exemples d'utilisation

Extraction de base des termes

Ce code crée une table simple contenant tous les termes trouvés dans la table d'entrée.

1	PROC CAS;
2	searchAnalytics.buildTermIndex /
3	TABLE={name="commentaires"},
4	casOut={name="index_termes_simple", replace=true};
5	RUN;
6	QUIT;

Résultat Attendu :

                                                    Une table CAS nommée index_termes_simple est créée avec les termes extraits.                                                

Extraction avancée avec segmentation en Français

Ici, on spécifie que le texte est en français, on active la segmentation et on cible une colonne précise.

1	PROC CAS;
2	searchAnalytics.buildTermIndex /
3	TABLE={name="commentaires"},
4	fields={"text"},
5	language="FRENCH",
6	tokenize=true,
7	casOut={name="index_termes_complet", replace=true, label="Index des termes significatifs"};
8	RUN;
9	QUIT;

Résultat Attendu :

                                                    Une table détaillée contenant les termes segmentés (tokens) filtrés pour la langue française.