searchAnalytics

buildTermIndex

##set_searchanalytics

Description

L'action buildTermIndex de l'ensemble d'actions searchAnalyticssearchAnalytics est une action CAS permettant d'indexer et d'analyser des données textuelles pour effectuer des recherches complexes, extraire des tendances et mesurer la pertinence des résultats. permet de créer une table d'indexStructure de données accélérant la lecture des lignes d'une table en ciblant directement les valeurs des colonnes indexées, réduisant ainsi les entrées/sorties disque et le temps de traitement. des termes pour les termes significatifs. En gros, c'est l'outil idéal pour extraire la substantifique moelle de vos documents indexés et permettre à votre moteur de recherche de savoir exactement de quoi on parle, sans se perdre dans un dictionnaire entier. Elle identifie les mots-clés importants qui aideront à affiner l'expérience utilisateur lors des recherches.

Syntaxe Officielle
searchAnalytics.buildTermIndex /
casOut={caslib="string", name="nom-table", replace=TRUE|FALSE, ...},
fields={"champ-1", "champ-2"},
language="ARABIC"|"CHINESE"|"ENGLISH"|"FRENCH"|...,
table={caslib="string", name="nom-table-index", ...},
tokenize=TRUE|FALSE;

Paramètres Clés

Nom du paramètre Description
casOut Spécifie les paramètres de la table de sortie qui contiendra la liste des termes générée. C'est ici que votre futur index prendra racine.
fields Optionnel. Liste des champs (colonnes) dans lesquels la fréquence des termes doit être comptée. Si vous ne spécifiez rien, l'action cherchera partout.
language Définit la langue utilisée pour la segmentation (tokenization) des champs. Supporte de nombreuses langues dont le 'FRENCH'. Par défaut : 'UNIVERSAL'.
table La table CAS d'entrée qui sert de base pour l'extraction des termes. Elle est souvent désignée par l'alias 'index'.
tokenize Valeur booléenne indiquant si le texte des champs doit être décomposé en jetons (tokens) individuels. Indispensable si vous traitez du texte brut.

Préparation des données

Création de données textuelles pour l'indexation

Nous créons une table de commentaires clients pour démontrer l'extraction de termes.

1DATA casuser.commentaires;
2 LENGTH text $200;
3 INPUT id text $;
4 DATALINES;
51 SAS Viya est une plateforme analytique puissante
62 Le texte brut nécessite un bon tokenizer
73 L'analyse de recherche améliore l'expérience utilisateur
84 Le cloud est l'avenir de l'analytique
9;
10RUN;

Exemples d'utilisation

Extraction de base des termes

Ce code crée une table simple contenant tous les termes trouvés dans la table d'entrée.

1PROC CAS;
2 searchAnalytics.buildTermIndex /
3 TABLE={name="commentaires"},
4 casOut={name="index_termes_simple", replace=true};
5RUN;
6QUIT;
Résultat Attendu :
Une table CAS nommée index_termes_simple est créée avec les termes extraits.
Extraction avancée avec segmentation en Français

Ici, on spécifie que le texte est en français, on active la segmentation et on cible une colonne précise.

1PROC CAS;
2 searchAnalytics.buildTermIndex /
3 TABLE={name="commentaires"},
4 fields={"text"},
5 language="FRENCH",
6 tokenize=true,
7 casOut={name="index_termes_complet", replace=true, label="Index des termes significatifs"};
8RUN;
9QUIT;
Résultat Attendu :
Une table détaillée contenant les termes segmentés (tokens) filtrés pour la langue française.