buildTermIndex
Description
L'action buildTermIndex de l'ensemble d'actions searchAnalyticssearchAnalytics est une action CAS permettant d'indexer et d'analyser des données textuelles pour effectuer des recherches complexes, extraire des tendances et mesurer la pertinence des résultats. permet de créer une table d'indexStructure de données accélérant la lecture des lignes d'une table en ciblant directement les valeurs des colonnes indexées, réduisant ainsi les entrées/sorties disque et le temps de traitement. des termes pour les termes significatifs. En gros, c'est l'outil idéal pour extraire la substantifique moelle de vos documents indexés et permettre à votre moteur de recherche de savoir exactement de quoi on parle, sans se perdre dans un dictionnaire entier. Elle identifie les mots-clés importants qui aideront à affiner l'expérience utilisateur lors des recherches.
Paramètres Clés
Préparation des données
Création de données textuelles pour l'indexation
Nous créons une table de commentaires clients pour démontrer l'extraction de termes.
| 1 | DATA casuser.commentaires; |
| 2 | LENGTH text $200; |
| 3 | INPUT id text $; |
| 4 | DATALINES; |
| 5 | 1 SAS Viya est une plateforme analytique puissante |
| 6 | 2 Le texte brut nécessite un bon tokenizer |
| 7 | 3 L'analyse de recherche améliore l'expérience utilisateur |
| 8 | 4 Le cloud est l'avenir de l'analytique |
| 9 | ; |
| 10 | RUN; |
Exemples d'utilisation
Extraction de base des termes
Ce code crée une table simple contenant tous les termes trouvés dans la table d'entrée.
| 1 | PROC CAS; |
| 2 | searchAnalytics.buildTermIndex / |
| 3 | TABLE={name="commentaires"}, |
| 4 | casOut={name="index_termes_simple", replace=true}; |
| 5 | RUN; |
| 6 | QUIT; |
Résultat Attendu :
Extraction avancée avec segmentation en Français
Ici, on spécifie que le texte est en français, on active la segmentation et on cible une colonne précise.
| 1 | PROC CAS; |
| 2 | searchAnalytics.buildTermIndex / |
| 3 | TABLE={name="commentaires"}, |
| 4 | fields={"text"}, |
| 5 | language="FRENCH", |
| 6 | tokenize=true, |
| 7 | casOut={name="index_termes_complet", replace=true, label="Index des termes significatifs"}; |
| 8 | RUN; |
| 9 | QUIT; |