Architecture de Pré-traitement NLP sous Viya

Comment le moteur NLP préparait-il vos documents bruts avant l'étape de segmentation K-Means ? - dataSegment

Une segmentation sémantique de haute précision exige une phase de Natural Language Processing rigoureuse. Historiquement, cette action embarquait un bloc de configuration nommé textParse pour piloter le comportement linguistique. En tant qu'architecte de solutions, vous pouviez y définir la langue d'analyse, forcer la racinisation linguistique via le paramètre stemming, ou encore cibler l'extraction de groupes nominaux. Pour les cas d'usage métiers nécessitant un contrôle absolu du bruit, le paramètre keepWords permettait d'injecter une table de référence. Une opération d'ingénierie courante consistait à charger une table de vocabulaire restreint, par exemple via une instruction complexe comme table.loadtable avec le filtre where sur la colonne varchar, afin de circonscrire l'algorithme K-MeansLe clustering K-means (ou algorithme des k-moyennes) est une méthode d'apprentissage automatique non supervisé qui sert à diviser des données non étiquetées en $k$ groupes distincts (clusters) selon leurs similitudes. uniquement aux termes porteurs de valeur ajoutée pour votre entreprise.

Comment le moteur NLP préparait-il vos documents bruts avant l'étape de segmentation K-Means ?

Exemples pour l'action dataSegment

Clustering textuel de base

Segmentation experte avec filtrage par dictionnaire personnalisé et paramétrage algorithmique

Conseil de l'Expert

Action CAS associée

À lire aussi...