Une segmentation sémantique de haute précision exige une phase de Natural Language Processing rigoureuse. Historiquement, cette action embarquait un bloc de configuration nommé textParse pour piloter le comportement linguistique. En tant qu'architecte de solutions, vous pouviez y définir la langue d'analyse, forcer la racinisation linguistique via le paramètre stemming, ou encore cibler l'extraction de groupes nominaux. Pour les cas d'usage métiers nécessitant un contrôle absolu du bruit, le paramètre keepWords permettait d'injecter une table de référence. Une opération d'ingénierie courante consistait à charger une table de vocabulaire restreint, par exemple via une instruction complexe comme table.loadtable avec le filtre where sur la colonne varchar, afin de circonscrire l'algorithme K-MeansLe clustering K-means (ou algorithme des k-moyennes) est une méthode d'apprentissage automatique non supervisé qui sert à diviser des données non étiquetées en $k$ groupes distincts (clusters) selon leurs similitudes. uniquement aux termes porteurs de valeur ajoutée pour votre entreprise.
Comment le moteur NLP préparait-il vos documents bruts avant l'étape de segmentation K-Means ?
Architecture de Pré-traitement NLP sous Viya
Exemples pour l'action dataSegment
Clustering textuel de base
Utilisation simple et directe de dataSegment pour classer automatiquement nos 4 avis clients en 2 clusters sémantiques. Remarquez que la configuration textParse est soigneusement ajustée pour la langue française.
Segmentation experte avec filtrage par dictionnaire personnalisé et paramétrage algorithmique
Cette approche 'overkill' pour seulement quatre malheureuses lignes de texte illustre parfaitement les capacités avancées du paramètre 'keepWords', réduisant drastiquement le bruit du texte. On y impose aussi un maximum d'itérations, une convergence stricte et une graine aléatoire fixe.