Le paramètre litiChunkSize détermine la taille des blocs utilisés pour le traitement d'un document. Par défaut, la taille de bloc est de "32K". Une valeur de ALL indique qu'aucun découpage n'est effectué et que l'intégralité du document est chargée et traitée en une seule fois. La taille peut être spécifiée en octets (B), kilooctets (K) ou mégaoctets (M). Des tailles de blocs plus petites (par exemple, 16K ou 32K) sont avantageuses pour le traitement de documents avec une mémoire limitée ou pour un traitement incrémentiel. L'utilisation de ALL peut ne pas être optimale pour de très grands documents en raison d'une consommation mémoire élevée et d'une performance réduite. Pour les documents volumineux, privilégiez des tailles de blocs plus petites, telles que 32K ou 64K, afin d'améliorer la vitesse de traitement et de réduire la consommation de mémoire.
Comment optimiser le traitement des documents volumineux via la taille des blocs (chunks) ?
Cette réponse vous a-t-elle aidé ?
Exemples pour l'action applyConcept
Application du modèle de concept de base
Cet exemple applique l'action %%applyConcept%% avec la configuration minimale requise. En omettant le paramètre %%model%%, le système est intelligent et utilise son modèle de base !
Extraction avancée avec filtrage de concepts et optimisation mémoire
Dans cette approche plus chirurgicale, nous configurons le type de correspondance sur la plus longue (%%LONGEST%%), divisons le traitement textuel en petits morceaux de 16 Ko (%%litiChunkSize%%), ignorons volontairement un concept spécifique (%%nlpPerson%%) et exportons les règles matchées (%%ruleMatchOut%%).