Le dilemme du Data Scientist vocal : devez-vous parametrer des Filter Banks ou des MFCC pour maximiser la precision de vos algorithmes ?

Question

FBank vs MFCC : Optimisation du Feature Engineering Vocal

Nicolas Housset · Accepted Answer

C'est une excellente question métier et technique. L'action propose à la fois le paramètre fbankOptions et le paramètre mfccOptions, chacun servant une architecture de Machine Learning différente.Les Filter Banks (ou FBank) génèrent des coefficients très corrélés entre eux. C'est l'approche idéale si vous utilisez des algorithmes de Deep Learning modernes. Vous pouvez y paramétrer l'énergie brute ou utiliser une échelle logarithmique via useLogFbank.Les Mel-Frequency Cepstral Coefficients (ou MFCC) appliquent une transformée en cosinus discrète pour dé-corréler les caractéristiques. C'est l'approche historique recommandée pour des modèles traditionnels comme les modèles de Markov cachés. Vous pouvez définir le nombre exact de coefficients via l'option nCeps.N'oubliez pas d'utiliser le paramètre featureScalingMethod avec la valeur STANDARDIZATION pour vous assurer que vos features aient une moyenne de zéro et une variance de un, une condition sine qua non pour la convergence rapide de l'apprentissage.

Le dilemme du Data Scientist vocal : devez-vous parametrer des Filter Banks ou des MFCC pour maximiser la precision de vos algorithmes ?

Exemples pour l'action computeFeatures

Extraction basique de coefficients MFCC

Extraction avancée avec normalisation et contexte

Conseil de l'Expert

Action CAS associée

À lire aussi...