Le dilemme du Data Scientist vocal : devez-vous parametrer des Filter Banks ou des MFCC pour maximiser la precision de vos algorithmes ?

FBank vs MFCC : Optimisation du Feature Engineering Vocal

C'est une excellente question métier et technique. L'action propose à la fois le paramètre fbankOptions et le paramètre mfccOptions, chacun servant une architecture de Machine LearningBranche de l'IA utilisant des algorithmes pour apprendre des modèles à partir de données. Il permet d'automatiser des prédictions ou des décisions sans programmation explicite de chaque règle. différente.

  • Les Filter Banks (ou FBankBanque de filtres de Mel découpant le spectre audio en bandes fréquentielles. Utilisée dans SAS Viya pour extraire des caractéristiques acoustiques proches de l'audition humaine (Deep Learning).) génèrent des coefficients très corrélés entre eux. C'est l'approche idéale si vous utilisez des algorithmes de Deep LearningSous-ensemble du Machine Learning basé sur des réseaux de neurones artificiels profonds. Il excelle dans l'extraction automatique de motifs complexes depuis des données brutes (images, texte, son). modernes. Vous pouvez y paramétrer l'énergie brute ou utiliser une échelle logarithmique via useLogFbank.
  • Les Mel-Frequency Cepstral CoefficientsCoefficients représentant le spectre de puissance d'un son sur l'échelle de Mel. Utilisés dans SAS Viya pour l'analyse audio et la reconnaissance vocale en mimant la perception auditive humaine. (ou MFCC) appliquent une transformée en cosinus discrète pour dé-corréler les caractéristiques. C'est l'approche historique recommandée pour des modèles traditionnels comme les modèles de Markov cachés. Vous pouvez définir le nombre exact de coefficients via l'option nCeps.

N'oubliez pas d'utiliser le paramètre featureScalingMethod avec la valeur STANDARDIZATION pour vous assurer que vos features aient une moyenne de zéro et une varianceMesure statistique de la dispersion des données indiquant l'écart carré moyen par rapport à la moyenne. Une variance élevée traduit une grande hétérogénéité des observations autour du centre. de un, une condition sine qua non pour la convergence rapide de l'apprentissage.

Exemples pour l'action computeFeatures

Extraction basique de coefficients MFCC

Calcul des 13 coefficients MFCC par défaut sur une table audio chargée.

Extraction avancée avec normalisation et contexte

Configuration complète utilisant des banques de filtres logarithmiques, un fenêtrage de Hamming et une normalisation statistique avec contexte.