Quels sont les schémas d'initialisation des poids de filtre pour les couches convolutionnelles et comment les configurer ?

Le paramètre init permet de spécifier le schéma d'initialisation des poids des filtres pour les couches telles que CONVOLUTION. Voici les options courantes :

  • CAUCHY : Les poids sont initialisés de manière que la médiane soit 0 et l'échelle soit 1.
  • MSRA (inclut MSRA1, MSRA2) : Utilise le schéma d'initialisation de He et al. (2015), adapté aux fonctions d'activation ReLU.
  • NORMAL : Les poids sont initialisés selon une distribution normale avec une moyenne de 0 et un écart-type de 1. Vous pouvez ajuster ces valeurs avec les paramètres mean et std.
  • UNIFORM : Les poids sont initialisés selon une distribution uniforme avec une moyenne de 0 et une demi-étendue de 1.
  • XAVIER (inclut XAVIER1, XAVIER2) : Utilise le schéma d'initialisation de Glorot et Bengio (2010), adapté aux fonctions d'activation sigmoïde ou tanh.

Pour l'initialisation NORMAL, vous pouvez également spécifier :

  • mean : La valeur moyenne pour l'initialisation normale (par défaut 0).
  • std : L'écart-type pour l'initialisation normale (par défaut 1).
  • truncationFactor : Un seuil de troncature pour l'initialisation normale, défini comme truncationFactor * écart-type (par défaut 0).

Le paramètre initBias (alias initB) permet de définir le biais initial de la couche (par défaut 0).

Cette réponse vous a-t-elle aidé ?

Vos votes aident à améliorer notre base de connaissances.

Exemples pour l'action addLayer

1. Ajout de la couche d'entrée (INPUT)
Illustration corporate

Cet exemple définit la couche INPUT (tenseurs RGB 3x32x32). Le paramètre scale (1/255) normalise les pixels dans [0,1], une étape critique pour stabiliser la descente de gradient.

2. Ajout d'une couche de convolution (CONVO)
Illustration corporate

Cet exemple intègre une couche CONVO (16 filtres 3x3, stride=1). L'activation ReLU introduit la non-linéarité, et l'initialisation XAVIER préserve la variance des gradients.

Assemblage d'un réseau CNN de bout en bout
Illustration corporate

Cet exemple finalise le CNN : Max Pooling (réduction spatiale), FC (dropout 0.2) et OUTPUT Softmax (entropie croisée).