FCN
Un réseau de neurones entièrement convolutionnel (Fully Convolutional Network, FCN) est un type de modèle particulièrement adapté aux tâches de segmentation d’image, où chaque pixel de l’image doit être classé dans une catégorie. Ce modèle repose sur deux parties principales :
- L’encodeur : Réduit progressivement la taille spatiale de l’image d’entrée tout en capturant des caractéristiques de plus en plus complexes. Il extrait des représentations à plusieurs niveaux de l’image.
- Le décodeur : Reconstruit la résolution spatiale d’origine de l’image tout en générant une carte de segmentation où chaque pixel est classé.
1. Section Encodeur du FCN
L’encodeur suit une approche classique des réseaux convolutionnels (CNN), où des couches de convolutions sont alternées avec des couches de pooling pour extraire des caractéristiques tout en réduisant progressivement la taille de l’image. Cet encodeur est souvent inspiré d’architectures CNN comme VGG, ResNet, etc.
Voici un exemple basique de la structure d’un encodeur :
Étapes dans l’encodeur
- Chaque couche de convolution applique des filtres qui apprennent à détecter des caractéristiques (bords, textures, motifs complexes).
- Le pooling (généralement max-pooling) est utilisé pour réduire la taille de la carte de caractéristiques tout en conservant les informations les plus importantes.
- À chaque étape, la profondeur (nombre de canaux) augmente tandis que la taille spatiale diminue.
Exemple d’encodeur avec des convolutions et max-pooling
Dans cet exemple, l’encodeur prend une image d’entrée de 224x224x3 (comme dans VGG-16 par exemple) et réduit progressivement la taille jusqu’à 7x7x512 à travers cinq couches convolutionnelles et cinq couches de max-pooling.
2. Section Décodeur du FCN
Le décodeur effectue l’inverse de l’encodeur. Il remonte progressivement la taille des cartes de caractéristiques tout en générant une carte de segmentation avec la même taille que l’image d’entrée. L’upsampling est réalisé à l’aide de convolutions transposées (ou déconvolutions) ou d’interpolations pour restaurer la résolution.
Étapes dans le décodeur
- Convolutions transposées ou UpSampling : Ces opérations augmentent la taille de la carte de caractéristiques à chaque étape.
- À la fin du décodeur, une couche de convolution finale (souvent de taille 1x1) est utilisée pour générer la carte de segmentation.
Exemple de décodeur avec convolutions transposées
Dans cet exemple, le décodeur prend la sortie de l’encodeur (de taille 7x7x512) et utilise des convolutions transposées pour la ramener progressivement à la taille d’origine (224x224). La dernière couche applique une convolution 1x1 pour produire une carte de segmentation où chaque pixel a un score pour chaque classe.
3. FCN complet : Combinaison de l’encodeur et du décodeur
Maintenant que nous avons construit les sections d’encodeur et de décodeur, nous pouvons les combiner pour former un réseau de neurones entièrement convolutionnel complet.
Construction d’un modèle FCN complet
Ce modèle combine l’encodeur et le décodeur pour former un réseau de segmentation complet qui prend une image en entrée et produit une carte de segmentation en sortie.
Explication détaillée :
- L’encodeur :
- L’encodeur est basé sur des couches convolutionnelles et de pooling pour capturer des caractéristiques à différentes échelles tout en réduisant la taille de l’image. Il permet d’extraire des représentations utiles pour la tâche de segmentation.
- Le décodeur :
- Le décodeur applique des convolutions transposées pour upsampler les caractéristiques extraites par l’encodeur, restaurant ainsi la taille spatiale de l’image d’origine.
- La dernière couche de convolution permet de générer une carte de segmentation où chaque pixel est classifié dans une des n classes (21 dans notre exemple).
Conclusion
Ce modèle FCN combine un encodeur qui extrait des caractéristiques complexes à partir d’une image et un décodeur qui reconstruit la résolution spatiale d’origine pour fournir une segmentation précise. L’utilisation de convolutions transposées permet au modèle de restaurer les détails perdus lors de la réduction de l’image dans l’encodeur. Ce type de réseau est utilisé dans diverses tâches de segmentation d’image, telles que la segmentation sémantique, la segmentation d’objets et la détection de contours.