Détail de l'auteur
Auteur Christian Wolf |
Documents disponibles écrits par cet auteur (1)
Ajouter le résultat dans votre panier Affiner la recherche Interroger des sources externes
Réseaux de neurones convolutifs pour la segmentation sémantique et l'apprentissage d'invariants de couleur / Damien Fourure (2017)
Titre : Réseaux de neurones convolutifs pour la segmentation sémantique et l'apprentissage d'invariants de couleur Type de document : Thèse/HDR Auteurs : Damien Fourure, Auteur ; Alain Trémeau, Directeur de thèse ; Christian Wolf, Directeur de thèse Editeur : Université de Lyon Année de publication : 2017 Autre Editeur : Saint-Etienne : Université Jean-Monnet-Saint-Etienne Importance : 178 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse de Doctorat de l'Université de Lyon opérée au sein de l’Université Jean Monnet de Saint-Étienne, Spécialité de doctorat : InformatiqueLangues : Français (fre) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] apprentissage profond
[Termes IGN] architecture de réseau
[Termes IGN] chromatopsie
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] estimation de pose
[Termes IGN] intelligence artificielle
[Termes IGN] Perceptron multicouche
[Termes IGN] segmentation sémantique
[Termes IGN] vision par ordinateurIndex. décimale : THESE Thèses et HDR Résumé : (auteur) La vision par ordinateur est un domaine interdisciplinaire étudiant la manière dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d’images ou de vidéos numériques. En intelligence artificielle, et plus précisément en apprentissage automatique, domaine dans lequel se positionne cette thèse, la vision par ordinateur passe par l’extraction de caractéristiques présentes dans les images puis par la généralisation de concepts liés à ces caractéristiques. Ce domaine de recherche est devenu très populaire ces dernières années, notamment grâce aux résultats des réseaux de neurones convolutifs à la base des méthodes dites d’apprentissage profond. Aujourd’hui les réseaux de neurones permettent, entre autres, de reconnaître les différents objets présents dans une image, de générer des images très réalistes ou même de battre les champions au jeu de Go. Leurs performances ne s’arrêtent d’ailleurs pas au domaine de l’image puisqu’ils sont aussi utilisés dans d’autres domaines tels que le traitement du langage naturel (par exemple en traduction automatique) ou la reconnaissance de son. Dans cette thèse, nous étudions les réseaux de neurones convolutifs afin de développer des architectures et des fonctions de coûts spécialisées à des tâches aussi bien de bas niveau (la constance chromatique) que de haut niveau (la segmentation sémantique d’image). Une première contribution s’intéresse à la tâche de constance chromatique. En vision par ordinateur, l’approche principale consiste à estimer la couleur de l’illuminant puis à supprimer son impact sur la couleur perçue des objets. Les expériences que nous avons menées montrent que notre méthode permet d’obtenir des performances compétitives avec l’état de l’art. Néanmoins, notre architecture requiert une grande quantité de données d’entraînement. Afin de corriger en parti ce problème et d’améliorer l’entraînement des réseaux de neurones, nous présentons plusieurs techniques d’augmentation artificielle de données. Nous apportons également deux contributions sur une problématique de haut niveau : la segmentation sémantique d’image. Cette tâche, qui consiste à attribuer une classe sémantique à chacun des pixels d’une image, constitue un défi en vision par ordinateur de par sa complexité. D’une part, elle requiert de nombreux exemples d’entraînement dont les vérités terrains sont coûteuses à obtenir. D’autre part, elle nécessite l’adaptation des réseaux de neurones convolutifs traditionnels afin d’obtenir une prédiction dite dense, c’est-à-dire, une prédiction pour chacun pixel présent dans l’image d’entrée. Pour résoudre la difficulté liée à l’acquisition de données d’entrainements, nous proposons une approche qui exploite simultanément plusieurs bases de données annotées avec différentes étiquettes. Pour cela, nous définissons une fonction de coût sélective. Nous développons aussi une approche dites d’auto-contexte capturant d’avantage les corrélations existantes entre les étiquettes des différentes bases de données. Finalement, nous présentons notre troisième contribution : une nouvelle architecture de réseau de neurones convolutifs appelée GridNet spécialisée pour la segmentation sémantique d’image. Contrairement aux réseaux traditionnels, notre architecture est implémentée sous forme de grille 2D permettant à plusieurs flux interconnectés de fonctionner à différentes résolutions. Afin d’exploiter la totalité des chemins de la grille, nous proposons une technique d’entraînement inspirée du dropout. En outre, nous montrons empiriquement que notre architecture généralise de nombreux réseaux bien connus de l’état de l’art. Nous terminons par une analyse des résultats empiriques obtenus avec notre architecture qui, bien qu’entraînée avec une initialisation aléatoire des poids, révèle de très bonnes performances, dépassant les approches populaires souvent pré-entraînés. Note de contenu : 1- Introduction
2- Les réseaux de neurones convolutifs pour la vision par ordinateur
3- Sous-échantillonnage mixte appliqué à la constance chromatique
4- Segmentation sémantique d’images
5- Une fonction de coût sélective
6- GridNet, une architecture spécialisée pour la segmentation sémantique
7- Conclusion et PerspectivesNuméro de notice : 25838 Affiliation des auteurs : non IGN Thématique : IMAGERIE/INFORMATIQUE Nature : Thèse française Note de thèse : Thèse de Doctorat : Spécialité : Informatique : Lyon : 2017 Organisme de stage : Université Jean Monnet de Saint-Étienne + LIRIS nature-HAL : Thèse DOI : sans En ligne : https://tel.archives-ouvertes.fr/tel-02111472/document Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=95192