Descripteur



Etendre la recherche sur niveau(x) vers le bas
Titre : Alignement de données 2D, 3D et applications en réalité augmentée Type de document : Thèse/HDR Auteurs : Youssef El Rhabi, Auteur ; Luc Brun, Directeur de thèse Editeur : Caen [France] : Université de Caen Normandie Année de publication : 2017 Note générale : bibliographie
École doctorale mathématiques, information et ingénierie des systèmes (Caen)Langues : Français (fre) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes descripteurs IGN] données localisées 2D
[Termes descripteurs IGN] données localisées 3D
[Termes descripteurs IGN] estimation de pose
[Termes descripteurs IGN] réalité augmentée
[Termes descripteurs IGN] recalage d'image
[Termes descripteurs IGN] scène
[Termes descripteurs IGN] structure-from-motion
[Termes descripteurs IGN] temps réelRésumé : (auteur) Cette thèse s’inscrit dans le contexte de la réalité augmentée (RA). La problématique majeure consiste à calculer la pose d’une caméra en temps réel. Ce calcul doit être effectué en respectant trois critères principaux : précision, robustesse et rapidité. Dans le cadre de cette thèse, nous introduisons certaines méthodes permettant d’exploiter au mieux les primitives des images. Dans notre cas, les primitives sont des points que nous allons détecter puis décrire dans une image. Pour ce faire, nous nous basons sur la texture de cette image. Nous avons dans un premier temps mis en place une architecture favorisant le calcul rapide de la pose, sans perdre en précision ni en robustesse. Nous avons pour cela exploité une phase hors ligne, où nous reconstruisons la scène en 3D. Nous exploitons les informations que nous obtenons lors de cette phase hors ligne afin de construire un arbre de voisinage. Cet arbre lie les images de la base de données entre elles. Disposer de cet arbre nous permet de calculer la pose de la caméra plus efficacement en choisissant les images de la base de données jugées les plus pertinentes. Nous rendant compte que la phase de description et de comparaison des primitives n’est pas suffisamment rapide, nous en avons optimisé les calculs. Cela nous a mené jusqu’à proposer notre propre descripteur. Pour cela, nous avons dressé un schéma générique basé sur la théorie de l’information qui englobe une bonne part des descripteurs binaires, y compris un descripteur récent nommé BOLD. Notre objectif a été, comme pour BOLD, d’augmenter la stabilité aux changements d’orientation du descripteur produit. Afin de réaliser cela, nous avons construit un nouveau schéma de sélection hors ligne plus adapté à la procédure de mise en correspondance en ligne. Cela permet d’intégrer ces améliorations dans le descripteur que nous construisons. Procéder ainsi permet d’améliorer les performances du descripteur notamment en terme de rapidité en comparaison avec les descripteurs de l’état de l’art. Nous détaillons dans cette thèse les différentes méthodes que nous avons mises en place afin d’optimiser l’estimation de la pose d’une caméra. Nos travaux ont fait l’objet de 2 publications et d’un dépôt de brevet. Numéro de notice : 21388 Affiliation des auteurs : non IGN Thématique : IMAGERIE/INFORMATIQUE Nature : Thèse française Note de thèse : thèse : Informatique : Caen : 2017 Organisme de stage : Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen DOI : sans En ligne : https://tel.archives-ouvertes.fr/tel-01563734 Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=90143 Amélioration de la vitesse et de la qualité d'image du rendu basé image / Rodrigo Ortiz Cayón (2017)
![]()
Titre : Amélioration de la vitesse et de la qualité d'image du rendu basé image Type de document : Thèse/HDR Auteurs : Rodrigo Ortiz Cayón, Auteur ; George Drettakis, Directeur de thèse Editeur : Nice : Université Côte d'Azur Année de publication : 2017 Importance : 138 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse de doctorat en Informatique dans le cadre de l'École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)Langues : Français (fre) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes descripteurs IGN] apprentissage profond
[Termes descripteurs IGN] classification bayesienne
[Termes descripteurs IGN] estimation bayesienne
[Termes descripteurs IGN] estimation de pose
[Termes descripteurs IGN] image numérique
[Termes descripteurs IGN] reconstruction 3D
[Termes descripteurs IGN] rendu réalisteRésumé : (auteur) Le rendu photo-réaliste traditionnel exige un effort manuel et des calculs intensifs pour créer des scènes et rendre des images réalistes. C'est principalement pour cette raison que la création de contenus pour l’imagerie numérique de haute qualité a été limitée aux experts et le rendu hautement réaliste nécessite encore des temps de calcul significatifs. Le rendu basé image (IBR) est une alternative qui a le potentiel de rendre les applications de création et de rendu de contenus de haute qualité accessibles aux utilisateurs occasionnels, puisqu'ils peuvent générer des images photo-réalistes de haute qualité sans subir les limitations mentionnées ci-dessus. Nous avons identifié trois limitations importantes des méthodes actuelles de rendu basé image : premièrement, chaque algorithme possède des forces et faiblesses différentes, en fonction de la qualité de la reconstruction 3D et du contenu de la scène, et un seul algorithme ne permet souvent pas d’obtenir la meilleure qualité de rendu partout dans l’image. Deuxièmement, ces algorithmes présentent de forts artefacts lors du rendu d’objets manquants ou partiellement reconstruits. Troisièmement, la plupart des méthodes souffrent encore d'artefacts visuels significatifs dans les régions de l’image où la reconstruction est de faible qualité. Dans l'ensemble, cette thèse propose plusieurs améliorations significatives du rendu basé image aussi bien en termes de vitesse de rendu que de qualité d’image. Ces nouvelles solutions sont basées sur le rendu sélectif, la substitution de modèle basé sur l'apprentissage, et la prédiction et la correction des erreurs de profondeur. Numéro de notice : 21579 Affiliation des auteurs : non IGN Thématique : IMAGERIE Nature : Thèse française Note de thèse : Thèse de doctorat : informatique : Université Côte d'Azur : 2017 Organisme de stage : Institut national de recherche en informatique et en automatique DOI : sans date de publication en ligne : 06/06/2017 En ligne : http://www.theses.fr/2017AZUR4004 Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=90593
Titre : Cross-domain image localization by adaptive feature fusion Type de document : Article/Communication Auteurs : Neelanjan Bhowmik , Auteur ; Li Weng
, Auteur ; Valérie Gouet-Brunet
, Auteur ; Bahman Soheilian
, Auteur
Editeur : New York : Institute of Electrical and Electronics Engineers IEEE Année de publication : 2017 Projets : POEME / Da Silva, Jean-Claude Conférence : JURSE 2017, Joint urban remote sensing event 06/03/2017 08/03/2017 Dubai Emirats Arabes Unis Proceedings IEEE Importance : 4 p. Note générale : bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes descripteurs IGN] appariement d'images
[Termes descripteurs IGN] environnement de développement
[Termes descripteurs IGN] estimation de pose
[Termes descripteurs IGN] géopositionnement
[Termes descripteurs IGN] modèle de régression
[Termes descripteurs IGN] recherche d'image basée sur le contenu
[Termes descripteurs IGN] recherche d'information géographique
[Termes descripteurs IGN] similitudeRésumé : (auteur) We address the problem of cross-domain image localization, i.e., the ability of estimating the pose of a landmark from visual content acquired under various conditions, such as old photographs, paintings, photos taken at a particular season, etc. We explore a 2D approach where the pose is estimated from geo-localized reference images that visually match the query image. This work focuses on the retrieval of similar images, which is a challenging task for images across different domains. We propose a Content-Based Image Retrieval (CBIR) framework that adaptively combines multiple image descriptions. A regression model is used to select the best feature combinations according to their spatial complementarity, globally for a whole dataset as well as adaptively for each given image. The framework is evaluated on different datasets and the experiments prove its advantage over classical retrieval approaches. Numéro de notice : C2017-028 Affiliation des auteurs : LaSTIG MATIS (2012-2019) Thématique : IMAGERIE/INFORMATIQUE Nature : Communication nature-HAL : ComAvecCL&ActesPubliésIntl DOI : 10.1109/JURSE.2017.7924572 date de publication en ligne : 11/05/2017 En ligne : https://doi.org/10.1109/JURSE.2017.7924572 Format de la ressource électronique : URL article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=89292
Titre : Recherche multi-descripteurs dans les fonds photographiques numérisés Titre original : Multi-descriptor retrieval in digitalized photographs collections Type de document : Thèse/HDR Auteurs : Neelanjan Bhowmik , Auteur ; Valérie Gouet-Brunet
, Directeur de thèse
Editeur : Champs/Marne : Université Paris-Est Année de publication : 2017 Importance : 266 p. Format : 21 x 30 cm Note générale : bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes descripteurs IGN] base de données d'images
[Termes descripteurs IGN] collection
[Termes descripteurs IGN] descripteur
[Termes descripteurs IGN] détection d'objet
[Termes descripteurs IGN] estimation de pose
[Termes descripteurs IGN] exploration de données
[Termes descripteurs IGN] extraction de traits caractéristiques
[Termes descripteurs IGN] index
[Termes descripteurs IGN] localisation basée image
[Termes descripteurs IGN] modèle de simulation
[Termes descripteurs IGN] patrimoine culturel
[Termes descripteurs IGN] point d'intérêt
[Termes descripteurs IGN] recherche d'image basée sur le contenu
[Termes descripteurs IGN] reconnaissance d'objets
[Termes descripteurs IGN] régression linéaireRésumé : (auteur) La recherche d’images par contenu (CBIR) est une discipline de l’informatique qui vise à structurer automatiquement les collections d’images selon des critères visuels. Les fonctionnalités proposées couvrent notamment l’accès efficace aux images dans une grande base de données d’images ou l’identification de leur contenu par des outils de détection et de reconnaissance d’objets. Ils ont un impact sur une large gamme de domaines qui manipulent ce genre de données, telles que le multimedia, la culture, la sécurité, la santé, la recherche scientifique, etc. Indexer une image à partir de son contenu visuel nécessite d’abord de produire un résumé visuel de ce contenu pour un usage donné, qui sera l’index de cette image dans la collection. En matière de descripteurs d’images, la littérature est désormais très riche : plusieurs familles de descripteurs existent, et dans chaque famille, de nombreuses approches cohabitent. Bon nombre de descripteurs ne décrivant pas la même information et n’ayant pas les mêmes propriétés d’invariance, il peut être pertinent de les combiner de manière à mieux décrire le contenu de l’image. Cette combinaison peut être mise en oeuvre de différentes manières, selon les descripteurs considérés et le but recherché. Dans cette thèse, nous nous concentrons sur la famille des descripteurs locaux, avec pour application la recherche d’images ou d’objets par l’exemple dans une collection d’images. Leurs bonnes propriétés les rendent très populaires pour la recherche, la reconnaissance et la catégorisation d'objets et de scènes. Deux directions de recherche sont étudiées : Combinaison de caractéristiques pour la recherche d’images par l’exemple : Le coeur de la thèse repose sur la proposition d’un modèle pour combiner des descripteurs de bas niveau et génériques afin d’obtenir un descripteur plus riche et adapté à un cas d’utilisation donné tout en conservant la généricité afin d’indexer différents types de contenus visuels. L’application considérée étant la recherche par l’exemple, une autre difficulté majeure est la complexité de la proposition, qui doit correspondre à des temps de récupération réduits, même avec de grands ensembles de données. Pour atteindre ces objectifs, nous proposons une approche basée sur la fusion d'index inversés, ce qui permet de mieux représenter le contenu tout en étant associé à une méthode d’accès efficace. Complémentarité des descripteurs : Nous nous concentrons sur l’évaluation de la complémentarité des descripteurs locaux existant en proposant des critères statistiques d’analyse de leur répartition spatiale dans l'image. Ce travail permet de mettre en évidence une synergie entre certaines de ces techniques lorsqu’elles sont jugées suffisamment complémentaires. Les critères spatiaux sont exploités dans un modèle de prédiction à base de régression linéaire, qui a l'avantage de permettre la sélection de combinaisons de descripteurs optimale pour la base considérée mais surtout pour chaque image de cette base. L'approche est évaluée avec le moteur de recherche multi-index, où il montre sa pertinence et met aussi en lumière le fait que la combinaison optimale de descripteurs peut varier d'une image à l'autre. En outre, nous exploitons les deux propositions précédentes pour traiter le problème de la recherche d'images inter-domaines, correspondant notamment à des vues multi-source et multi-date. Deux applications sont explorées dans cette thèse. La recherche d’images inter-domaines est appliquée aux collections photographiques culturelles numérisées d’un musée, où elle démontre son efficacité pour l’exploration et la valorisation de ces contenus à différents niveaux, depuis leur archivage jusqu’à leur exposition ou ex situ. Ensuite, nous explorons l’application de la localisation basée image entre domaines, où la pose d’une image est estimée à partir d’images géoréférencées, en retrouvant des images géolocalisées visuellement similaires à la requête. Numéro de notice : 17573 Affiliation des auteurs : LaSTIG MATIS (2012-2019) Thématique : IMAGERIE/INFORMATIQUE Nature : Thèse française Organisme de stage : LASTIG MATIS (IGN) & Nicéphore Cité nature-HAL : Thèse DOI : sans En ligne : https://tel.archives-ouvertes.fr/tel-01759559 Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=91963 Documents numériques
en open access
Recherche multi-descripteurs ... - pdf auteur HALAdobe Acrobat PDFRéseaux de neurones convolutifs pour la segmentation sémantique et l'apprentissage d'invariants de couleur / Damien Fourure (2017)
![]()
contenu dans HAL Hyper articles en ligne / Centre pour la Communication Scientifique Directe CCSD (2000)
Titre : Réseaux de neurones convolutifs pour la segmentation sémantique et l'apprentissage d'invariants de couleur Type de document : Thèse/HDR Auteurs : Damien Fourure, Auteur ; Alain Trémeau, Directeur de thèse ; Christian Wolf, Directeur de thèse Editeur : Université de Lyon Année de publication : 2017 Autre Editeur : Saint-Etienne : Université Jean-Monnet-Saint-Etienne Importance : 178 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse de Doctorat de l'Université de Lyon opérée au sein de l’Université Jean Monnet de Saint-Étienne, Spécialité de doctorat : InformatiqueLangues : Français (fre) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes descripteurs IGN] apprentissage profond
[Termes descripteurs IGN] architecture de réseau
[Termes descripteurs IGN] chromatopsie
[Termes descripteurs IGN] classification par réseau neuronal convolutif
[Termes descripteurs IGN] estimation de pose
[Termes descripteurs IGN] intelligence artificielle
[Termes descripteurs IGN] Perceptron multicouche
[Termes descripteurs IGN] segmentation sémantique
[Termes descripteurs IGN] vision par ordinateurRésumé : (auteur) La vision par ordinateur est un domaine interdisciplinaire étudiant la manière dont les ordinateurs peuvent acquérir une compréhension de haut niveau à partir d’images ou de vidéos numériques. En intelligence artificielle, et plus précisément en apprentissage automatique, domaine dans lequel se positionne cette thèse, la vision par ordinateur passe par l’extraction de caractéristiques présentes dans les images puis par la généralisation de concepts liés à ces caractéristiques. Ce domaine de recherche est devenu très populaire ces dernières années, notamment grâce aux résultats des réseaux de neurones convolutifs à la base des méthodes dites d’apprentissage profond. Aujourd’hui les réseaux de neurones permettent, entre autres, de reconnaître les différents objets présents dans une image, de générer des images très réalistes ou même de battre les champions au jeu de Go. Leurs performances ne s’arrêtent d’ailleurs pas au domaine de l’image puisqu’ils sont aussi utilisés dans d’autres domaines tels que le traitement du langage naturel (par exemple en traduction automatique) ou la reconnaissance de son. Dans cette thèse, nous étudions les réseaux de neurones convolutifs afin de développer des architectures et des fonctions de coûts spécialisées à des tâches aussi bien de bas niveau (la constance chromatique) que de haut niveau (la segmentation sémantique d’image). Une première contribution s’intéresse à la tâche de constance chromatique. En vision par ordinateur, l’approche principale consiste à estimer la couleur de l’illuminant puis à supprimer son impact sur la couleur perçue des objets. Les expériences que nous avons menées montrent que notre méthode permet d’obtenir des performances compétitives avec l’état de l’art. Néanmoins, notre architecture requiert une grande quantité de données d’entraînement. Afin de corriger en parti ce problème et d’améliorer l’entraînement des réseaux de neurones, nous présentons plusieurs techniques d’augmentation artificielle de données. Nous apportons également deux contributions sur une problématique de haut niveau : la segmentation sémantique d’image. Cette tâche, qui consiste à attribuer une classe sémantique à chacun des pixels d’une image, constitue un défi en vision par ordinateur de par sa complexité. D’une part, elle requiert de nombreux exemples d’entraînement dont les vérités terrains sont coûteuses à obtenir. D’autre part, elle nécessite l’adaptation des réseaux de neurones convolutifs traditionnels afin d’obtenir une prédiction dite dense, c’est-à-dire, une prédiction pour chacun pixel présent dans l’image d’entrée. Pour résoudre la difficulté liée à l’acquisition de données d’entrainements, nous proposons une approche qui exploite simultanément plusieurs bases de données annotées avec différentes étiquettes. Pour cela, nous définissons une fonction de coût sélective. Nous développons aussi une approche dites d’auto-contexte capturant d’avantage les corrélations existantes entre les étiquettes des différentes bases de données. Finalement, nous présentons notre troisième contribution : une nouvelle architecture de réseau de neurones convolutifs appelée GridNet spécialisée pour la segmentation sémantique d’image. Contrairement aux réseaux traditionnels, notre architecture est implémentée sous forme de grille 2D permettant à plusieurs flux interconnectés de fonctionner à différentes résolutions. Afin d’exploiter la totalité des chemins de la grille, nous proposons une technique d’entraînement inspirée du dropout. En outre, nous montrons empiriquement que notre architecture généralise de nombreux réseaux bien connus de l’état de l’art. Nous terminons par une analyse des résultats empiriques obtenus avec notre architecture qui, bien qu’entraînée avec une initialisation aléatoire des poids, révèle de très bonnes performances, dépassant les approches populaires souvent pré-entraînés. Note de contenu : 1- Introduction
2- Les réseaux de neurones convolutifs pour la vision par ordinateur
3- Sous-échantillonnage mixte appliqué à la constance chromatique
4- Segmentation sémantique d’images
5- Une fonction de coût sélective
6- GridNet, une architecture spécialisée pour la segmentation sémantique
7- Conclusion et PerspectivesNuméro de notice : 25838 Affiliation des auteurs : non IGN Thématique : IMAGERIE/INFORMATIQUE Nature : Thèse française Note de thèse : Thèse de Doctorat : Spécialité : Informatique : Lyon : 2017 DOI : sans En ligne : https://tel.archives-ouvertes.fr/tel-02111472/document Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=95192 Vision stéréoscopique temps-réel pour la navigation autonome d'un robot en environnement dynamique / Maxime Derome (2017)
PermalinkPermalinkMétrologie par photogrammétrie aéroportée légère : application au suivi d'évolution de digues / Vincent Tournadre (2015)
PermalinkUAV photogrammetry to monitor dykes-calibration and comparaison to terrestrial Lidar / Vincent Tournadre (2014)
PermalinkThree-Ddimensional face pose detection and tracking using monocular videos: Tool and Application / Fadi Dornaika in IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), vol 39 n° 4 (August 2009)
PermalinkPose imagery and automated three-dimensional modeling of urban environments / Satyan R. Coorg (1998)
Permalink