Descripteur
Termes IGN > mathématiques > statistique mathématique > analyse de données > segmentation > segmentation sémantique
segmentation sémantiqueSynonyme(s)étiquetage sémantique étiquetage de données |
Documents disponibles dans cette catégorie (204)
Ajouter le résultat dans votre panier
Visionner les documents numériques
Affiner la recherche Interroger des sources externes
Etendre la recherche sur niveau(x) vers le bas
Titre : Effective and annotation efficient deep learning for image understanding Type de document : Thèse/HDR Auteurs : Spyridon Gidaris, Auteur ; Nikos Komodakis, Directeur de thèse Editeur : Champs/Marne : Université Paris-Est Année de publication : 2018 Importance : 236 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse de Doctorat de l’Université Paris-Est, Domaine : Traitement du Signal et des ImagesLangues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] analyse d'image numérique
[Termes IGN] apprentissage profond
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] compréhension de l'image
[Termes IGN] détection d'objet
[Termes IGN] prédiction
[Termes IGN] reconnaissance d'objets
[Termes IGN] segmentation sémantiqueIndex. décimale : THESE Thèses et HDR Résumé : (auteur) Recent development in deep learning have achieved impressive results on image understanding tasks. However, designing deep learning architectures that will effectively solve the image understanding tasks of interest is far from trivial. Even more, the success of deep learning approaches heavily relies on the availability of large-size manually labeled (by humans) data. In this context, the objective of this dissertation is to explore deep learning based approaches for core image understanding tasks that would allow to increase the effectiveness with which they are performed as well as to make their learning process more annotation efficient, i.e., less dependent on the availability of large amounts of manually labeled training data. We first focus on improving the state-of-the-art on object detection. More specifically, we attempt to boost the ability of object detection systems to recognize (even difficult) object instances by proposing a multi-region and semantic segmentation-aware ConvNet-based representation that is able to capture a diverse set of discriminative appearance factors. Also, we aim to improve the localization accuracy of object detection systems by proposing iterative detection schemes and a novel localization model for estimating the bounding box of the objects. We demonstrate that the proposed technical novelties lead to significant improvements in the object detection performance of PASCAL and MS COCO benchmarks. Regarding the pixel-wise image labeling problem, we explored a family of deep neural network architectures that perform structured prediction by learning to (iteratively) improve some initial estimates of the output labels. The goal is to identify which is the optimal architecture for implementing such deep structured prediction models. In this context, we propose to decompose the label improvement task into three steps: 1) detecting the initial label estimates that are incorrect, 2) replacing the incorrect labels with new ones, and finally 3) refining the renewed labels by predicting residual corrections w.r.t. them. We evaluate the explored architectures on the disparity estimation task and we demonstrate that the proposed architecture achieves state-of-the-art results on the KITTI 2015 benchmark.In order to accomplish our goal for annotation efficient learning, we proposed a self-supervised learning approach that learns ConvNet-based image representations by training the ConvNet to recognize the 2d rotation that is applied to the image that it gets as input. We empirically demonstrate that this apparently simple task actually provides a very powerful supervisory signal for semantic feature learning. Specifically, the image features learned from this task exhibit very good results when transferred on the visual tasks of object detection and semantic segmentation, surpassing prior unsupervised learning approaches and thus narrowing the gap with the supervised case.Finally, also in the direction of annotation efficient learning, we proposed a novel few-shot object recognition system that after training is capable to dynamically learn novel categories from only a few data (e.g., only one or five training examples) while it does not forget the categories on which it was trained on. In order to implement the proposed recognition system we introduced two technical novelties, an attention based few-shot classification weight generator, and implementing the classifier of the ConvNet based recognition model as a cosine similarity function between feature representations and classification vectors. We demonstrate that the proposed approach achieved state-of-the-art results on relevant few-shot benchmarks. Note de contenu : Introduction
1- Effective deep learning for image understanding
2- Annotation deep learning for image understandingNuméro de notice : 25835 Affiliation des auteurs : non IGN Thématique : IMAGERIE Nature : Thèse française Note de thèse : Thèse de Doctorat : Domaine : Traitement du Signal et des Images : Paris-Est : 2018 nature-HAL : Thèse DOI : sans En ligne : http://www.theses.fr/2018PESC1143 Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=95174
Titre : Forest stand extraction: which optimal remote sensing data source(s)? Type de document : Article/Communication Auteurs : Clément Dechesne , Auteur ; Clément Mallet , Auteur ; Arnaud Le Bris , Auteur ; Valérie Gouet-Brunet , Auteur Editeur : New York : Institute of Electrical and Electronics Engineers IEEE Année de publication : 2018 Projets : HYEP / Weber, Christiane Conférence : IGARSS 2018, IEEE International Geoscience And Remote Sensing Symposium, observing, understanding and forecasting the dynamics of our planet 22/07/2018 27/07/2018 Valencia Espagne Proceedings IEEE Importance : pp 7283 - 7285 Note générale : bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Applications photogrammétriques
[Termes IGN] Abies (genre)
[Termes IGN] classification dirigée
[Termes IGN] données lidar
[Termes IGN] données localisées 3D
[Termes IGN] Fagus (genre)
[Termes IGN] image hyperspectrale
[Termes IGN] image multibande
[Termes IGN] montagne
[Termes IGN] peuplement forestier
[Termes IGN] Picea abies
[Termes IGN] Pinus sylvestris
[Termes IGN] Pseudotsuga menziesii
[Termes IGN] Quercus (genre)
[Termes IGN] segmentation sémantique
[Termes IGN] semis de points
[Termes IGN] Vosges, massif desRésumé : (auteur) It has been now widely assessed in the literature that both multi/hyperspectral optical images and 3D lidar point clouds are necessary inputs for tree species based forest stand detection. Nevertheless, no comprehensive analysis of the genuine relevance of each data source has been performed so far: existing strategies are limited to a single spatial and spectral resolution. This paper investigates which is the optimal combination of geospatial optical images and lidar point clouds. A supervised semantic segmentation framework is fed with various sources (multispectral satellite and airborne images, hyperspectral airborne images, low, medium and high density lidar point clouds), ablation cases are defined, and the discrimination performance of several fusion schemes is assessed under a challenging mountainous area in France. Numéro de notice : C2018-049 Affiliation des auteurs : LASTIG MATIS (2012-2019) Thématique : IMAGERIE Nature : Communication nature-HAL : ComAvecCL&ActesPubliésIntl DOI : 10.1109/IGARSS.2018.8518803 Date de publication en ligne : 05/11/2018 En ligne : https://doi.org/10.1109/IGARSS.2018.8518803 Format de la ressource électronique : URL article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=91272 Documents numériques
peut être téléchargé
Forest stand extraction ... - pdf auteurAdobe Acrobat PDF
Titre : Large-scale point cloud semantic segmentation with superpoint graphs Type de document : Article/Communication Auteurs : Loïc Landrieu , Auteur ; Martin Simonovsky, Auteur Editeur : Computer vision foundation CVF Année de publication : 2018 Projets : 1-Pas de projet / Weber, Christiane Conférence : CVPR 2018, IEEE Conference on Computer Vision and Pattern Recognition 18/06/2018 22/06/2018 Salt Lake City Utah - Etats-Unis Open Access Proceedings Importance : pp 4558 - 4567 Format : 21 x 30 cm Note générale : bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Lasergrammétrie
[Termes IGN] données lidar
[Termes IGN] données localisées 3D
[Termes IGN] graphe
[Termes IGN] prise en compte du contexte
[Termes IGN] segmentation sémantique
[Termes IGN] semis de pointsMots-clés libres : superpoint graph (SPG) Résumé : (auteur) We propose a novel deep learning-based framework to tackle the challenge of semantic segmentation of largescale point clouds of millions of points. We argue that the organization of 3D point clouds can be efficiently captured by a structure called superpoint graph (SPG), derived from a partition of the scanned scene into geometrically homogeneous elements. SPGs offer a compact yet rich representation of contextual relationships between object parts, which is then exploited by a graph convolutional network. Our framework sets a new state of the art for segmenting outdoor LiDAR scans (+11.9 and +8.8 mIoU points for both Semantic3D test sets), as well as indoor scans (+12.4 mIoU points for the S3DIS dataset). Numéro de notice : C2018-050 Affiliation des auteurs : LASTIG MATIS+Ext (2012-2019) Autre URL associée : http://openaccess.thecvf.com/CVPR2018_search.py/https://doi.org/10.1109/CVPR.2018.00479 Thématique : IMAGERIE Nature : Communication nature-HAL : ComAvecCL&ActesPubliésIntl DOI : 10.1109/CVPR.2018.00479 Date de publication en ligne : 28/03/2018 En ligne : https://arxiv.org/abs/1711.09869v2 Format de la ressource électronique : URL article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=91310 Voir aussiDocuments numériques
peut être téléchargé
Large-scale point cloud semantic segmentation ... - pdf éditeurAdobe Acrobat PDF Localisation d'objets urbains à partir de sources multiples dont des images aériennes / Lionel Pibre (2018)
Titre : Localisation d'objets urbains à partir de sources multiples dont des images aériennes Type de document : Thèse/HDR Auteurs : Lionel Pibre, Auteur ; Marc Chaumont, Auteur Editeur : Montpellier : Université de Montpellier Année de publication : 2018 Importance : 143 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse pour obtenir le grade de Docteur de l'Université de Montpellier en InformatiqueLangues : Français (fre) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes IGN] apprentissage automatique
[Termes IGN] apprentissage profond
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] collectivité territoriale
[Termes IGN] diffusion de l'information
[Termes IGN] données multicapteurs
[Termes IGN] données multisources
[Termes IGN] extraction de traits caractéristiques
[Termes IGN] fusion de données
[Termes IGN] image aérienne
[Termes IGN] reconnaissance d'objets
[Termes IGN] segmentation sémantique
[Termes IGN] séparateur à vaste marge
[Termes IGN] télédétection
[Termes IGN] urbanisme
[Termes IGN] zone urbaineIndex. décimale : THESE Thèses et HDR Résumé : (auteur) Cette thèse aborde des problèmes liés à la localisation et la reconnaissance d’objets urbains dans des images multi-sources (optique, infrarouge, Modèle Numérique de Surface) de très haute précision acquises par voie aérienne.Les objets urbains (lampadaires, poteaux, voitures, arbres…) présentent des dimensions, des formes, des textures et des couleurs très variables. Ils peuvent être collés les uns les autres et sont de petite taille par rapport à la dimension d’une image. Ils sont présents en grand nombre mais peuvent être partiellement occultés. Tout ceci rend les objets urbains difficilement identifiables par les techniques actuelles de traitement d’images.Dans un premier temps, nous avons comparé les approches d’apprentissage classiques, composées de deux étapes - extraction de caractéristiques par le biais d’un descripteur prédéfini et utilisation d’un classifieur - aux approches d’apprentissage profond (Deep Learning), et plus précisément aux réseaux de neurones convolutionnels (CNN). Les CNN donnent de meilleurs résultats mais leurs performances ne sont pas suffisantes pour une utilisation industrielle. Nous avons donc proposé deux améliorations.Notre première contribution consiste à combiner de manière efficace les données provenant de sources différentes. Nous avons comparé une approche naïve qui consiste à considérer toutes les sources comme des composantes d’une image multidimensionnelle à une approche qui réalise la fusion des informations au sein même du CNN. Pour cela, nous avons traité les différentes informations dans des branches séparées du CNN. Nous avons ainsi montré que lorsque la base d’apprentissage contient peu de données, combiner intelligemment les sources dans une phase de pré-traitement (nous combinons l'optique et l'infrarouge pour créer une image NDVI) avant de les donner au CNN améliore les performances.Pour notre seconde contribution, nous nous sommes concentrés sur le problème des données incomplètes. Jusque-là, nous considérions que nous avions accès à toutes les sources pour chaque image mais nous pouvons aussi nous placer dans le cas où une source n’est pas disponible ou utilisable pour une image. Nous avons proposé une architecture permettant de prendre en compte toutes les données, même lorsqu’il manque une source sur une ou plusieurs images. Nous avons évalué notre architecture et montré que sur un scénario d’enrichissement, cette architecture permet d'obtenir un gain de plus de 2% sur la F-mesure.Les méthodes proposées ont été testées sur une base de données publique. Elles ont pour objectif d’être intégrées dans un logiciel de la société Berger-Levrault afin d’enrichir les bases de données géographiques et ainsi faciliter la gestion du territoire par les collectivités locales. Note de contenu : 1- Introduction
2- Etat de l'art
3- Comparaison entre des méthodes d’apprentissage automatique classiques et du deep learning
4- Fusion des données
5- Données incomplètes et réseau de neurones convolutionnels
6- Conclusions et perspectivesNuméro de notice : 25785 Affiliation des auteurs : non IGN Thématique : IMAGERIE Nature : Thèse française Note de thèse : Thèse de Doctorat : Informatique : Montpellier : 2018 Organisme de stage : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier) / société Berger-Levrault nature-HAL : Thèse DOI : sans En ligne : http://www.theses.fr/2018MONTS107 Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=94985 Localisation par l'image en milieu urbain : application à la réalité augmentée / Antoine Fond (2018)
Titre : Localisation par l'image en milieu urbain : application à la réalité augmentée Type de document : Thèse/HDR Auteurs : Antoine Fond, Auteur ; Marie-Odile Berger, Directeur de thèse Editeur : Nancy, Metz : Université de Lorraine Année de publication : 2018 Importance : 138 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse présentée pour l'obtention du doctorat de l'Université de Lorraine, Ecole doctorale IAEM Lorraine, mention Informatique, 2018Langues : Français (fre) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes IGN] appariement de formes
[Termes IGN] apprentissage profond
[Termes IGN] bati
[Termes IGN] détection du bâti
[Termes IGN] distance de Manhattan
[Termes IGN] estimation de pose
[Termes IGN] façade
[Termes IGN] orthorectification
[Termes IGN] plus proche voisin, algorithme du
[Termes IGN] point de fuite
[Termes IGN] réalité augmentée
[Termes IGN] recalage d'image
[Termes IGN] recalage de surfaces
[Termes IGN] réseau neuronal convolutif
[Termes IGN] segmentation d'image
[Termes IGN] segmentation sémantique
[Termes IGN] vision par ordinateur
[Termes IGN] zone urbaineIndex. décimale : THESE Thèses et HDR Résumé : (auteur) Dans cette thèse, on aborde le problème de la localisation en milieux urbains. Inférer un positionnement précis en ville est important dans nombre d’applications comme la réalité augmentée ou la robotique mobile. Or les systèmes basés sur des capteurs inertiels (IMU) sont sujets à des dérives importantes et les données GPS peuvent souffrir d’un effet de vallée qui limite leur précision. Une solution naturelle est de s’appuyer le calcul de pose de caméra en vision par ordinateur. On remarque que les bâtiments sont les repères visuels principaux de l’humain, mais aussi des objets d’intérêt pour les applications de réalité augmentée. On cherche donc à partir d’une seule image à calculer la pose de la caméra par rapport à une base de données de bâtiments références connus. On décompose le problème en deux parties : trouver les références visibles dans l’image courante (reconnaissance de lieux) et calculer la pose de la caméra par rapport à eux. Les approches classiques de ces deux sous-problèmes sont mises en difficultés dans les environnements urbains à cause des forts effets perspectives, des répétitions fréquentes et de la similarité visuelle entre façades. Si des approches spécifiques à ces environnements ont été développés qui exploitent la grande régularité structurelle de tels milieux, elles souffrent encore d’un certain nombre de limitations autant pour la détection et la reconnaissance de façades que pour le calcul de pose par recalage de modèle. La méthode originale développée dans cette thèse s’inscrit dans ces approches spécifiques et vise à dépasser ces limitations en terme d’efficacité et de robustesse aux occultations, aux changements de points de vue et d’illumination. Pour cela, l’idée principale est de profiter des progrès récents de l’apprentissage profond par réseaux de neurones convolutionnels pour extraire de l’information de haut-niveau sur laquelle on peut baser des modèles géométriques. Notre approche est donc mixte Bottom-Up/Top-Down et se décompose en trois étapes clés. Nous proposons tout d’abord une méthode d’estimation de la rotation de la pose de caméra. Les 3 points de fuite principaux des images en milieux urbains, dits points de fuite de Manhattan sont détectés grâce à un réseau de neurones convolutionnels (CNN) qui fait à la fois une estimation de ces points de fuite, mais aussi une segmentation de l’image relativement à eux. Une second étape de raffinement utilise ces informations et les segments de l’image dans une formulation bayésienne pour estimer efficacement et plus précisément ces points. L’estimation de la rotation de la caméra permet de rectifier les images et ainsi s’affranchir des effets de perspectives pour la recherche de la translation. Dans une seconde contribution, nous visons ainsi à détecter les façades dans ces images rectifiées et à les reconnaître parmi une base de bâtiments connus afin d’estimer une translation grossière. Dans un souci d’efficacité, on a proposé une série d’indices basés sur des caractéristiques spécifiques aux façades (répétitions, symétrie, sémantique) qui permettent de sélectionner rapidement des candidats façades potentiels. Ensuite, ceux-ci sont classifiés en façade ou non selon un nouveau descripteur CNN contextuel. Enfin la mise en correspondance des façades détectées avec les références est opérée par un recherche au plus proche voisin relativement à une métrique apprise sur ces descripteurs [...] Note de contenu : Introduction
1 - Etat de l'art
2 - Estimation des points de fuite de Manhattan
3 - Proposition de façades pour la détection et la reconnaissance de bâtiments
4 - Segmentation et recalage de façade conjoint
ConclusionNuméro de notice : 21592 Affiliation des auteurs : non IGN Thématique : IMAGERIE Nature : Thèse française Note de thèse : Thèse de doctorat : Informatique : Université de Lorraine : 2018 Organisme de stage : IFSTTAR nature-HAL : Thèse DOI : sans En ligne : http://www.theses.fr/2018LORR0028 Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=90630 Modélisation spatio-temporelle multi-niveau à base d'ontologies pour le suivi de la dynamique en imagerie satellitaire / Fethi Ghazouani (2018)PermalinkPermalinkA stixel approach for enhancing semantic image segmentation using prior map information / Sylvain Jonchery (2018)PermalinkSuperPoint Graph : segmentation sémantique de nuages de points LiDAR à grande échelle / Loïc Landrieu (2018)PermalinkOpen land cover from OpenStreetMap and remote sensing / Michael Schultz in International journal of applied Earth observation and geoinformation, vol 63 (December 2017)PermalinkMapping theories of transformative learning / Daniel Casebeer in Cartographica, vol 52 n° 3 (Fall 2017)PermalinkJoint classification and contour extraction of large 3D point clouds / Timo Hackel in ISPRS Journal of photogrammetry and remote sensing, vol 130 (August 2017)PermalinkVertical stratification of forest canopy for segmentation of understory trees within small-footprint airborne LiDAR point clouds / Hamid Hamraz in ISPRS Journal of photogrammetry and remote sensing, vol 130 (August 2017)PermalinkA novel semisupervised active-learning algorithm for hyperspectral image classification / Zengmao Wang in IEEE Transactions on geoscience and remote sensing, vol 55 n° 6 (June 2017)PermalinkUrban 3D segmentation and modelling from street view images and LiDAR point clouds / Pouria Babahajiani in Machine Vision and Applications, sans n° ([01/06/2017])Permalink