Descripteur
Documents disponibles dans cette catégorie (1700)
![](./images/expand_all.gif)
![](./images/collapse_all.gif)
Etendre la recherche sur niveau(x) vers le bas
Deep convolutional neural networks for scene understanding and motion planning for self-driving vehicles / Abdelhak Loukkal (2021)
![]()
Titre : Deep convolutional neural networks for scene understanding and motion planning for self-driving vehicles Type de document : Thèse/HDR Auteurs : Abdelhak Loukkal, Auteur ; Yves Grandvalet, Directeur de thèse Editeur : Compiègne : Université de Technologie de Compiègne UTC Année de publication : 2021 Importance : 129 p. Format : 21 x 30 cm Note générale : Bibliographie
Thèse présentée pour l’obtention du grade de Docteur de l’UTC, spécialité InformatiqueLangues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] compréhension de l'image
[Termes IGN] données lidar
[Termes IGN] données localisées 3D
[Termes IGN] fusion de données multisource
[Termes IGN] navigation autonome
[Termes IGN] reconnaissance de formes
[Termes IGN] réseau neuronal profond
[Termes IGN] segmentation sémantique
[Termes IGN] système de navigation
[Termes IGN] véhicule automobile
[Termes IGN] vision monoculaire
[Termes IGN] vision par ordinateurIndex. décimale : THESE Thèses et HDR Résumé : (Auteur) During this thesis, some perception approaches for self-driving vehicles were developed using de convolutional neural networks applied to monocular camera images and High-Definition map (HD-ma rasterized images. We focused on camera-only solutions instead of leveraging sensor fusion with rang sensors because cameras are the most cost-effective and discrete sensors. The objective was also to show th camera-based approaches can perform at par with LiDAR-based solutions on certain 3D vision tasks. Rea world data was used for training and evaluation of the developed approaches but simulation was als leveraged when annotated data was lacking or for safety reasons when evaluating driving capabilities. Cameras provide visual information in a projective space where the perspective effect does not preserve th distances homogeneity. Scene understanding tasks such as semantic segmentation are then often operated i the camera-view space and then projected to 3D using a precise depth sensor such as a LiDAR. Having thi scene understanding in the 3D space is useful because the vehicles evolve in the 3D world and the navigatio algorithms reason in this space. Our focus was then to leverage the geometric knowledge about the camer parameters and its position in the 3D world to develop an approach that allows scene understanding in the 3D space using only a monocular image as input. Neural networks have also proven to be useful for more than just perception and are more and more used fo the navigation and planning tasks that build on the perception outputs. Being able to output 3D scen understanding information from a monocular camera has also allowed us to explore the possibility of havin an end-to-end holistic neural network that takes a camera image as input, extracts intermediate semantic information in the 3D space and then lans the vehicle's trajectory. Note de contenu : 1. Introduction
1.1 General context
1.2 Framework and objectives
1.3 Organization and contributions of the thesis
2. Background and related work
2.1 Introduction
2.2 Autonomous driving perception datasets
2.3 Autonomous driving simulators
2.4 Semantic segmentation with CNNs
2.5 Monocular depth estimation with CNNs
2.6 Driving with imitation learning
2.7 Conclusion
3. Semantic segmentation using cartographic and depth maps
3.1 Introduction
3.2 Synthetic dataset
3.3 Proposed methods
3.4 Experiments
3.5 Conclusion
4. Disparity weighted loss for semantic segmentation
4.1 Introduction
4.2 Disparity weighting for semantic segmentation
4.3 Experiments
4.4 Conclusion
5. FlatMobileNet: Bird-Eye-View semantic masks from a monoc?ular camera
5.1 Introduction
5.2 Theoretical framework
5.3 FlatMobile network: footprint segmentation
5.4 Conclusion
6. Driving among flatmobiles
6.1 Introduction
6.2 Encoder-decoder LSTM for trajectory planning
6.3 Experimental evaluation
6.4 Conclusion
7. Conclusion
7.1 Contributions
7.2 PerspectivesNuméro de notice : 26769 Affiliation des auteurs : non IGN Thématique : IMAGERIE/INFORMATIQUE Nature : Thèse française Note de thèse : Thèse de Doctorat : Informatique : Compiègne : 2021 Organisme de stage : Heuristique et Diagnostic des Systèmes Complexes HeuDiaSyC nature-HAL : Thèse DOI : sans Date de publication en ligne : 25/10/2021 En ligne : https://tel.hal.science/tel-03402541/ Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=99871
Titre : Deep-learning for 3D reconstruction Type de document : Thèse/HDR Auteurs : Fabio Tosi, Auteur Editeur : Bologne [Italie] : Université de Bologne Année de publication : 2021 Format : 21 x 30 cm Note générale : bibliographie
PhD Thesis in Computer Science and EngineeringLangues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] apprentissage automatique
[Termes IGN] apprentissage profond
[Termes IGN] carte de confiance
[Termes IGN] compréhension de l'image
[Termes IGN] profondeur
[Termes IGN] reconstruction 3D
[Termes IGN] réseau antagoniste génératif
[Termes IGN] vision stéréoscopiqueRésumé : (auteur) Depth perception is paramount for many computer vision applications such as autonomous driving and augmented reality. Despite active sensors (e.g., LiDAR, Time-of-Flight, struc- tured light) are quite diffused, they have severe shortcomings that could be potentially addressed by image-based sensors. Concerning this latter category, deep learning has enabled ground-breaking results in tackling well-known issues affecting the accuracy of systems inferring depth from a single or multiple images in specific circumstances (e.g., low textured regions, depth discontinuities, etc.), but also introduced additional concerns about the domain shift occurring between training and target environments and the need of proper ground truth depth labels to be used as the training signals in network learning. Moreover, despite the copious literature concerning confidence estimation for depth from a stereo setup, inferring depth uncertainty when dealing with deep networks is still a major challenge and almost unexplored research area, especially when dealing with a monocular setup. Finally, computational complexity is another crucial aspect to be considered when targeting most practical applications and hence is desirable not only to infer reliable depth data but do so in real-time and with low power requirements even on standard embedded devices or smartphones. Therefore, focusing on stereo and monocular setups, this thesis tackles major issues affecting methodologies to infer depth from images and aims at developing accurate and efficient frameworks for accurate 3D reconstruction on challenging environments. Note de contenu : Introduction
1- Related work
2- Datasets
3- Evaluation protocols
4- Confidence measures in a machine learning world
5- Efficient confidence measures for embedded stereo
6- Even more confident predictions with deep machine-learning
7- Beyond local reasoning for stereo confidence estimation with deep learning
8- Good cues to learn from scratch a confidence measure for passive depth sensors
9- Confidence estimation for ToF and stereo sensors and its application to depth data fusion
10- Learning confidence measures in the wild
11- Self-adapting confidence estimation for stereo
12- Leveraging confident points for accurate depth refinement on embedded systems
13- SMD-Nets: Stereo Mixture Density Networks
14- Real-time self-adaptive deep stereo
15- Guided stereo matching
16- Reversing the cycle: self-supervised deep stereo through enhanced monocular distillation
17- Learning end-to-end scene flow by distilling single tasks knowledge
18- Learning monocular depth estimation with unsupervised trinocular assumptions
19- Geometry meets semantics for semi-supervised monocular depth estimation
20- Generative Adversarial Networks for unsupervised monocular depth prediction
21- Learning monocular depth estimation infusing traditional stereo knowled
22- Towards real-time unsupervised monocular depth estimation on CPU
23- Enabling energy-efficient unsupervised monocular depth estimation on ARMv7-based platforms
24- Distilled semantics for comprehensive scene understanding from videos
25- On the uncertainty of self-supervised monocular depth estimation
ConclusionNuméro de notice : 28596 Affiliation des auteurs : non IGN Thématique : IMAGERIE Nature : Thèse étrangère Note de thèse : Thèse de Doctorat : Computer Science and Engineering : Bologne : 2021 DOI : 10.48676/unibo/amsdottorato/9816 En ligne : http://amsdottorato.unibo.it/9816/ Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=99325 Description et recherche d’image généralisables pour l’interconnexion et l’analyse multi-source / Dimitri Gominski (2021)
![]()
Titre : Description et recherche d’image généralisables pour l’interconnexion et l’analyse multi-source Type de document : Thèse/HDR Auteurs : Dimitri Gominski , Auteur ; Valérie Gouet-Brunet
, Directeur de thèse ; Liming Chen, Directeur de thèse
Editeur : Champs-sur-Marne [France] : Université Gustave Eiffel Année de publication : 2021 Autre Editeur : Lyon : Ecole Centrale de Lyon Projets : Alegoria / Gouet-Brunet, Valérie Note générale : bibliographie
thèse soutenue le 9 nov. 2021, à l'Université Gustave Eiffel, dans le cadre de l'École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication, en partenariat avec LaSTIG - Laboratoire en Sciences et Technologies de l'Information Géographique (laboratoire).Langues : Français (fre) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] appariement d'images
[Termes IGN] apprentissage profond
[Termes IGN] données d'entrainement (apprentissage automatique)
[Termes IGN] image multi sources
[Termes IGN] indexation sémantique
[Termes IGN] méthode robuste
[Termes IGN] recherche d'image basée sur le contenuIndex. décimale : THESE Thèses et HDR Résumé : (auteur) Avec un volume toujours plus grand d'images accessibles numériquement, établir des connexions pour structurer et analyser les données devient d'autant plus important. Une formulation typique pour connecter entre elles des images sans utiliser de métadonnées est la recherche d'image basée contenu (RIBC). Similairement aux autres applications en vision par ordinateur, la RIBC a bénéficié du pouvoir expressif des réseaux de neurones convolutifs (CNN) et obtenu des résultats inédits sur les benchmarks usuels. Cependant, il est difficile de dire si cette performance est due à la proposition d'architectures et de modèles toujours plus évolués, ou simplement à la présence d'un jeu de données d'entraînement qui correspond bien au cas d'usage, c'est-à-dire qui a des caractéristiques visuelles et sémantiques similaires. En effet, le paradigme habituel du couple modèle-jeu d'entraînement montre ses limites dès lors qu'on sort du cas caractérisé par les données d'entraînement: la performance chute si on teste sur des données différentes ou avec une variabilité trop grande.
Cette thèse s'intéresse à cette question avec un regard critique sur les méthodes d'apprentissage profond et leur potentiel réel d'application. Dans un contexte d'imagerie territoriale multi-sources, un benchmark est proposé pour caractériser un nouveau problème de recherche : la recherche d'image hétérogène, "low-data" (sans données d'entraînement), avec un cas d'utilisation où définir un jeu de données d'entraînement et une méthode "baseline" n'est pas facile. Avec ce benchmark, de nouvelles mesures sont proposées pour qualifier la capacité à généraliser du modèle dans un contexte RIBC, puis des solutions techniques qui permettent de s'affranchir de la définition hasardeuse des sus-citées "caractéristiques visuelles et sémantiques similaires". La discussion autour des résultats permet de mettre en valeur une importance probablement trop grande donnée à l'architecture des réseaux de neurones, et des pistes prometteuses dans la RIBC qui fournit des outils agnostiques du modèle utilisé, et permettant d'exploiter les avantages comparatifs de différents modèles entraînés sur différents jeux de données. Enfin, l'intérêt de cette approche généraliste est confirmé par une application à un cas où malgré l'abondance de méthodes et de données, elles sont encapsulées dans un ensemble de petits datasets et donc peu généralisables: la classification d'occupation au sol en imagerie satellite.Numéro de notice : 14738 Affiliation des auteurs : UGE-LASTIG (2020- ) Autre URL associée : vers theses Thématique : IMAGERIE/INFORMATIQUE Nature : Thèse française Note de thèse : thèse : : Gustave Eiffel : 2021 Organisme de stage : LaSTIG (IGN) & LIRIS (Ecole Centrale de Lyon) nature-HAL : Thèse DOI : sans En ligne : https://theses.hal.science/tel-03629550 Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=98921 Dynamic committee machine with fuzzy-c-means clustering for total organic carbon content prediction from wireline logs / Yang Bai in Computers & geosciences, vol 146 (January 2021)
![]()
[article]
Titre : Dynamic committee machine with fuzzy-c-means clustering for total organic carbon content prediction from wireline logs Type de document : Article/Communication Auteurs : Yang Bai, Auteur ; Maojin Tan, Auteur Année de publication : 2021 Article en page(s) : n° 104626 Note générale : bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] analyse de groupement
[Termes IGN] apprentissage automatique
[Termes IGN] classification floue
[Termes IGN] classification par réseau neuronal
[Termes IGN] puits de carbone
[Termes IGN] régression linéaire
[Termes IGN] schisteRésumé : (auteur) The total organic carbon (TOC) content is of great significance to reflect the hydrocarbon-generation potential in shale reservoirs. The well logs were always used to predict the TOC content, but some linear regression methods do not match well with complex data. The neural network method can improve prediction accuracy, but it always generates unstable prediction models. A static committee machine can reduce errors and uncertainties by combining multiple learners, but the weight of integrating learners is difficult to determine. Therefore, a dynamic committee machine with fuzzy-c-means clustering (DCMF) was proposed to predict the TOC content. Experts in the DCMF include Elman neural network, extreme learning machine, and generalized regression neural network. The fuzzy-c-means clustering algorithm was used as the gate network to perform subtasks decomposition and weights calculation based on input data. The subtasks were used to train more adaptive TOC content prediction models, and the weights were transferred to the combiner to integrate all experts’ outputs into final results. The DCMF was applied in two wells located in the Jiumenchong formation in the Qiannan depression, China. The TOC prediction results using the DCMF method are more accurate than the linear regression method, three individual intelligent algorithms, and the static committee machine. The DCMF also provides a new method for weight calculation by mining potential information of input data. Numéro de notice : A2021-019 Affiliation des auteurs : non IGN Thématique : IMAGERIE Nature : Article DOI : 10.1016/j.cageo.2020.104626 Date de publication en ligne : 17/10/2020 En ligne : https://doi.org/10.1016/j.cageo.2020.104626 Format de la ressource électronique : url article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=96512
in Computers & geosciences > vol 146 (January 2021) . - n° 104626[article]From point clouds to high-fidelity models - advanced methods for image-based 3D reconstruction / Audrey Richard (2021)
![]()
Titre : From point clouds to high-fidelity models - advanced methods for image-based 3D reconstruction Type de document : Thèse/HDR Auteurs : Audrey Richard, Auteur Editeur : Zurich : Eidgenossische Technische Hochschule ETH - Ecole Polytechnique Fédérale de Zurich EPFZ Année de publication : 2021 Note générale : bibliographie
A thesis submitted to attain the degree of Doctor of Sciences of ETH ZurichLangues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] apprentissage profond
[Termes IGN] chaîne de traitement
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] compréhension de l'image
[Termes IGN] démonstration de faisabilité
[Termes IGN] discrétisation spatiale
[Termes IGN] jeu de données localisées
[Termes IGN] modèle 3D de l'espace urbain
[Termes IGN] modélisation sémantique
[Termes IGN] optimisation (mathématiques)
[Termes IGN] Pays-Bas
[Termes IGN] reconstruction 3D
[Termes IGN] reconstruction d'objet
[Termes IGN] Rhénanie du Nord-Wesphalie (Allemagne)
[Termes IGN] semis de points
[Termes IGN] texturage
[Termes IGN] Zurich (Suisse)Résumé : (auteur) Capturing automatically a virtual 3D model of an object or a scene from a collection of images is a useful capability with a wide range of applications, including virtual/augmented reality, heritage preservation, consumer digital entertainment, autonomous robotics, navigation, industrial vision or metrology, and many more. Since the early days of photogrammetry and computer vision, it has been a topic of intensive research but has eluded a general solution for it. 3D modeling requires more than reconstructing a cloud of 3D points from images; it requires a high-fidelity representation whose form is often dependent on individual objects. This thesis guides you in the journey of image-based 3D reconstruction through several advanced methods that aims to push its boundaries, from precise and complete geometry to detailed appearance, using both theory with elegant mathematics and more recent breakthroughs in deep learning. To evaluate these methods, thorough experiments are conducted at scene level (and large-scale) where efficiency is of key importance, and at object level where accuracy, completeness and photorealism can be better appreciated. To show the individual potential of each of these methods, as well as the possible wide coverage in terms of applications, different scenarios are considered and serve as a proof-of-concept. Thereby, the journey starts with large-scale city modeling using aerial photography from the cities of Zürich (Switzerland), Enschede (Netherlands) and Dortmund (Germany), followed by single object completion using the synthetic dataset ShapeNet, that includes objects like cars, benches or planes that can be found in every city, to finish with the embellishment of these digital models via high-resolution texture mapping using a multi-view 3D dataset of real and synthetic objects, like for example statues and fountains that also dress the landscape of cities. Combining them together into an incremental pipeline dedicated to a specific application would require further tailoring but is quite possible. Numéro de notice : 17650 Affiliation des auteurs : non IGN Thématique : IMAGERIE Nature : Thèse étrangère Note de thèse : PhD : Sciences : ETH Zurich : 2021 En ligne : http://dx.doi.org/10.3929/ethz-b-000461735 Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=97892 FuNet: A novel road extraction network with fusion of location data and remote sensing imagery / Kai Zhou in ISPRS International journal of geo-information, vol 10 n° 1 (January 2021)
PermalinkPermalinkPermalinkHyperspectral and multispectral image fusion via graph Laplacian-guided coupled tensor decomposition / Yuanyang Bu in IEEE Transactions on geoscience and remote sensing, vol 59 n° 1 (January 2021)
PermalinkImage matching from handcrafted to deep features: A survey / Jiayi Ma in International journal of computer vision, vol 29 n° 1 (January 2021)
PermalinkImproving image description with auxiliary modality for visual localization in challenging conditions / Nathan Piasco in International journal of computer vision, vol 29 n° 1 (January 2021)
PermalinkImproving traffic sign recognition results in urban areas by overcoming the impact of scale and rotation / Roholah Yazdan in ISPRS Journal of photogrammetry and remote sensing, vol 171 (January 2021)
PermalinkInitialization methods of convolutional neural networks for detection of image manipulations / Ivan Castillo Camacho (2021)
PermalinkLANet: Local attention embedding to improve the semantic segmentation of remote sensing images / Lei Ding in IEEE Transactions on geoscience and remote sensing, vol 59 n° 1 (January 2021)
PermalinkLearning disentangled representations of satellite image time series in a weakly supervised manner / Eduardo Hugo Sanchez (2021)
Permalink