Détail de l'auteur
Auteur Zhujun Xu |
Documents disponibles écrits par cet auteur (1)
Ajouter le résultat dans votre panier Affiner la recherche Interroger des sources externes
Deep learning based 2D and 3D object detection and tracking on monocular video in the context of autonomous vehicles / Zhujun Xu (2022)
Titre : Deep learning based 2D and 3D object detection and tracking on monocular video in the context of autonomous vehicles Type de document : Thèse/HDR Auteurs : Zhujun Xu, Auteur ; Eric Chaumette, Directeur de thèse ; Damien Vivet, Directeur de thèse Editeur : Toulouse : Université de Toulouse Année de publication : 2022 Importance : 136 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse en vue de l'obtention du Doctorat de l'Université de Toulouse, spécialité Informatique et TélécommunicationsLangues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] apprentissage profond
[Termes IGN] apprentissage semi-dirigé
[Termes IGN] architecture de réseau
[Termes IGN] détection d'objet
[Termes IGN] échantillonnage de données
[Termes IGN] objet 3D
[Termes IGN] segmentation d'image
[Termes IGN] véhicule automobile
[Termes IGN] vidéo
[Termes IGN] vision par ordinateurIndex. décimale : THESE Thèses et HDR Résumé : (auteur) The objective of this thesis is to develop deep learning based 2D and 3D object detection and tracking methods on monocular video and apply them to the context of autonomous vehicles. Actually, when directly using still image detectors to process a video stream, the accuracy suffers from sampled image quality problems. Moreover, generating 3D annotations is time-consuming and expensive due to the data fusion and large numbers of frames. We therefore take advantage of the temporal information in videos such as the object consistency, to improve the performance. The methods should not introduce too much extra computational burden, since the autonomous vehicle demands a real-time performance.Multiple methods can be involved in different steps, for example, data preparation, network architecture and post-processing. First, we propose a post-processing method called heatmap propagation based on a one-stage detector CenterNet for video object detection. Our method propagates the previous reliable long-term detection in the form of heatmap to the upcoming frame. Then, to distinguish different objects of the same class, we propose a frame-to-frame network architecture for video instance segmentation by using the instance sequence queries. The tracking of instances is achieved without extra post-processing for data association. Finally, we propose a semi-supervised learning method to generate 3D annotations for 2D video object tracking dataset. This helps to enrich the training process for 3D object detection. Each of the three methods can be individually applied to leverage image detectors to video applications. We also propose two complete network structures to solve 2D and 3D object detection and tracking on monocular video. Note de contenu : 1- Introduction
2- Video object detection avec la heatmap propagation (propagation de carte de chaleur)
3- Video instance segmentation with instance sequence queries
4- Semi-supervised learning of monocular 3D object detection with 2D video tracking annotations
5- Conclusions and perspectivesNuméro de notice : 24072 Affiliation des auteurs : non IGN Thématique : IMAGERIE Nature : Thèse française Note de thèse : Thèse de Doctorat : Informatique et Télécommunications : Toulouse : 2022 DOI : sans En ligne : https://www.theses.fr/2022ESAE0019 Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=102136