Descripteur
Termes IGN > mathématiques > statistique mathématique > analyse de données > classification > classification par réseau neuronal > classification par réseau neuronal convolutif
classification par réseau neuronal convolutifVoir aussi |
Documents disponibles dans cette catégorie (371)
Ajouter le résultat dans votre panier
Visionner les documents numériques
Affiner la recherche Interroger des sources externes
Etendre la recherche sur niveau(x) vers le bas
Titre : Ensemble methods for pedestrian detection in dense crowds Type de document : Thèse/HDR Auteurs : Jennifer Vandoni, Auteur ; Sylvie Le Hégarat-Mascle, Directeur de thèse Editeur : Paris-Orsay : Université de Paris 11 Paris-Sud Centre d'Orsay Année de publication : 2019 Importance : 182 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse de Doctorat de l'Université Paris-Saclay, Sciences et technologies de l’information et de la communication (STIC), Spécialité : Traitement du Signal et des ImagesLangues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] algorithme d'apprentissage
[Termes IGN] apprentissage dirigé
[Termes IGN] apprentissage profond
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] classification par séparateurs à vaste marge
[Termes IGN] comportement
[Termes IGN] densité de population
[Termes IGN] détection de piéton
[Termes IGN] données multicapteurs
[Termes IGN] étalonnage
[Termes IGN] fusion de données
[Termes IGN] taxinomie
[Termes IGN] théorie de Dempster-ShaferIndex. décimale : THESE Thèses et HDR Résumé : (auteur) The interest surrounding the study of crowd phenomena spanned during the last decade across multiple fields, including computer vision, physics, sociology, simulation and visualization. There are different levels of granularity at which crowd studies can be performed, namely a finer microanalysis, aimed to detect and then track each pedestrian individually; and a coarser macro-analysis, aimed to model the crowd as a whole.
One of the most difficult challenges when working with human crowds is that usual pedestrian detection methodologies do not scale well to the case where only heads are visible, for a number of reasons such as absence of background, high visual homogeneity, small size of the objects, and heavy occlusions. For this reason, most micro-analysis studies by means of pedestrian detection and tracking methodologies are performed in low to medium-density crowds, whereas macro-analysis through density estimation and people counting is more suited in presence of high-density crowds, where the exact position of each individual is not necessary. Nevertheless, in order to analyze specific events involving high-density crowds for monitoring the flow and preventing disasters such as stampedes, a complete understanding of the scene must be reached. This study deals with pedestrian detection in high-density crowds from a monocamera system, striving to obtain localized detections of all the individuals which are part of an extremely dense crowd. The detections can be then used both to obtain robust density estimation, and to initialize a tracking algorithm. In presence of difficult problems such as our application, supervised learning techniques are well suited. However, two different questions arise, namely which classifier is the most adapted for the considered environment, and which data to use to learn from. We cast the detection problem as a Multiple Classifier System (MCS), composed by two different ensembles of classifiers, the first one based on SVM (SVM-ensemble) and the second one based on CNN (CNN-ensemble), combined relying on the Belief Function Theory (BFT) designing a fusion method which is able to exploit their strengths for pixel-wise classification. SVM-ensemble is composed by several SVM detectors based on different gradient, texture and orientation descriptors, able to tackle the problem from different perspectives. BFT allows us to take into account the imprecision in addition to the uncertainty value provided by each classifier, which we consider coming from possible errors in the calibration procedure and from pixel neighbor’s heterogeneity in the image space due to the close resolution of the target (head) and
descriptor respectively. However, scarcity of labeled data for specific dense crowd contexts reflects in the impossibility to easily obtain robust training and validation sets. By exploiting belief functions directly derived
from the classifiers’ combination, we therefore propose an evidential Query-by-Committee (QBC) active learning algorithm to automatically select the most informative training samples. On the other side, we explore deep learning techniques by casting the problem as a segmentation task in presence of soft labels, with a fully convolutional network architecture designed to recover small objects (heads) thanks to a tailored use of dilated convolutions. In order to obtain a pixel-wise measure of reliability about the network’s predictions, we create a CNN-ensemble by means of dropout at inference time, and we combine the different obtained realizations in the
context of BFT. To conclude, we show that the dense output map given by the MCS can be employed not only
for pedestrian detection at microscopic level, but also to perform macroscopic analysis, bridging the gap between the two levels of granularity. We therefore finally focus our attention to people counting, proposing an evaluation method that can be applied at every scale, resulting to be more precise in the error and uncertainty evaluation (disregarding possible compensations) as well as more useful for the modeling community that could use it to improve and validate local density estimation.Note de contenu : 1- Crowd understanding
2- Supervised learning and classifier combination
3- SVM descriptors for pedestrian detection in high-density crowds
4- Taking into account imprecision with Belief Function Framework
5- Evidential QBC Active Learning
6- CNNs for pedestrian detection in high-density crowds
7- CNN-ensemble and evidential Multiple Classifier System
8- Density Estimation
ConclusionNuméro de notice : 25704 Affiliation des auteurs : non IGN Thématique : IMAGERIE Nature : Thèse française Note de thèse : Thèse de Doctorat : Traitement du Signal et des Images : Paris 11 : 2019 Organisme de stage : Systèmes et applications des technologies de l'information et de l'énergie (Paris) nature-HAL : Thèse DOI : sans En ligne : https://theses.hal.science/tel-02318892/document Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=94838 Estimation de profondeur à partir d'images monoculaires par apprentissage profond / Michel Moukari (2019)
Titre : Estimation de profondeur à partir d'images monoculaires par apprentissage profond Type de document : Thèse/HDR Auteurs : Michel Moukari, Auteur ; Frédéric Jurie, Directeur de thèse Editeur : Caen [France] : Université de Caen Normandie Année de publication : 2019 Importance : 182 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse pour obtenir le diplôme de Doctorat, Spécialité Informatique, préparée au sein de l'Université Caen NormandieLangues : Français (fre) Descripteur : [Vedettes matières IGN] Intelligence artificielle
[Termes IGN] acuité stéréoscopique
[Termes IGN] analyse multiéchelle
[Termes IGN] apprentissage automatique
[Termes IGN] apprentissage profond
[Termes IGN] carte de profondeur
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] compréhension de l'image
[Termes IGN] données lidar
[Termes IGN] image 3D
[Termes IGN] image RVB
[Termes IGN] incertitude des données
[Termes IGN] traitement d'image
[Termes IGN] vision monoculaire
[Termes IGN] vision par ordinateurIndex. décimale : THESE Thèses et HDR Résumé : (auteur) La vision par ordinateur est une branche de l'intelligence artificielle dont le but est de permettre à une machine d'analyser, de traiter et de comprendre le contenu d'images numériques. La compréhension de scène en particulier est un enjeu majeur en vision par ordinateur. Elle passe par une caractérisation à la fois sémantique et structurelle de l'image, permettant d'une part d'en décrire le contenu et, d'autre part, d'en comprendre la géométrie. Cependant tandis que l'espace réel est de nature tridimensionnelle, l'image qui le représente, elle, est bidimensionnelle. Une partie de l'information 3D est donc perdue lors du processus de formation de l'image et il est d'autant plus complexe de décrire la géométrie d'une scène à partir d'images 2D de celle-ci.Il existe plusieurs manières de retrouver l'information de profondeur perdue lors de la formation de l'image. Dans cette thèse nous nous intéressons à l’estimation d'une carte de profondeur étant donné une seule image de la scène. Dans ce cas, l'information de profondeur correspond, pour chaque pixel, à la distance entre la caméra et l'objet représenté en ce pixel. L'estimation automatique d'une carte de distances de la scène à partir d'une image est en effet une brique algorithmique critique dans de très nombreux domaines, en particulier celui des véhicules autonomes (détection d’obstacles, aide à la navigation).Bien que le problème de l'estimation de profondeur à partir d'une seule image soit un problème difficile et intrinsèquement mal posé, nous savons que l'Homme peut apprécier les distances avec un seul œil. Cette capacité n'est pas innée mais acquise et elle est possible en grande partie grâce à l'identification d'indices reflétant la connaissance a priori des objets qui nous entourent. Par ailleurs, nous savons que des algorithmes d'apprentissage peuvent extraire ces indices directement depuis des images. Nous nous intéressons en particulier aux méthodes d’apprentissage statistique basées sur des réseaux de neurones profond qui ont récemment permis des percées majeures dans de nombreux domaines et nous étudions le cas de l'estimation de profondeur monoculaire. Note de contenu : 1- Introduction
2- État de l’art
3- Influence des hyperparamètres
4- Analyse multi-échelle
5- Évaluation de l’incertitude prédictive
6- Complétion de profondeur et estimation de confiance
7- Conclusions et perspectivesNuméro de notice : 25834 Affiliation des auteurs : non IGN Thématique : IMAGERIE/INFORMATIQUE Nature : Thèse française Note de thèse : Thèse de Doctorat : Informatique : Caen-Normandie : 2019 nature-HAL : Thèse DOI : sans En ligne : https://theses.hal.science/tel-02426260/document Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=95172
Titre : Foundations of deep convolutional models through kernel methods Type de document : Thèse/HDR Auteurs : Alberto Bietti, Auteur ; Julien Mairal, Directeur de thèse Editeur : Grenoble : Université de Grenoble Année de publication : 2019 Importance : 194 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse pour obtenir le grade de Docteur de la Communauté Université Grenoble Alpes, Spécialité : Mathématiques AppliquéesLangues : Anglais (eng) Descripteur : [Vedettes matières IGN] Intelligence artificielle
[Termes IGN] apprentissage automatique
[Termes IGN] apprentissage profond
[Termes IGN] approche hiérarchique
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] espace de Hilbert
[Termes IGN] état de l'art
[Termes IGN] invariance
[Termes IGN] jeu de données
[Termes IGN] méthode fondée sur le noyau
[Termes IGN] optimisation (mathématiques)
[Termes IGN] Perceptron multicoucheIndex. décimale : THESE Thèses et HDR Résumé : (auteur) The increased availability of large amounts of data, from images in social networks, speech waveforms from mobile devices, and large text corpuses, to genomic and medical data, has led to a surge of machine learning techniques. Such methods exploit statistical patterns in these large datasets for making accurate predictions on new data. In recent years, deep learning systems have emerged as a remarkably successful class of machine learning algorithms, which rely on gradient-based methods for training multi-layer models that process data in a hierarchical manner. These methods have been particularly successful in tasks where the data consists of natural signals such as images or audio; this includes visual recognition, object detection or segmentation, and speech recognition.For such tasks, deep learning methods often yield the best known empirical performance; yet, the high dimensionality of the data and large number of parameters of these models make them challenging to understand theoretically. Their success is often attributed in part to their ability to exploit useful structure in natural signals, such as local stationarity or invariance, for instance through choices of network architectures with convolution and pooling operations. However, such properties are still poorly understood from a theoretical standpoint, leading to a growing gap between the theory and practice of machine learning. This thesis is aimed towards bridging this gap, by studying spaces of functions which arise from given network architectures, with a focus on the convolutional case. Our study relies on kernel methods, by considering reproducing kernel Hilbert spaces (RKHSs) associated to certain kernels that are constructed hierarchically based on a given architecture. This allows us to precisely study smoothness, invariance, stability to deformations, and approximation properties of functions in the RKHS. These representation properties are also linked with optimization questions when training deep networks with gradient methods in some over-parameterized regimes where such kernels arise. They also suggest new practical regularization strategies for obtaining better generalization performance on small datasets, and state-of-the-art performance for adversarial robustness on image tasks. Note de contenu : 1- Introduction
2- Invariance, Stability to deformations, and complexity of deep convolutional representations
3- A kernel perspective on regularization and robustness of deep neural networks
4- Links with optimization: inductive bias of neural tangent kernels
5- Invariance and stability through regularization: a stochastic optimization algorithm for data augmentation
6- Conclusion and perspectivesNuméro de notice : 25833 Affiliation des auteurs : non IGN Thématique : INFORMATIQUE/MATHEMATIQUE Nature : Thèse française Note de thèse : Thèse de Doctorat : Mathématiques Appliquées : Grenoble Alpes : 2019 nature-HAL : Thèse DOI : sans En ligne : https://hal.archives-ouvertes.fr/tel-02543073/ document Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=95171 Towards visual urban scene understanding for autonomous vehicle path tracking using GPS positioning data / Citlalli Gamez Serna (2019)
Titre : Towards visual urban scene understanding for autonomous vehicle path tracking using GPS positioning data Type de document : Thèse/HDR Auteurs : Citlalli Gamez Serna, Auteur ; Yassine Ruichek, Directeur de thèse Editeur : Dijon : Université Bourgogne Franche-Comté UBFC Année de publication : 2019 Importance : 178 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse de Doctorat de l'Université Bourgogne Franche-Comté préparée à l'Université de Technologie de Belfort-Montbéliard, InformatiqueLangues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes IGN] apprentissage profond
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] compréhension de l'image
[Termes IGN] instance
[Termes IGN] milieu urbain
[Termes IGN] navigation autonome
[Termes IGN] récepteur GPS
[Termes IGN] scène urbaine
[Termes IGN] segmentation sémantique
[Termes IGN] signalisation routière
[Termes IGN] système de transport intelligent
[Termes IGN] trajectoire (véhicule non spatial)
[Termes IGN] véhicule sans pilote
[Termes IGN] vision par ordinateur
[Termes IGN] vision stéréoscopique
[Termes IGN] vitesseMots-clés libres : suivi d'itinéraire Index. décimale : THESE Thèses et HDR Résumé : (auteur) This PhD thesis focuses on developing a path tracking approach based on visual perception and localization in urban environments. The proposed approach comprises two systems. The first one concerns environment perception. This task is carried out using deep learning techniques to automatically extract 2D visual features and use them to learn in order to distinguish the different objects in the driving scenarios. Three deep learning techniques are adopted: semantic segmentation to assign each image pixel to a class, instance segmentation to identify separated instances of the same class and, image classification to further recognize the specific labels of the instances. Here our system segments 15 object classes and performs traffic sign recognition. The second system refers to path tracking. In order to follow a path, the equipped vehicle first travels and records the route with a stereo vision system and a GPS receiver (learning step). The proposed system analyses off-line the GPS path and identifies exactly the locations of dangerous (sharp) curves and speed limits. Later after the vehicle is able to localize itself, the vehicle control module together with our speed negotiation algorithm, takes into account the information extracted and computes the ideal speed to execute. Through experimental results of both systems, we prove that, the first one is capable to detect and recognize precisely objects of interest in urban scenarios, while the path tracking one reduces significantly the lateral errors between the learned and traveled path. We argue that the fusion of both systems will ameliorate the tracking approach for preventing accidents or implementing autonomous driving. Note de contenu : I- Context and problems
1- Introduction
II- Contribution
2- Proposed datasets
3- Traffic sign classification
4- Visual perception system for urban environments
5- Dynamic speed adaptation system for path tracking based on curvature
information and speed limits
III- Conclusions and future works
6- Conclusions and future worksNuméro de notice : 25967 Affiliation des auteurs : non IGN Thématique : IMAGERIE/INFORMATIQUE Nature : Thèse française Note de thèse : Thèse de Doctorat : Informatique : UBFC : 2019 Organisme de stage : CIAD Dijon nature-HAL : Thèse DOI : sans En ligne : https://tel.archives-ouvertes.fr/tel-02160966/document Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=96587 Vision-based localization with discriminative features from heterogeneous visual data / Nathan Piasco (2019)
Titre : Vision-based localization with discriminative features from heterogeneous visual data Type de document : Thèse/HDR Auteurs : Nathan Piasco , Auteur ; Valérie Gouet-Brunet , Directeur de thèse ; Cédric Demonceaux, Directeur de thèse Editeur : Dijon : Université Bourgogne Franche-Comté UBFC Année de publication : 2019 Importance : 174 p. Format : 21 x 30 cm Note générale : Bibliographie
Thèse présentée à l'école doctorale n° 37 de l'Université de Dijon pour l'obtention du Doctorat en instrumentation et informatique de l'imageLangues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image optique
[Termes IGN] algorithme ICP
[Termes IGN] carte de profondeur
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] données hétérogènes
[Termes IGN] estimation de pose
[Termes IGN] fonction de transfert de modulation
[Termes IGN] localisation basée image
[Termes IGN] localisation basée vision
[Termes IGN] recherche d'image basée sur le contenu
[Termes IGN] vision monoculaireIndex. décimale : THESE Thèses et HDR Résumé : (Auteur) Visual-based Localization (VBL) consists in retrieving the location of a visual image within a known space. VBL is involved in several present-day practical applications, such as indoor and outdoor navigation, 3D reconstruction, etc. The main challenge in VBL comes from the fact that the visual input to localize could have been taken at a different time than the reference database. Visual changes may occur on the observed environment during this period of time, especially for outdoor localization. Recent approaches use complementary information in order to address these visually challenging localization scenarios, like geometric information or semantic information. However geometric or semantic information are not always available or can be costly to obtain. In order to get free of any extra modalities used to solve challenging localization scenarios, we propose to use a modality transfer model capable of reproducing the underlying scene geometry from a monocular image. At first, we cast the localization problem as a Content-based Image Retrieval (CBIR) problem and we train a CNN image descriptor with radiometry to dense geometry transfer as side training objective. Once trained, our system can be used on monocular images only to construct an expressive descriptor for localization in challenging conditions. Secondly, we introduce a new relocalization pipeline to improve the localization given by our initial localization step. In a same manner as our global image descriptor, the relocalization is aided by the geometric information learned during an offline stage. The extra geometric information is used to constrain the final pose estimation of the query. Through comprehensive experiments, we demonstrate the effectiveness of our proposals for both indoor and outdoor localization. Note de contenu : 1. Introduction
1.1 Long-term mapping
1.2 pLaTINUM project
1.3 Visual-based Localization with heterogeneous data
2. Review of Visual-Based Localization methods
2.1 Data Representation
2.2 VBL methods
2.3 Data with Dissimilar Appearances
2.4 Data heterogeneity
2.5 Discussion
2.6 Conclusion
3 Side modality learning for localization
3.1 Related work
3.2 Model architectures and training
3.3 Implementation details
3.4 Long-term localization
3.5 Night to day localization scenarios
3.6 Laser reflectance as side information
3.7 Conclusion
4. Pose refinement with learned depth map
4.1 Method
4.2 Relative pose estimation
4.3 Preliminary results
4.4 Indoor localization
4.5 Unsupervised training and outdoor localization
4.6 Discussion
4.7 Conclusion
5. Conclusion
5.1 Summary of the thesis
5.2 Scientific contributions
5.3 Future Research
A Network architectures
A.1 Global image descriptor network
A.2 Multitask pose refinement networkNuméro de notice : 26415 Affiliation des auteurs : LASTIG MATIS (2012-2019) Thématique : IMAGERIE Nature : Thèse française Note de thèse : Thèse de Doctorat : Instrumentation et informatique de l'image : Dijon : 2019 Organisme de stage : LaSTIG (IGN) nature-HAL : Thèse DOI : sans Date de publication en ligne : 13/11/2020 En ligne : https://hal.science/tel-03003651/document Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=96302 Remote sensing scene classification using multilayer stacked covariance pooling / Nanjun He in IEEE Transactions on geoscience and remote sensing, vol 56 n° 12 (December 2018)PermalinkScene classification based on multiscale convolutional neural network / Yanfei Liu in IEEE Transactions on geoscience and remote sensing, vol 56 n° 12 (December 2018)PermalinkApplication of deep learning for object detection / Ajeet Ram Pathak in Procedia Computer Science, vol 132 (2018)PermalinkExtraction of pluvial flood relevant volunteered geographic information (VGI) by deep learning from user generated texts and photos / Yu Feng in ISPRS International journal of geo-information, vol 7 n° 2 (February 2018)PermalinkPermalinkComparative study of visual saliency maps in the problem of classification of architectural images with Deep CNNs / Abraham Montoya Obeso (2018)PermalinkPermalinkLocalisation d'objets urbains à partir de sources multiples dont des images aériennes / Lionel Pibre (2018)PermalinkA stixel approach for enhancing semantic image segmentation using prior map information / Sylvain Jonchery (2018)PermalinkPermalink