Détail de l'auteur
Auteur Cordelia Schmid |
Documents disponibles écrits par cet auteur (3)
Ajouter le résultat dans votre panier Affiner la recherche Interroger des sources externes
Learning to segment moving objects / Pavel Tokmakov in International journal of computer vision, vol 127 n° 3 (March 2019)
[article]
Titre : Learning to segment moving objects Type de document : Article/Communication Auteurs : Pavel Tokmakov, Auteur ; Cordelia Schmid, Auteur ; Karteek Alahari, Auteur Année de publication : 2019 Article en page(s) : pp 282 - 301 Note générale : Bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes IGN] apprentissage profond
[Termes IGN] cohérence temporelle
[Termes IGN] image vidéo
[Termes IGN] objet mobile
[Termes IGN] reconnaissance d'objets
[Termes IGN] réseau neuronal convolutif
[Termes IGN] séquence d'imagesRésumé : (Auteur) We study the problem of segmenting moving objects in unconstrained videos. Given a video, the task is to segment all the objects that exhibit independent motion in at least one frame. We formulate this as a learning problem and design our framework with three cues: (1) independent object motion between a pair of frames, which complements object recognition, (2) object appearance, which helps to correct errors in motion estimation, and (3) temporal consistency, which imposes additional constraints on the segmentation. The framework is a two-stream neural network with an explicit memory module. The two streams encode appearance and motion cues in a video sequence respectively, while the memory module captures the evolution of objects over time, exploiting the temporal consistency. The motion stream is a convolutional neural network trained on synthetic videos to segment independently moving objects in the optical flow field. The module to build a “visual memory” in video, i.e., a joint representation of all the video frames, is realized with a convolutional recurrent unit learned from a small number of training video sequences. For every pixel in a frame of a test video, our approach assigns an object or background label based on the learned spatio-temporal features as well as the “visual memory” specific to the video. We evaluate our method extensively on three benchmarks, DAVIS, Freiburg-Berkeley motion segmentation dataset and SegTrack. In addition, we provide an extensive ablation study to investigate both the choice of the training data and the influence of each component in the proposed framework. Numéro de notice : A2018-601 Affiliation des auteurs : non IGN Thématique : IMAGERIE/INFORMATIQUE Nature : Article nature-HAL : ArtAvecCL-RevueIntern DOI : 10.1007/s11263-018-1122-2 Date de publication en ligne : 22/09/2018 En ligne : https://doi.org/10.1007/s11263-018-1122-2 Format de la ressource électronique : URL article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=92528
in International journal of computer vision > vol 127 n° 3 (March 2019) . - pp 282 - 301[article]Image-based synthesis for deep 3D human pose estimation / Grégory Rogez in International journal of computer vision, vol 126 n° 9 (September 2018)
[article]
Titre : Image-based synthesis for deep 3D human pose estimation Type de document : Article/Communication Auteurs : Grégory Rogez, Auteur ; Cordelia Schmid, Auteur Année de publication : 2018 Article en page(s) : pp 993 - 1008 Note générale : Bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes IGN] apprentissage automatique
[Termes IGN] données localisées 3D
[Termes IGN] estimation de pose
[Termes IGN] réseau neuronal convolutif
[Termes IGN] synthèse d'imageRésumé : (Auteur) This paper addresses the problem of 3D human pose estimation in the wild. A significant challenge is the lack of training data, i.e., 2D images of humans annotated with 3D poses. Such data is necessary to train state-of-the-art CNN architectures. Here, we propose a solution to generate a large set of photorealistic synthetic images of humans with 3D pose annotations. We introduce an image-based synthesis engine that artificially augments a dataset of real images with 2D human pose annotations using 3D motion capture data. Given a candidate 3D pose, our algorithm selects for each joint an image whose 2D pose locally matches the projected 3D pose. The selected images are then combined to generate a new synthetic image by stitching local image patches in a kinematically constrained manner. The resulting images are used to train an end-to-end CNN for full-body 3D pose estimation. We cluster the training data into a large number of pose classes and tackle pose estimation as a K-way classification problem. Such an approach is viable only with large training sets such as ours. Our method outperforms most of the published works in terms of 3D pose estimation in controlled environments (Human3.6M) and shows promising results for real-world images (LSP). This demonstrates that CNNs trained on artificial images generalize well to real images. Compared to data generated from more classical rendering engines, our synthetic images do not require any domain adaptation or fine-tuning stage. Numéro de notice : A2018-418 Affiliation des auteurs : non IGN Thématique : IMAGERIE/INFORMATIQUE Nature : Article nature-HAL : ArtAvecCL-RevueIntern DOI : 10.1007/s11263-018-1071-9 Date de publication en ligne : 19/03/2018 En ligne : https://doi.org/10.1007/s11263-018-1071-9 Format de la ressource électronique : URL article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=90901
in International journal of computer vision > vol 126 n° 9 (September 2018) . - pp 993 - 1008[article]Appariement d'images par invariants locaux de niveaux de gris : application à l'indexation d'une base d'objets / Cordelia Schmid (1996)
Titre : Appariement d'images par invariants locaux de niveaux de gris : application à l'indexation d'une base d'objets Type de document : Thèse/HDR Auteurs : Cordelia Schmid, Auteur ; Roger Mohr, Directeur de thèse Editeur : Grenoble : Institut National Polytechnique de Grenoble INPG Année de publication : 1996 Importance : 129 p. Format : 21 x 30 cm Note générale : bibliographie
Thèse de Doctorat en Informatique, Institut National Polytechnique de Grenoble INPGLangues : Français (fre) Descripteur : [Vedettes matières IGN] Traitement d'image
[Termes IGN] appariement d'images
[Termes IGN] appariement de formes
[Termes IGN] base de données d'images
[Termes IGN] caractérisation
[Termes IGN] indexation
[Termes IGN] modélisation 2D
[Termes IGN] modélisation 3D
[Termes IGN] niveau de gris (image)
[Termes IGN] point d'intérêt
[Termes IGN] projection perspective
[Termes IGN] recherche d'image basée sur le contenu
[Termes IGN] reconnaissance d'objets
[Termes IGN] similitude
[Termes IGN] vision par ordinateurIndex. décimale : THESE Thèses et HDR Résumé : (auteur) Cette thèse s'inscrit dans le domaine de l'appariement, un sujet fondamental en vision par ordinateur. Ce domaine recouvre des problèmes variés allant de celui de l'appariement entre deux images à celui de l'appariement d'une image et un modèle CAO. Notre approche permet d'apparier des objets, s'ils sont observés dans des scènes complexes, s'ils sont partiellement visibles et s'ils sont aperçus de points de vue différents. Cette méthode est étendue à l'interrogation de bases d'images et à la reconnaissance d'objets. Notre approche est basée sur une caractérisation locale des niveaux de gris d'une image. Cette caractérisation est calculée en des points particuliers des images : les points d'intérêt. Ces points sont détectés automatiquement et sont représentatifs de l'objet observé. De ce fait, la caractérisation obtenue représente une information très riche. De plus, elle est invariante pour le groupe des similitudes image et permet d'apparier des images ayant subi de telles transformations. Comme le groupe des similitudes absorbe au premier ordre les variations dues à un changement de point de vue lors d'une projection perspective, notre représentation est quasi-invariante et donc robuste à une telle transformation. La solution présentée a été appliquée à la recherche d'une image dans une volumineuse base d'images. Comme la multiplicité des correspondances ne permet plus d'avoir directement de réponse satisfaisante, une méthode statistiquement robuste fait émerger la solution. D'autre part, pour effectuer une recherche rapide dans une large base un mécanisme d'indexation a été développé. La recherche d'image a été étendue à la reconnaissance d'objet à partir d'une seule image. Pour ce faire, un objet 3D est modélisé par une collection d'images représentatives de l'objet. Pour obtenir une information 3D, des données symboliques sont ajoutées aux différents aspects de l'objet stockés dans la base. La relation trilinéaire permet alors de retrouver ces données sur une image recherchée. Note de contenu : Introduction
1- Détecteurs de points d'intérêt
2- Caractérisation locale
3- Appariement entre images
4- Recherche d'image
5- Modélisation 2D d'objets 3D
Conclusion et perspectivesNuméro de notice : 21761 Affiliation des auteurs : non IGN Thématique : IMAGERIE/INFORMATIQUE Nature : Thèse française Note de thèse : Thèse de Doctorat : Informatique : INPG : 1996 nature-HAL : Thèse DOI : sans En ligne : https://hal.inria.fr/tel-00005019 Format de la ressource électronique : URL Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=91135 Exemplaires(1)
Code-barres Cote Support Localisation Section Disponibilité 21761-01 THESE Livre Centre de documentation Thèses Disponible