Détail de l'auteur
Auteur Bertrand Duménieu
Commentaire :
PhD student at EHESS, LaDeHis team and at IGN, COGIT lab, 2013 - 2015 ; researcher at EHESS and research fellow at LASTIG
Autorités liées :
idHAL :
pas d'identifiant
idRef :
autre URL :
ORCID :
Scopus :
G. Scholar :
DBLP URL :
|
Documents disponibles écrits par cet auteur (20)
Ajouter le résultat dans votre panier
Visionner les documents numériques
Affiner la recherche Interroger des sources externes
A benchmark of nested named entity recognition approaches in historical structured documents / Solenn Tual (2023)
Titre : A benchmark of nested named entity recognition approaches in historical structured documents Type de document : Article/Communication Auteurs : Solenn Tual , Auteur ; Nathalie Abadie , Auteur ; Joseph Chazalon, Auteur ; Bertrand Duménieu , Auteur ; Edwin Carlinet, Auteur Editeur : Champs-sur-Marne [France] : Université Gustave Eiffel Année de publication : 2023 Projets : SODUCO / Perret, Julien Importance : 18 p. Format : 21 x 30 cm Note générale : Bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Géomatique
[Termes IGN] langage naturel (informatique)
[Termes IGN] reconnaissance de noms
[Termes IGN] traitement du langage naturelRésumé : (Auteur) Named Entity Recognition (NER) is a key step in the creation of structured data from digitised historical documents. Traditional NER approaches deal with flat named entities, whereas entities often are nested. For example, a postal address might contain a street name and a number. This work compares three nested NER approaches, including two state-of-the-art approaches using Transformer-based architectures. We introduce a new Transformer-based approach based on joint labelling and semantic weighting of errors, evaluated on a collection of 19 th-century Paris trade directories. We evaluate approaches regarding the impact of supervised fine-tuning, unsupervised pre-training with noisy texts, and variation of IOB tagging formats. Our results show that while nested NER approaches enable extracting structured data directly, they do not benefit from the extra knowledge provided during training and reach a performance similar to the base approach on flat entities. Even though all 3 approaches perform well in terms of F1 scores, joint labelling is most suitable for hierarchically structured data. Finally, our experiments reveal the superiority of the IO tagging format on such data. Numéro de notice : P2023-001 Affiliation des auteurs : UGE-LASTIG+Ext (2020- ) Thématique : GEOMATIQUE/TOPONYMIE Nature : Preprint nature-HAL : Préprint DOI : sans Date de publication en ligne : 20/02/2023 En ligne : https://hal.science/hal-03994759v1/document Format de la ressource électronique : URL Article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=102602 Création d’un graphe de connaissances géohistorique à partir d’annuaires du commerce parisien du 19ème siècle : application aux métiers de la photographie / Solenn Tual (2023)
Titre : Création d’un graphe de connaissances géohistorique à partir d’annuaires du commerce parisien du 19ème siècle : application aux métiers de la photographie Type de document : Article/Communication Auteurs : Solenn Tual , Auteur ; Nathalie Abadie , Auteur ; Bertrand Duménieu , Auteur ; Joseph Chazalon, Auteur ; Edwin Carlinet, Auteur Editeur : Saint-Mandé : Institut national de l'information géographique et forestière - IGN (2012-) Année de publication : 2023 Projets : SODUCO / Perret, Julien Conférence : IC 2023, 34es journées francophones d'Ingénierie des connaissances 03/07/2023 05/07/2023 Strasbourg France Note générale : bibliographie Langues : Français (fre) Descripteur : [Vedettes matières IGN] Analyse spatiale
[Termes IGN] analyse spatio-temporelle
[Termes IGN] bruit (théorie du signal)
[Termes IGN] entité géographique
[Termes IGN] réseau sémantique
[Termes IGN] visualisation 4DIndex. décimale : 37.20 Analyse spatiale et ses outils Résumé : (auteur) Les annuaires professionnels anciens, édités à un rythme soutenu dans de nombreuses villes européennes tout au long des XIXe et XXe siècles, forment un corpus de sources unique par son volume et la possibilité qu'ils donnent de suivre les transformations urbaines à travers le prisme des activités professionnelles des habitants, de l'échelle individuelle jusqu'à celle de la ville entière. L'analyse spatiotemporelle d'un type de commerces au travers des entrées d'annuaires demande cependant un travail considérable de recensement, de transcription et de recoupement manuels. Pour pallier cette difficulté, cet article propose une approche automatique pour construire et visualiser un graphe de connaissances géohistorique des commerces figurant dans des annuaires anciens. L'approche est testée sur des annuaires du commerce parisien du XIXe siècle allant de 1799 à 1908, sur le cas des métiers de la photographie. Numéro de notice : C2023-012 Affiliation des auteurs : UGE-LASTIG+Ext (2020- ) Thématique : GEOMATIQUE Nature : Communication nature-HAL : ComAvecCL&ActesPubliésIntl DOI : sans En ligne : https://hal.science/hal-04121643 Format de la ressource électronique : URL article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=103319 Entry separation using a mixed visual and textual language model: Application to 19th century French trade directories / Bertrand Duménieu (2023)
Titre : Entry separation using a mixed visual and textual language model: Application to 19th century French trade directories Type de document : Article/Communication Auteurs : Bertrand Duménieu , Auteur ; Edwin Carlinet, Auteur ; Nathalie Abadie , Auteur ; Joseph Chazalon, Auteur Editeur : Champs-sur-Marne [France] : Université Gustave Eiffel Année de publication : 2023 Projets : SODUCO / Perret, Julien Importance : 20 p. Format : 21 x 30 cm Note générale : Bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Géomatique
[Termes IGN] annuaire
[Termes IGN] dix-neuvième siècle
[Termes IGN] modèle de langue
[Termes IGN] reconnaissance de nomsRésumé : (Auteur) When extracting structured data from repetitively organized documents, such as dictionaries, directories, or even newspapers, a key challenge is to correctly segment what constitutes the basic text regions for the target database. Traditionally, such a problem was tackled as part of the layout analysis and was mostly based on visual clues for dividing (top-down) approaches. Some agglomerating (bottom-up) approaches started to consider textual information to link similar contents, but they required a proper over-segmentation of ne-grained units. In this work, we propose a new pragmatic approach whose eciency is demonstrated on 19 th century French Trade Directories. We propose to consider two sub-problems: coarse layout detection (text columns and reading order), which is assumed to be eective and not detailed here, and a ne-grained entry separation stage for which we propose to adapt a state-of-the-art Named Entity Recognition (NER) approach. By injecting special visual tokens, coding, for instance, indentation or breaks, into the token stream of the language model used for NER purpose, we can leverage both textual and visual knowledge simultaneously. Code, data, results and models are available at https://github.com/soduco/ paper-entryseg-icdar23-code, https://huggingface.co/HueyNemud/ (icdar23-entrydetector* variants). Numéro de notice : P2023-002 Affiliation des auteurs : UGE-LASTIG+Ext (2020- ) Thématique : GEOMATIQUE/INFORMATIQUE/TOPONYMIE Nature : Preprint nature-HAL : Préprint DOI : sans Date de publication en ligne : 17/02/2023 En ligne : https://hal.science/hal-03994702v1/ Format de la ressource électronique : URL Article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=102609 Modèles et outils pour la publication de métadonnées d'archives géographiques et de leurs données dérivées / Melvin Hersent (2023)
Titre : Modèles et outils pour la publication de métadonnées d'archives géographiques et de leurs données dérivées Type de document : Article/Communication Auteurs : Melvin Hersent, Auteur ; Nathalie Abadie , Auteur ; Bertrand Duménieu , Auteur ; Julien Perret , Auteur Editeur : Paris : HAL Année de publication : 2023 Projets : SODUCO / Perret, Julien Conférence : Humanistica 2023, 4e conférence de l'association francophone des humanités numériques 26/06/2023 28/06/2023 Genève Suisse OA Proceedings Importance : 7 p. Format : 21 x 30 cm Note générale : bibliographie Langues : Français (fre) Descripteur : [Vedettes matières IGN] Géomatique web
[Termes IGN] échange dynamique de données
[Termes IGN] interopérabilité sémantique
[Termes IGN] métadonnées
[Termes IGN] métadonnées géographiques
[Termes IGN] norme ISO
[Termes IGN] terminologieIndex. décimale : 37.50 Géomatique web Résumé : (auteur) L'interopérabilité des données dans un projet pluridisciplinaire est primordiale. Prenant l'exemple d'un projet de recherche en histoire spatiale, nous comparerons dans un premier temps les standards et vocabulaires à notre disposition pour décrire des données géographiques et des documents d'archives. Nous proposons ensuite un alignement entre les standards retenus : l'ISO 19115 et RiC-O. Enfin, nous proposons une architecture de microservices pour la saisie, le stockage, la publication sur le Web et l'interrogation unifiée des métadonnées de nos sources. Numéro de notice : C2023-005 Affiliation des auteurs : UGE-LASTIG+Ext (2020- ) Thématique : GEOMATIQUE Nature : Communication nature-HAL : ComAvecCL&ActesPubliésIntl DOI : sans En ligne : https://hal.science/hal-04110787 Format de la ressource électronique : URL article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=103274 A benchmark of named entity recognition approaches in historical documents : application to 19th century French directories / Nathalie Abadie (2022)
Titre : A benchmark of named entity recognition approaches in historical documents : application to 19th century French directories Type de document : Article/Communication Auteurs : Nathalie Abadie , Auteur ; Edwin Carlinet, Auteur ; Joseph Chazalon, Auteur ; Bertrand Duménieu , Auteur Editeur : Berlin, Heidelberg, Vienne, New York, ... : Springer Année de publication : 2022 Collection : Lecture notes in Computer Science, ISSN 0302-9743 num. 13237 Projets : SODUCO / Perret, Julien Conférence : DAS 2022, 5th IAPR International Workshop on Document Analysis Systems 22/05/2022 25/05/2022 La Rochelle France Proceedings Springer Importance : pp 445 - 460 Note générale : bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Géomatique
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] dix-neuvième siècle
[Termes IGN] données d'entrainement (apprentissage automatique)
[Termes IGN] exploration de texte
[Termes IGN] objet géohistorique
[Termes IGN] reconnaissance de noms
[Termes IGN] traitement du langage naturelRésumé : (auteur) Named entity recognition (NER) is a necessary step in many pipelines targeting historical documents. Indeed, such natural language processing techniques identify which class each text token belongs to, e.g. “person name”, “location”, “number”. Introducing a new public dataset built from 19th century French directories, we first assess how noisy modern, off-the-shelf OCR are. Then, we compare modern CNN- and Transformer-based NER techniques which can be reasonably used in the context of historical document analysis. We measure their requirements in terms of training data, the effects of OCR noise on their performance, and show how Transformer-based NER can benefit from unsupervised pre-training and supervised fine-tuning on noisy data. Results can be reproduced using resources available at https://github.com/soduco/paper-ner-bench-das22 and https://zenodo.org/record/6394464. Numéro de notice : C2022-030 Affiliation des auteurs : UGE-LASTIG+Ext (2020- ) Autre URL associée : vers HAL Thématique : GEOMATIQUE/INFORMATIQUE Nature : Communication nature-HAL : ComAvecCL&ActesPubliésIntl DOI : 10.1007/978-3-031-06555-2_30 En ligne : http://dx.doi.org/10.1007/978-3-031-06555-2_30 Format de la ressource électronique : URL article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=101088 Combining deep learning and mathematical morphology for historical map segmentation / Yizi Chen (2021)PermalinkPermalinkVectorization of historical maps using deep edge filtering and closed shape extraction / Yizi Chen (2021)PermalinkDes empreintes cartographiques : restitution de données géohistoriques à partir de la Carte de France de Cassini, 1750-1789 / Bertrand Duménieu in Cartes & Géomatique, n° 241-242 (décembre 2019)PermalinkCréation d’une base de connaissances sur les redécoupages administratifs durant la Révolution française : l’exemple des paroisses constitutionnelles / Antoine Keller (2019)PermalinkEngraved footprints from the past. Retrieving cartographic geohistorical data from the Cassini Carte de France, 1750-1789 / Bertrand Duménieu (2019)PermalinkHistorical collaborative geocoding / Rémi Cura in ISPRS International journal of geo-information, vol 7 n° 7 (July 2018)PermalinkAssessing the planimetric accuracy of Paris atlases from the late 18th and 19th centuries / Bertrand Duménieu (2018)PermalinkVers la construction d'une base de connaissances sur la réorganisation territoriale française à la Révolution / Antoine Keller (2018)PermalinkPermalink