Détail de l'autorité
DAS 2022, 5th IAPR International Workshop on Document Analysis Systems 22/05/2022 25/05/2022 La Rochelle France Proceedings Springer
nom du congrès :
DAS 2022, 5th IAPR International Workshop on Document Analysis Systems
début du congrès :
22/05/2022
fin du congrès :
25/05/2022
ville du congrès :
La Rochelle
pays du congrès :
France
site des actes du congrès :
|
Documents disponibles (1)
Ajouter le résultat dans votre panier Affiner la recherche Interroger des sources externes
A benchmark of named entity recognition approaches in historical documents : application to 19th century French directories / Nathalie Abadie (2022)
Titre : A benchmark of named entity recognition approaches in historical documents : application to 19th century French directories Type de document : Article/Communication Auteurs : Nathalie Abadie , Auteur ; Edwin Carlinet, Auteur ; Joseph Chazalon, Auteur ; Bertrand Duménieu , Auteur Editeur : Berlin, Heidelberg, Vienne, New York, ... : Springer Année de publication : 2022 Collection : Lecture notes in Computer Science, ISSN 0302-9743 num. 13237 Projets : SODUCO / Perret, Julien Conférence : DAS 2022, 5th IAPR International Workshop on Document Analysis Systems 22/05/2022 25/05/2022 La Rochelle France Proceedings Springer Importance : pp 445 - 460 Note générale : bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Géomatique
[Termes IGN] classification par réseau neuronal convolutif
[Termes IGN] dix-neuvième siècle
[Termes IGN] données d'entrainement (apprentissage automatique)
[Termes IGN] exploration de texte
[Termes IGN] objet géohistorique
[Termes IGN] reconnaissance de noms
[Termes IGN] traitement du langage naturelRésumé : (auteur) Named entity recognition (NER) is a necessary step in many pipelines targeting historical documents. Indeed, such natural language processing techniques identify which class each text token belongs to, e.g. “person name”, “location”, “number”. Introducing a new public dataset built from 19th century French directories, we first assess how noisy modern, off-the-shelf OCR are. Then, we compare modern CNN- and Transformer-based NER techniques which can be reasonably used in the context of historical document analysis. We measure their requirements in terms of training data, the effects of OCR noise on their performance, and show how Transformer-based NER can benefit from unsupervised pre-training and supervised fine-tuning on noisy data. Results can be reproduced using resources available at https://github.com/soduco/paper-ner-bench-das22 and https://zenodo.org/record/6394464. Numéro de notice : C2022-030 Affiliation des auteurs : UGE-LASTIG+Ext (2020- ) Autre URL associée : vers HAL Thématique : GEOMATIQUE/INFORMATIQUE Nature : Communication nature-HAL : ComAvecCL&ActesPubliésIntl DOI : 10.1007/978-3-031-06555-2_30 En ligne : http://dx.doi.org/10.1007/978-3-031-06555-2_30 Format de la ressource électronique : URL article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=101088