Descripteur
Documents disponibles dans cette catégorie (2)
Ajouter le résultat dans votre panier
Visionner les documents numériques
Affiner la recherche Interroger des sources externes
Etendre la recherche sur niveau(x) vers le bas
Entry separation using a mixed visual and textual language model: Application to 19th century French trade directories / Bertrand Duménieu (2023)
Titre : Entry separation using a mixed visual and textual language model: Application to 19th century French trade directories Type de document : Article/Communication Auteurs : Bertrand Duménieu , Auteur ; Edwin Carlinet, Auteur ; Nathalie Abadie , Auteur ; Joseph Chazalon, Auteur Editeur : Champs-sur-Marne [France] : Université Gustave Eiffel Année de publication : 2023 Projets : SODUCO / Perret, Julien Importance : 20 p. Format : 21 x 30 cm Note générale : Bibliographie Langues : Anglais (eng) Descripteur : [Vedettes matières IGN] Géomatique
[Termes IGN] annuaire
[Termes IGN] dix-neuvième siècle
[Termes IGN] modèle de langue
[Termes IGN] reconnaissance de nomsRésumé : (Auteur) When extracting structured data from repetitively organized documents, such as dictionaries, directories, or even newspapers, a key challenge is to correctly segment what constitutes the basic text regions for the target database. Traditionally, such a problem was tackled as part of the layout analysis and was mostly based on visual clues for dividing (top-down) approaches. Some agglomerating (bottom-up) approaches started to consider textual information to link similar contents, but they required a proper over-segmentation of ne-grained units. In this work, we propose a new pragmatic approach whose eciency is demonstrated on 19 th century French Trade Directories. We propose to consider two sub-problems: coarse layout detection (text columns and reading order), which is assumed to be eective and not detailed here, and a ne-grained entry separation stage for which we propose to adapt a state-of-the-art Named Entity Recognition (NER) approach. By injecting special visual tokens, coding, for instance, indentation or breaks, into the token stream of the language model used for NER purpose, we can leverage both textual and visual knowledge simultaneously. Code, data, results and models are available at https://github.com/soduco/ paper-entryseg-icdar23-code, https://huggingface.co/HueyNemud/ (icdar23-entrydetector* variants). Numéro de notice : P2023-002 Affiliation des auteurs : UGE-LASTIG+Ext (2020- ) Thématique : GEOMATIQUE/INFORMATIQUE/TOPONYMIE Nature : Preprint nature-HAL : Préprint DOI : sans Date de publication en ligne : 17/02/2023 En ligne : https://hal.science/hal-03994702v1/ Format de la ressource électronique : URL Article Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=102609 Caractérisation de la ville du futur dans des corpus de science-fiction et de fiction climatique / Sami Guembour (2022)
Titre : Caractérisation de la ville du futur dans des corpus de science-fiction et de fiction climatique Type de document : Mémoire Auteurs : Sami Guembour, Auteur ; Catherine Dominguès , Encadrant ; Chuanming Dong , Encadrant Editeur : Paris : Université Paris Cité Année de publication : 2022 Projets : PARVIS / Perret, Julien Importance : 53 p. Note générale : bibliographie
Rapport de stage Master 2 informatique, parcours Apprentissage Machine pour la Science des DonnéesLangues : Français (fre) Descripteur : [Vedettes matières IGN] Linguistique
[Termes IGN] apprentissage automatique
[Termes IGN] modèle de langue
[Termes IGN] traitement du langage naturelMots-clés libres : plongement lexical CamemBERT science-fiction embedding Résumé : (auteur) La ville future est souvent décrite dans les romans de science-fiction de fiction climatique de façons innovantes et inventives par les écrivains, et avec la variété des imaginations des auteurs et la multiplicité des romans, la caractérisation de la ville de demain devient compliquée. Le traitement automatique des langues (TAL) est un domaine qui permet de traiter le langage humain automatiquement. Dans ce stage, nous avons eu recours aux techniques et méthodes des sciences des données et du TAL et aux modèles de langue fondés sur les transformers pour classifier les romans de la ville et identifier les différents caractères de la ville du futur et les lieux (en tant que zones socialement reconnues et distinguées) publics et privés et les usages associés. Ce travail a permis de contribuer à la caractérisation de la ville future et les résultats seront valorisés par le projet PARVIS, il a également permis de créer des modèles pour le traitement de la polysémie des mots qui désignent la ville, et sur le plan personnel, il m'a permis d'enrichir mes connaissances en TAL et en science des données et de mieux maîtriser les modèles de langues pour la réalisation des différentes tâches. // The future city is often depicted in climate fiction science fiction novels in innovative and inventive ways by writers, and with the variety of authors’ imaginations and the multiplicity of novels, characterizing the city of tomorrow becomes complicated. Natural language processing (NLP) is a field that allows human language to be processed automatically. In this internship we have used the techniques and methods of data science and NLP and language models based on transformers to classify the novels of the city and identify the different characteristics of the city of the future and the different places (as socially recognized and distinguished areas) public and private and associated uses. This work allowed the characterization of the future city and the results were valued by the PARVIS project, it also made it possible to create models for the treatment of the polysemy of the words which designate the city, and on a personal level it allowed to enrich my knowledge in NLP and data science, and to better master the language models for the realization of the different tasks. Note de contenu : Introduction Générale
1 Contexte du stage
1.1 Présentation de l’organisme d’accueil
1.2 Objectif et étapes du stage
2 Etat de l’art
2.1 Introduction
2.2 Généralités sur le traitement Automatique des Langues
2.3 Domaines d’application
2.4 Différentes étapes du TAL
2.5 Les modèles de langues
2.6 Apprentissage automatique
2.7 Apprentissage profond
2.8 Co-clustering
2.9 Analyse factorielle
2.10 Conclusion
3 Travail réalisé
3.1 Introduction
3.2 Construction du corpus de la ville
3.3 Identification des fonctions associées aux lieux de la ville
3.4 Identification et analyse en sentiments des lieux inventés de la ville
3.5 Conclusion
ConclusionNuméro de notice : 14196 Affiliation des auteurs : non IGN Thématique : GEOMATIQUE Nature : Mémoire masters divers Organisme de stage : LASTIG (IGN) Permalink : https://documentation.ensg.eu/index.php?lvl=notice_display&id=102271 Documents numériques
peut être téléchargé
Rapport de stage de Sami GUEMBOUR - pdf auteurAdobe Acrobat PDF