Encoding the Specificities of Encyclopedias - INRIA 2
Chapitre D'ouvrage Année : 2024

Encoding the Specificities of Encyclopedias

Encoder les Particularités des Encyclopédies

Résumé

This chapter illustrates the fundamental differences between dictionaries and encyclopedias by documenting the process of devising an encoding scheme and applying it to a late-19th century encyclopedia, “La Grande Encyclopédie” (hence LGE). The effort, made in the context of project DISCO-LGE, consisted in working from an OCRised version of the pages in XML-ALTO to produce a fully XML-TEI-compliant encoding of the individual articles. Although the TEI guidelines include a specialised module for dictionaries which was identified as a promising tool for the task, systematic traversal of the schema using graph search methods revealed some limitations when used to encode this text. These shortcomings are reviewed and illustrated on a series of examples. An alternative encoding remaining within the core module of TEI is then proposed and demonstrated on articles from LGE containing key features. Finally, different strategies followed by other projects are discussed.
Ce chapitre illustre les différences fondamentales qui existent entre dictionnaires et encyclopédies en retraçant le processus de choix puis d’application d’un schéma d’encodage à une encyclopédie du XIXème siècle, “La Grande Encyclopédie” (LGE dans ce qui suit). Ce travail entrepris dans le cadre du projet DISCO-LGE, a consisté à travailler à partir d’une version OCRisée des pages au format XML-ALTO en vue de produire un encodage XML-TEI pleinement conforme des articles individuels. Malgré la présence dans la documentation de la TEI d’un module spécialisé pour les dictionnaires qui semblait un outil prometteur pour cette tâche, le parcours systématique du schéma en utilisant des méthodes de recherche dans les graphes révèle des limitations du module face à ce texte. Les faiblesses sont passées en revue et illustrées sur plusieurs exemples. Un encodage alternatif qui se restreint au module central de la TEI est proposé et appliqué sur des articles de LGE contenant des particularités caractéristiques. Enfin, des stratégies différentes suivies par d’autres projets de recherche sont également discutées.
Fichier principal
Vignette du fichier
Encoding the Specificities of Encyclopedias_preprint.pdf (11.64 Mo) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)
licence

Dates et versions

hal-04806947 , version 1 (27-11-2024)

Licence

Identifiants

  • HAL Id : hal-04806947 , version 1

Citer

Alice Brenon. Encoding the Specificities of Encyclopedias. Javier Martin Arista; Ana Elvira Ojanguren López. Structuring Lexical Data and Digitising Dictionaries, Brill, pp.36-62, 2024, 978-90-04-70265-3. ⟨hal-04806947⟩
0 Consultations
0 Téléchargements

Partager

More