Sélectionnez votre langue

Actualités

Plateforme d’édition de lexiques en TEI

Le Congrès a développé en interne, au sein de son département informatique, la plateforme lexicale d’édition de lexiques TEI (Text encodage information, un standard de formatage de corpus textuels) nécessaire à la rédaction du dictionnaire : il s’agit d’une application en ligne, dotée d’une interface permettant la rédaction collective de l’ouvrage, avec une architecture hiérarchisée et extensible des données et des jeux d’étiquettes permettant d’automatiser et d’uniformiser les différentes informations (entrée, étymologie, restitution phonologique, lemme, information grammaticale, expression, locution, variété de langue, bibliographie indexée, etc.). Cette interface est un développement de haut niveau, permettant de générer et de paramétrer plusieurs projets de dictionnaires, dans les standards de la TEI-P5 (norme internationale et interdisciplinaire pour le formatage des données textuelles) : les données produites seront donc dans les standard d’échanges TAL, permettant d’envisager la modification, l’extension, l’exportation (en base de données ou en vue d’une édition) et l’interopérabilité.

Cette interface permet de créer des lexiques au format XML pour des personnes non familières avec le code. Elle comprend les sections suivantes :

  • Lexiques : pour pouvoir créer des lexiques et attribuer aux utilisateurs différentes permissions sur chacun (tout gérer, simplement éditer, seulement voir et commenter).
  • Articles : pour créer des articles de lexiques et leur contenu (mot-vedette, acceptions, étymologies, traductions, définitions…).
  • Patrons : pour faire des « squelettes » d’articles, de citations… à importer quand on crée ou édite des articles.
  • Modèles : pour créer des éléments réutilisables (ex. : des références bibliographiques) qui seront homogènes dans tout un lexique.
  • Listes : pour utiliser des standards normés pour le traitement TAL (caractérisations, étiquettes de catégories grammaticales, codes langues…).
  • Aide : une notice précise et détaillée sur l’utilisation de la plateforme, ainsi que sur la norme TEI-P5 utilisée par le Congrès.

Elle propose des fonctionnalités pour le travail de groupe (notifications, commentaires, historique des modifications, demande de validation ou de verrouillage) et d’autres pour rendre plus efficace le temps de travail (duplication d’élément, import en lot de modèles, création multiple de formes, remplissage automatique à partir de prédictions par des algorithmes ou de valeurs par défaut).

La plateforme est trilingue occitan, français, anglais et a été réalisée avec un framework standardisé (Django). Il sera donc possible d’en faire des copies pour d’autres structures ou d’autres langues, voire de la mettre à disposition en open-source.