Le chef de projet avait établi fin 2023 un corpus de travail, avec une liste d'œuvres de référence couvrant la diversité de la langue occitane. Certains ouvrages étaient présents dans le corpus du Congrès, d’autres disponibles en ligne (dont certains dans les bases BaTelOc et dicodòc), beaucoup sous droits et/ou non numérisés. C’est ainsi qu’un premier corpus d’environ un millier de références a pu être constitué ; toutefois, nous nous sommes trouvés confrontés au problème d’hétérogénéité des formats (texte, xml, pdf et fichiers images), ainsi qu’à un manque de fonctionnalités permettant la recherche de mots en contexte. Il a donc été décidé de développer une interface ad hoc, le Cercador (le « chercheur » en occitan) avec l’appui d’un prestataire externe. Il s’agit d’une plateforme interne au Congrès, par conséquent avec un accès réservé, permettant à partir d’un seul moteur de recherche d’identifier les occurrences lexicales dans un corpus numérisé multiformats et facilitant la contextualisation des mots étudiés selon leurs différentes acceptions.
Il s’agit d’un outil indispensable à la vocation descriptive et illustrative du dictionnaire. Il permet d’effectuer des recherches avancées, permettant l’usage d’expressions régulières (« commence par », « contient », etc.) et utilisant des filtres (type de corpus, auteurs, genres, variante, éditeur).
Un travail d’élargissement et d’approfondissement du corpus a également été engagé. L’accent a été mis sur l’intégration d’auteurs majeurs de la littérature occitane qui n’étaient pas ou qui étaient insuffisamment représentés dans la première version du corpus, spécifiquement ceux de la période 1950-2020. En parallèle, s’agissant des ressources externes, il a été également décidé d’ouvrir la fonction d’illustration à des périodiques de référence en ligne (Jornalet, Sapiéncia, Lo Diari,…), dans le but de contextualiser les mots les plus modernes ou relevant d’une terminologie particulière, par exemple socio-politique ou scientifique.