29 mai 2007

Sermons de Jacques de Voragine

Je découvre un site qui ne semble pas bien vieux (février 2007, apparemment) et qui a entrepris d'éditer des sermons médiévaux en TEI (langage XML d'édition de texte) : Sermones.net.
L'outil fonctionne sur un site SPIP, et un moteur de recherche en XML (implémenté à partir de la plate-forme SDX du Ministère de la Culture. Pleade est une implémentation SDX). L'indexation en TEI (plutôt qu'en PDF, par exemple), permet de préciser au sein du document la nature du texte encodé, ce qui permet de lancer une recherche sur les mots-clés, les distinctiones, les figures, les exempla, la matière liturgique. Cela implique sans nul doute un lourd travail en amont de saisie fine et laborieuse des textes.
Mais après tout, les éditeurs de textes médiévaux sont habitués à ce travail de fourmis (cf. les corpus d'incipit, etc.).
La recherche est simple ou avancée. Quand j'ai découvert qu'elle pouvait même se formuler directement en XQuery, j'ai immédiatement pensé que l'Ecole des Chartes et Got étaient derrière -- mais non : c'est le CNRS, l'Institut universitaire de France, et l'UMR Histoire et Archéologie des Mondes Chrétiens et Musulmans Médiévaux qui ont monté ça. L'ensemble est dirigé par Nicole Bériou, de Lyon 2

Elément utile à connaître : c'est du SDX, donc la troncature * permet de se passer des déclinaisons.
Une bonne idée a été mise en place : après une première recherche, on peut relancer une requête "dans ces résultats", ce qui permet de rajouter un filtre sur un autre.


Recherche "monet*"


Un regret toutefois : la liste des résultats fournit le titre du sermon (le jour de l'année liturgique), le thème et l'incipit. Le thème reprend souvent une phrase de l'Ecriture Sainte. Mais cette citation n'est pas toujours référencée au niveau de la liste des résultats (il l'est lorsqu'on consulte le document)

Vous remarquerez aussi dans cette copie d'écran que le format XML permet de proposer facilement plusieurs mises en page du même texte : plan "synthétique", "classique", "pas de plan".
La recherche utilise (comme tout développement SDX) le moteur Lucene, aussi utilisé par Europeana : donc lorsqu'on tape plusieurs mots, il cherche d'abord tous ces mots, puis quelques uns seulement, puis un seul. Donc plus on cherche de mots, plus il trouve de résultats (l'inverse de Google, en fait). Pourquoi pas ? Mais il vaut mieux être prévenu.

Petit bonus : la localisation géographique des membres du projet utilise Google Maps.

Tout cela me fait penser que je suis bien trop éloigné du monde des chercheurs, et qu'ils sont parfois beaucoup plus inventifs que je ne l'imagine (voire même audacieux : la requête en XQuery, c'est aller sans doute un peu loin, même si somme toute ça ne fait de tort à personne).

Libellés : , , ,

Mentions légales

MonnaieCe n'est pas un blog de collectionneur.
Je suis historien, un peu informaticien (j'adore les métadonnées !). D'où ce que vous pouvez lire ici.
Comme vous pouvez le constater, même si je le laisse en ligne, il n'est plus alimenté depuis longtemps.

Recherche sur le web numismate

Recherche dans les livres de numismatique de Google Book Search[...]

 

 

Généré par Blogger

Site Meter