Configurer un entrepôt OAI depuis une application SDX
Ce document contient quelques informations sur la démonstration qui a eu lieu dans le cadre de l'atelier.
1) Contexte
La plate-forme SDX est un moteur de recherche documentaire pour corpus de documents XML. Une application SDX peut être constituée de plusieurs bases de documents. Une base de documents est un ensemble logique où s'effectue des recherches (la recherche dans plusieurs bases à la fois est également possible). Toute base de documents SDX peut être transformée en entrepôt OAI par simple configuration.
XToGen est un générateur d'applications SDX. A partir d'un ficher de configuration XML, XToGen fabrique tous les fichiers nécessaires pour obtenir une application SDX complète, avec saisie, affichage HTML et PDF, recherche simple ou avancée, importation, exportation, etc.
2) Objectifs
L'objectif est de montrer comment on peut transformer une base de documents SDX en entrepôt OAI. La démonstration se fera sur deux applications :
- une application Dublin Core , préparée par Michel Bottin et générée par XToGen, verra sa base de documents exposée en entrepôt OAI par simple correspondance de champs.
- l'application sdxtest, livrée avec SDX, verra sa base de documents
sdxworldexposée en OAI en deux formats, un format Dublin Core (obligatoire) et le format natif, à l'aide de transformations XSLT
3) Informations techniques
La version de SDX utilisée est le dernier CVS de la branche V_22, qui correspond à une version 2.2.2 qui sera distribuée prochainement.
La version de XToGen utilisée pour générer l'application Dublin Core est la 2.0b5.
Pour atteindre un entrepôt OAI hébergé par SDX, l'URL est de cette forme :
[serveur]/[sdx]/sdx/oai/[appli]/[bd]
Ici, [sdx] est le chemin d'accès à SDX sur le serveur ; [appli] est le chemin de l'application concernée, [bd] est le code de la base de documents exposée en OAI.
3.1) Configuration de l'application DC
Cette application était déjà préparée pour exposer les données en OAI. Nous lui avons toutefois ajouté la sortie du champ dc:subject et nous avons ajouté la possibilité de filtrer le contenu de la base pour exclure des documents de l'entrepôt OAI.
La méthode de correspondance de champs est ici utilisée. Très simple à mettre en œuvre, elle ne fonctionne que pour des formats simples, à plat.
3.2) Configuration de l'application sdxtest
L'application sdxtest est déjà configurée pour exposer les données en OAI, en format Dublin Core et dans un format SDX qui correspond à la source des documents associés à leurs champs indexés.
Nous avons ajouté un troisième format pour illustrer la méthode de production d'un format à l'aide d'un pipeline SDX , plus précisément une XSLT. Cette XSLT très simple modifie les données pour produire un nouveau format défini pour l'exemple.
4) Références
4.1) SDX
- site Web officiel : http://adnx.org/sdx/
- site de développement : http://savannah.nongnu.org/projects/sdx/
- documentation : http://www.nongnu.org/sdx/docs/html/doc-sdx2/fr/index.html
- documentation OAI : http://www.nongnu.org/sdx/docs/html/doc-sdx2/fr/oai/index.html
4.2) XToGen
- site Web officiel : http://xtogen.tech.fr/
- documentation : http://xtogen.tech.fr/fr/index.html