« Scrutariser » un site

« Scrutariser un site », c’est, dans le jargon de l’équipe de la Coredem, le fait de mettre en place le processus automatique d’extraction des métadonnées d’un site au format ScrutariData afin de permettre au serveur Scrutari d’inclure le site dans ses résultats de recherche.

La « scrutarisation » de son site est une étape importante pour un participant à la Coredem. Ce n’est pas une étape toujours simple car il ne faut extraire du site que les ressources documentaires et non les autres pages (pages vitrines, actualité, etc.) ce qui implique de mettre en place les filtres adéquats.

C’est pour simplifier cette étape que plusieurs pistes de développements informatiques sont explorées dans le cadre par la Coredem.

La première piste est celle d’écriture d’extensions pour les logiciels de gestion de contenus libres les plus populaires (Spip, Wordpress, Joomla, Drupal) : l’idée de ces extensions est de proposer des interfaces pour configurer l’extraction au format ScrutariData.

Cependant, l’écriture de ces extensions s’est heurtée à la diversité des cas de figure. Suivant les modules utilisés ou l’architecture mise en place, l’organisation des données n’est pas la même d’un site à un autre. Par exemple, le sous-titre ou les auteurs peuvent être représentés différemment.

C’est pourquoi seule l’extension pour Spip est actuellement disponible sur le groupe Scrutari sur Framagit (il y a fait deux extensions : celle pour l’export des données et celle pour l’insertion d’un client).

Si la piste de l’extension ne peut pas être suivie, il reste celle d’écrire du code sur mesure pour extraire les données au format ScrutariData.

L’idéal est d’écrire du code hébergé sur le site producteur de la donnée pour accéder directement à la base. Mais cette solution est couteuse.

La solution intermédiaire est d’extraire les données au format au format CSV (simples fichiers texte où les données sont sous forme tabulaires) et de coder la conversion au format ScrutariData. Mettre en place une exportation au format CSV est souvent assez simple à mettre en œuvre sur le site producteur de la donnée (avec probablement des extensions susceptibles de le faire) et écrire le script de conversion demande moins d’effort..

La dernière piste est celle d’écrire un script qui va construire le fichier au format ScrutariData à partir des pages web elles-mêmes, tout comme le font les robots des moteurs de recherche. L’avantage de cette solution est de ne demander aucun effort au site producteur de la donnée.

À l’heure actuelle, ces scripts sont écrits en Python et peuvent être consulté sur le projet correspondant hébergé sur Framagit.

Pour aider à l’écriture des scripts, le site Scrutari propose une API. Celle-ci a été implémentée dans les langages suivants :

Navigation