« Scrutariser » un site

« Scrutariser un site », c’est, dans le jargon de l’équipe de la Coredem, le fait de mettre en place le processus automatique d’extraction des métadonnées d’un site au format ScrutariData afin de permettre au serveur Scrutari d’inclure le site dans ses résultats de recherche.

La « scrutarisation » de son site est une étape importante pour un participant à la Coredem. Ce n’est pas une étape toujours simple car il ne faut extraire du site que les ressources documentaires et non les autres pages (pages vitrines, actualité, etc.) ce qui implique de mettre en place les filtres adéquats.

C’est pour simplifier cette étape que plusieurs développements informatiques ont été initiés par la Coredem.

Des extensions sont en cours de développement pour les logiciels de gestion de contenus libres les plus populaires (Spip, Wordpress, Joomla, Drupal) : l’idée de ces extensions est de proposer des interfaces pour configurer l’extraction au format ScrutariData. Par exemple, sous Spip, on indiquera quelles rubriques contiennent des ressources documentaires intéressant la Coredem.

Ces diverses extensions n’ont pas encore été placées dans les dépôts d’extension des logiciels concernés. Cela viendra lorsqu’elles seront suffisamment stables. En attendant, vous pouvez contacter la Coredem si vous êtes intéressés par telle ou telle extension.

Cependant, tous les sites ne se basent pas sur un des logiciels de gestion de contenus cités ci-dessus. Il est alors nécessaire de faire un développement ad hoc pour extraire les données au format ScrutariData.

Comme cela peut se révéler couteux, la Coredem travaille également sur des scripts de transformation de données au format CSV (simples fichiers texte où les données sont sous forme tabulaires) vers le format ScrutariData. Ainsi, le site candidat à la « scrutarisation » doit simplement mettre en place une exportation au format CSV qui est plus facile à mettre en œuvre.

Enfin, dernière possibilité, des scripts peuvent être écrits pour construire le fichier au format ScrutariData à partir des pages web elles-mêmes.

Ces scripts sont écrits en Python (http://www.scrutari.net/dokuwiki/scrutaridata:exportapi:python).

Sur le site de documentation technique de Scrutari, il est proposé une API en PHP, en Java et en Python pour aider à l’écriture d’un fichier au format ScrutariData : http://www.scrutari.net/dokuwiki/scrutaridata:exportapi

Navigation