Scrutarizar un sitio

«Scrutarizar un sitio» en la jerga del equipo de la Coderem significa poner en marcha el proceso automático de extracción de los metadatos de un sitio en formato ScrutariData con el objetivo de permitir al servidor Scrutari incluir el sitio dentro de los resultados de búsqueda.

La «scrutarización» de su sitio es una etapa importante para un participante de la Coderem. No es siempre una etapa simple porque sólo hay que extraer del sitio los recursos documentales, y no las otras páginas (muros, actualidad, etc.) lo que implica establecer los filtros adecuados.

Es para simplificar esta etapa que la Coredem inició varios desarrollos informáticos.
Algunas extensiones están siendo desarrolladas para los software de gestión de contenidos libres más populares (Spip, Wordpress, Joomla, Drupal): la idea de estas extensiones es la de proponer interfaces para configurar la extracción en el formato ScrutariData. Por ejemplo, en Spip, se indicará cuales secciones contienen recursos documentales interesantes para la Coredem.

Estas diversas extensiones no han sido todavía colocados dentro de los repositorios de extensión de los software implicados. Esto se hará cuando sean suficientemente estables. Mientras tanto, podéis contactar con la Coderem si estáis interesados por alguna extensión.

Sin embargo, no todos los sitios se basan en los software de gestión de contenidos citados aquí. Será necesario, por eso, hacer un desarrollo ad hoc para extraer los datos en el formato ScrutariData.

Como esto puede resultar costoso, la Coderem trabaja igualmente en unos scripts de transformación de datos en el formato CVS (simples ficheros de texto en los que los datos están bajo la forma de tablas) hacia el formato ScrutariData. Así, el sitio candidato a la «scrutarización» debe simplemente poner en marcha una exportación al formato CVS que es más fácil de hacer.

Finalmente, como ultima alternativa, los scripts pueden ser escritos para construir el fichero en formato ScrutariData a partir de las mismas páginas web.
Estos scripts están escritos en Python: (http://www.scrutari.net/dokuwiki/scrutaridata:exportapi:python).

En el sitio de documentación técnica de Scrutari, se propone una API en PHP, en Java y en Python para ayudar en la escritura de un fichero en formato ScrutariData: http://www.scrutari.net/dokuwiki/scrutaridata:exportapi

Navigation