Exportar todo el contenido de una MediaWiki en HTML

Necesitaba poder tener todas las páginas de una MediaWiki en formato HTML en un directorio, con sus imágenes, para poder usarlo como un respaldo navegable del estado actual de esa wiki. Encontré la extensión DumpHTML y la implementé tal como se indica:

  1. Descargar el archivo tar.gz de la extensión para la versión de MediaWiki instalada
  2. Descomprimir su contenido en el directorio extensions

Exportar el contenido

La acción se realiza desde la línea de comandos, ejecutando:

php <MEDIAWIKI_PATH>/extensions/DumpHTML/dumpHTML.php -d <DESTINATION_DIR> --image-snapshot

lo que dejará en el directorio DESTINATION_DIR todo el contenido listo para ser navegado.

  • El parámetro –image-snapshot, asegura la copia de las imágenes subidas

Configuraciones

Se pueden indicar otros parámetros para

  • -k <SKIN>: utilizar un skin en particular. El contenido respaldado apunta dicho skin en la wiki , por lo que requiere que esté en funcionamiento y sea accesible para que el skin sea visualizado correctamente.
    • Si no se especifica o bien si se indica el skin “offline”, se utiliza un skin básico disponible dentro del contenido respaldado.
  • –munge-title <ALGORITHM>: utilizar un algoritmo para transformar los nombres de páginas y archivos cuando contienen caracteres no soportados por el entorno desde el que se accederá al contenido.
    • md5: se transforman los nombres a partir de aplicarles MD5 (útil si existen caracteres UTF8)
    • windows: se quitan los caracteres no soportados en nombres de archivos en Windows ( /\*?”<>| )

Inconvenientes

No pude hacer que se exporte el thumbnail de cada imagen, que se visualizan en la página de la imagen.

En la versión 1.19 de MediaWiki me sucedieron 2 cosas:

En la primer ejecución, obtuve el error "Default users are not allowed to read, please specify (--group=sysop)". Pude solucionarlo agregando a la invocación

--group=user

Había realizado la exportación indicando el skin monobook, pero no se visualizaba correctamente y pude observar que se intentaban obtener los estilos desde "http://localhost/load.php?...". Pude solucionarlo estableciendo la url de la wiki en una variable de configuración de LocalSettings.php:

$wgServer = 'http://www.dominio-wiki.com';

y volviendo a exportar para que se apuntara correctamente al skin.

Tagged with: , ,
Publicado en Aplicaciones