¿Cómo extraigo datos XML de un sitio web?

Extraer datos de sitios web con Kettle varía de fácil a difícil. Fácil es donde usa un paso HTTP para llamar a la dirección del sitio web, y trae la respuesta nuevamente a la secuencia como una columna (campo). Lo más difícil es donde tiene que navegar la lógica de inicio de sesión de alguien usando PDI para crear scripts de shell que usan wget o curl para manejar la interacción mientras se guardan las cookies y la información de la sesión. Luego, una última llamada a través de wget o curl para que el sitio web le brinde una página de resultados, que bien podría ser una respuesta XML, pero más probablemente html. La última llamada descargará ese archivo html en el disco temporalmente, que puede cargar en la memoria (una sola fila, un solo campo), usar JTIDY a través del paso UDJC para convertir el html a XHTML, luego ejecutar esa secuencia a través del paso Xpath.

Entonces es tedioso, pero factible. Estoy hablando con Pentaho sobre cómo facilitar este proceso hasta que los proveedores de SaaS basados ​​en la nube descubran que dejar que los datos salgan a través de excelentes API es algo importante para los clientes y algo que podría monetizarse. La realidad es que siempre habrá una gran aplicación web, administrada por una pequeña empresa, que puede no tener el tiempo, el dinero o los recursos para permitir que los datos lleguen a las máquinas de una manera fácil. Tenemos un montón de ellos en salud.

Vaya a ‘Archivo> Nuevo> Panel EasyCatalog> Nuevo origen de datos XML’; esto abrirá el cuadro de diálogo ‘Configuración de fuente de datos’.

En este cuadro de diálogo habrá un menú desplegable junto a ‘Fuente:’ que está configurado en ‘Archivo’ de forma predeterminada. Seleccione ‘URL’ en este menú desplegable.

Ingrese la URL del archivo XML y presione ‘Recuperar’; los campos ahora deberían poder configurarse usando XPath.

Si el archivo XML necesita actualizarse desde EasyCatalog, seleccione el botón ‘Opciones …’ a la izquierda del botón ‘Recuperar’. Esto abrirá un nuevo cuadro de diálogo que permite especificar una URL de carga, credenciales de inicio de sesión HTTP y proxy HTTP.

Saludos

Experto en SEO, Manish Verma