Prueba la caldera.
Es gratis (código abierto de Apache2), rápido (milisegundos) y fundamentalmente justificado por leyes cuantitativas de texto lingüístico. Ah, y es por mí.
Funciona de forma inmediata para muchos sitios web, escenarios y diferentes idiomas.
- ¿Qué método se utiliza en sitios que no requieren múltiples archivos HTML y permanecen en la misma página cuando se hace clic en un botón que carga nueva información en el área de información?
- ¿Es WordPress una buena plataforma para construir un MVP para una aplicación web relativamente simple?
- ¿Cuánto cuesta construir una aplicación web con análisis de datos pesados en su back-end?
- ¿Cuáles son algunas buenas herramientas o aplicaciones para autores de no ficción?
- ¿Qué tan difícil sería crear una aplicación web de transmisión de música?
Como no se utilizan sutiles heurísticas específicas del sitio, funciona muy bien a escala web, es decir, para una variedad de hosts. Un diagrama que compara la calidad de extracción de boilerpipe con otros extractores (incluyendo Readability y Apple Safari Reader), usando artículos de Google News, está disponible aquí: http://code.google.com/p/boilerp…
Recientemente, boilerpipe también se ha integrado en Apache Tika, por lo que tal vez ya lo tenga.
Servicio web de demostración: http://boilerpipe-web.appspot.com/
Biblioteca de Java: http://code.google.com/p/boilerp…
Presentación de la investigación (WSDM 2010): http://videolectures.net/wsdm201…
Soporte comercial disponible en http://www.kohlschutter.com/