¿Qué enfoques son útiles para extraer el contenido de texto real de una página web de la etiqueta ?

Prueba la caldera.

Es gratis (código abierto de Apache2), rápido (milisegundos) y fundamentalmente justificado por leyes cuantitativas de texto lingüístico. Ah, y es por mí.

Funciona de forma inmediata para muchos sitios web, escenarios y diferentes idiomas.

Como no se utilizan sutiles heurísticas específicas del sitio, funciona muy bien a escala web, es decir, para una variedad de hosts. Un diagrama que compara la calidad de extracción de boilerpipe con otros extractores (incluyendo Readability y Apple Safari Reader), usando artículos de Google News, está disponible aquí: http://code.google.com/p/boilerp…

Recientemente, boilerpipe también se ha integrado en Apache Tika, por lo que tal vez ya lo tenga.

Servicio web de demostración: http://boilerpipe-web.appspot.com/
Biblioteca de Java: http://code.google.com/p/boilerp…
Presentación de la investigación (WSDM 2010): http://videolectures.net/wsdm201…

Soporte comercial disponible en http://www.kohlschutter.com/

Hola, estoy usando mi respuesta a otra pregunta sobre Quora, ya que pensé que esta pregunta era muy similar:

Puede que llegue tarde al juego, pero soy el autor de un paquete de Python de menos de dos semanas que recibió una respuesta decente (14,000 visitas en los primeros 2 días) en GitHub.

El algoritmo original tenía menos de 15 líneas de código (si eliminaba todas las definiciones de funciones, declaraciones de variables constantes, lo que tenía), y se basa en modelos estadísticos muy básicos a la máquina de aprendizaje (clasificación no supervisada de contenido versus no -contenido para ser precisos).

Escribo sobre el algo original aquí: eatiht by rodricios

Esto es lo que un compañero de Reddit dijo sobre el artículo:

En mi humilde opinión, es uno de los enfoques más inteligentes que he visto, y tan simple también. Gran explicación allí. El curso intensivo html y xpath al final también es bastante bueno

Fuente:

Como seguimiento del paquete de Python de extracción de texto que publiqué hace 5 días, aquí hay un recorrido detallado del algoritmo. • / r / Python)

Aquí hay una pequeña demostración con una larga URL: Sony: ‘The Interview’ ha ganado más de $ 15 millones en línea | Variedad

Para probar en otros sitios, cambie el argumento de consulta (todo detrás de “? Url =”) a cualquier sitio web en el que desee probarlo.

Además de extraer texto, la última iteración también extraerá el html que rodea el texto, esencialmente heredando la estructura del artículo.

Aquí está el repositorio: rodricios / eatiht

Tenga en cuenta que no estoy tratando de vender aceite de serpiente y diga que esto hace su trabajo y corta el césped; funciona mal en sitios como reddit, crackeados, por nombrar solo dos. Pero un investigador interesado de la Universidad de Notre Dame me ha pedido que aborde ese problema exacto (extraer datos tabulares significativos de cualquier sitio).

Hoy tengo una versión prototipo de eso; ¡Puede que también de código abierto!

La legibilidad ( http://lab.arc90.com/experiments …) puede ayudar con la extracción de contenido. (es decir, averiguar cuál es el contenido “real”) Hay algunos puertos a otros idiomas, pero la última vez que verifiqué que estaban bastante detrás de la versión JS.

More Interesting

¿Cuáles son los principales beneficios de usar MongoDB en aplicaciones web?

Qué software o aplicación se siente falta o se necesita hoy, pero no existe. Sugerencias para la próxima aplicación asesina en la web.

¿Qué es mejor, devolver al usuario un XML bonito o un XML minimizado en el caso de una aplicación web?

¿Qué tipo de desafíos enfrentarán si mueven una aplicación web de mysql a mongoDB por completo?

¿La construcción y el lanzamiento de aplicaciones exitosas lo hacen adecuado para un rol de gerente de producto en una empresa?

Desde una perspectiva de escalabilidad, ¿debería una startup adoptar NoSQL desde el primer día o debería convertirse gradualmente a medida que crecen la base de usuarios y los datos?

¿Cuál es la mejor tecnología para crear una aplicación web multitáctil con necesidades como: rotar, escalar, arrastrar y soltar, etc.?

Cómo idear una aplicación web o un sitio web

¿De qué sirven los servicios web Sabre GDS para las empresas de gestión de viajes?

¿Cuándo usan los desarrolladores JavaScript y por qué?

¿En qué situaciones es NoSQL mejor que las bases de datos relacionales como SQL? ¿Cuáles son ejemplos específicos de aplicaciones donde el cambio a NoSQL arrojó ventajas considerables?

¿Cuáles son algunas buenas ideas de aplicaciones web para un proyecto final?

Aunque el código HTML es el mismo, ¿por qué la salida difiere en los diferentes navegadores web?

Cómo no permitir solo números en el cuadro de texto usando JavaScript

¿Cuál es el mejor software de gestión / organización del tiempo?