¿Cómo puedo arañar, metaetiquetar, etiquetar y detectar el significado de muchas páginas de interrupción y debates abiertos?

Utilice una buena biblioteca de procesamiento de CSS (consulte http://www.crummy.com/software/B… por ejemplo en Python). Hay bibliotecas similares para la mayoría de los lenguajes de programación (en realidad, incluso hay algunas utilidades de línea de comandos para extraer datos específicos también.) Con una biblioteca de este tipo, puede determinar la ubicación exacta de los datos (por lo que señala el div exacto, en lugar de depender de expresiones regulares complejas, que son propensas a romperse y bastante engorrosas para escribir en muchas ocasiones). , especialmente cuando se trata de HTML).

Además, si usa un lenguaje de programación lo suficientemente alto, o más precisamente, uno en el que se escriben muchas de estas funciones de utilidad (Javascript y Python son las dos que me parecen tener más funciones de “ayuda” disponibles, pero apuesto a que Ruby, Java y la mayoría de Lisps también los tendrían) esencialmente puede pasar una cadena y hacer que se identifique como información de tiempo y convertirla en algún momento que pueda pasar a SQL.

Entonces, si fuera usted, haría esto en Python o Node.js si tuviera ganas de jugar con estos idiomas. Si realmente quisiera que funcionara rápido sin importar qué, probablemente sacaría algo en Go usando la biblioteca de selector de cascadia y lo refinaría una vez que tuviera algo funcionando.

More Interesting

¿Se utiliza JavaScript para describir el contenido de la página web?

¿El costo de alojamiento web se reduce con el tiempo?

¿Cómo obtener un trabajo de desarrollador de pila completa de nivel de entrada? ¿He aprendido muchas cosas como HTML, CSS, Javascript, React y un framework de pila completa Ruby on Rails? No uso ninguno de estos en mi trabajo actual. ¿Qué debo hacer para destacar?

¿Qué lenguaje y marco front-end y back-end adecuados para desarrollar un sitio web de comercio electrónico?

¿Qué tipo de lista de verificación semanal le daría a un nuevo desarrollador web interno / gerente de proyecto para asegurarse de que no se olvide de nada y permanezca en la tarea?

Cómo agregar una descripción de artículo dinámicamente con PHP

¿Cuál es la diferencia entre Twitter Bootstrap y Zurb Foundation?

¿Hay alguna ventaja de usar WCF para escribir servicios web en lugar de ASP.Net core?

¿Qué contenido se debe enseñar en un taller de PHP?

Usando gsub () en R, ¿cómo deshacerse de las etiquetas HTML, por ejemplo, , en ' abc defg '?

¿El mejor código para UX fuera del front-end? ¿Estoy bastante aburrido con el front end y me pregunto cuál es la mejor codificación para aprender a hacer UX para aplicaciones o IOT?

¿Podemos crear sitios web gratuitos si sabemos programar? ¿Podemos crear eso si solo conocemos el lenguaje C? ¿Necesitamos saber algo más?

¿Puedo ganar dinero vendiendo videos tutoriales de desarrollo web en mi propio sitio web?

¿Puedo dominar el desarrollo web mientras estoy en la escuela secundaria?

¿Qué es lo único que nadie te dice sobre el aprendizaje del desarrollo web?