¿Qué debo usar para hacer un rastreador web distribuido en Python?

LEER POR FAVOR:

Mi objetivo es crear un rastreador distribuido que procese más de 1 sitio web a la vez y más de 1 consulta también. Para esto, he creado un rastreador web en Python usando paquetes estándar como ‘peticiones’ y ‘BeautifulSoup’. Funciona bien. Para distribuirlo, usé rabbitMQ. Me permite acelerar el sistema al tener más de 1 proceso que ayuda al rastreo.

Mi sistema funciona en un modelo de grupo de trabajo: – Tengo un servidor principal que recibe consultas y comienza un nuevo rastreo para cada una de ellas. – Al iniciar el rastreo, se recopilan algunas URL ingresando la consulta en un motor de búsqueda. – De ahora en adelante, el servidor principal envía URL a los trabajadores / procesos disponibles con rabbitMQ y espera recibir más URL de ellos.

Sin embargo, tengo un gran cuello de botella en esta arquitectura, y no es el servidor principal … rabbitMQ no me permite consumir más de 1 mensaje a la vez (¡la función channel.basic_qos () no funciona!). Lo que quería era tener una cola privada para cada consulta (como lo tengo ahora) y poder procesar estas 2 consultas al mismo tiempo, lo más rápido posible. De ese modo, paralelice el código de los trabajadores para que pueda procesar la cantidad máxima de URL, en lugar de 1 url a la vez.

¿Qué debo usar para reemplazar rabbitMQ aquí? Llegué específicamente a los desarrolladores de rabbitMQ y lo que quiero no se puede hacer con él, así que estoy tratando de encontrar un ‘paquete de distribución’ diferente. tal vez Kafka?

Desarrollo webPythonweb

Related Content

¿Qué utiliza para conectar su script Python a una base de datos MySQL?

Desarrollo web, ¿Cuál es su lenguaje de programación y por qué lo eligió para mejorar su vida?

Quiero convertirme en desarrollador web. ¿Qué idioma debo aprender?

Sin JQuery, ¿puedo ser un diseñador web perfecto?

Cómo corregir este código

¿Cuál es el mejor creador de sitios web? El sitio que construí con SquareSpace es realmente lento.

¿Cuáles son las características que podemos esperar de Android 8.0?

El módulo grequests funciona bien para mí,

https://pythonexample.com/code/g …

Tigran Mooradian

Utilice los servicios de extracción de datos y no pierda su tiempo en averiguar qué hacer y cómo. Este es el que he usado: Datahen: servicios de extracción de datos, rastreo y rastreo web.

Tigran Mooradian

More Interesting

¿Es una buena idea ser un desarrollador de JavaScript? ¿Por qué o por qué no?

¿Cuál es mejor en Js angular y 2 angular?

¿Cuáles son las tendencias de diseño del desarrollo web de comercio electrónico?

¿Qué tan importante sería en el futuro para un no programador saber y poder programar?

¿Tiene sentido agregar un barniz frente al servidor GraphQL del nodo?

Cómo hacer animación al hacer clic en un botón usando CSS

¿Qué puedo hacer para mejorar mi sitio www.hlabathe.co.za para asegurarme de que cumple con el propósito previsto?

¿Qué lenguaje se debe usar si no es PHP en lugar de PHP para el desarrollo web?

¿Cómo puedo aumentar el tráfico en mi sitio web?

¿Qué compañía en el Área de la Bahía tiene el equipo front-end más fuerte / más técnico?

Tengo la aplicación React que procesa todo en el lado del cliente. ¿Está bien esperar a que se genere una cookie antes de representar los componentes de la página?

¿Hay alguna prueba cuantificada de que .NET u otras tecnologías de Microsoft no son buenas para las startups web?

¿Cuál es la mejor interfaz de usuario web de reconocimiento popular?

¿Cómo debo comenzar a crear un sitio web con Ruby on Rails?

¿Por qué React se parece a PHP?

Web Analytics