¿Qué obstáculos tecnológicos encontraría al crear un programa que pueda analizar todos los tweets realizados en Twitter en tiempo real con fines analíticos?

A menos que se tome muy en serio su hardware para procesar esos tweets, nunca obtendrá * todos * los tweets almacenados y procesados, además de ver la respuesta de martijn Pannevis: solo obtendrá un porcentaje de todos los tweets a menos que busque interfaces especializadas . ¿Ese porcentaje podría ser suficiente para lo que quieras?

El almacenamiento puede no ser un problema tan grande de inmediato, especialmente porque desea hacerlo en tiempo real, ya que un tweet tiene solo unos 140 caracteres (en realidad, más si se usan caracteres extraños), pero el uso de la CPU será muy alto si desea hacerlo en TIEMPO REAL análisis sobre ellos. Dependiendo de sus necesidades, es posible que necesite almacenar e indexar temporalmente estos tweets, debe vincularlos a sus autores, si se proporciona información de ubicación, también debe procesarlos.

Si solo desea buscar palabras clave o hashtags, hay varias herramientas de código abierto disponibles que pueden hacerlo por usted. Aquí también hay un enlace sobre cómo usar la API de transmisión de Twitter:

Cómo capturar tweets en tiempo real con la API de transmisión de Twitter

Twitter, en sus API públicas, solo le permite obtener (aproximadamente) el 1% de los tweets. Puede decirles cuál es el 1%, por lo que, dependiendo de su caso de uso, eso podría funcionar, pero no le permite filtrar todos los tweets.
DataSift y Gnip tienen acceso a todos los tweets, y puedes filtrarlos allí, sin embargo, eso no es gratis.

No hay obstáculos tecnológicos en absoluto, solo financieros. AKA lo que sea que necesite para pagar datos para obtener lo que desea. Twitter tiene ehm 2-3 socios (?) A los que se les permite el acceso de “manguera contra incendios” a todos los tweets realizados, otros jugadores NO pueden proporcionar un servicio comparable a eso. Datasift es el buen tipo en esa pequeña multitud y asequible con el plan de pago por uso.