¿Cuáles son las habilidades / antecedentes de un informático necesarios para desarrollar una plataforma de análisis de datos de back-end que derivará sus datos sin procesar de Twitter?

Fundé una startup cuando estaba en Harvard, básicamente basada en la misma idea. Para extraer tweets en vivo de Twitter y averiguar qué aerolíneas están recibiendo quejas en Twitter. Luego, la plataforma elegiría los tweets más negativos y los enviaría a la aerolínea específica. A lo que te refieres se llama análisis de sentimientos de redes sociales. Mis cofundadores y yo llevamos a cabo este proyecto y funcionó en su mayor parte. Sin embargo, nos ocupamos de otras cosas y terminamos abandonando el proyecto.

Usted mencionó que es un estudiante de economía, por lo que supongo que necesita desarrollar algunas habilidades de CS o encontrar a alguien que lo ayude.

  • Recopilación de datos: puede recopilar tweets en vivo, codificando en Python y utilizando la biblioteca Tweepy. No es tan dificil.
  • PNL / Aprendizaje automático: debe investigar un poco en el área de PNL y familiarizarse con los métodos utilizados para extraer el “sentimiento” del texto. Afortunadamente, procesar tweets es una de las cosas más simples en este campo. Examine también el modelado de temas, etc. Algo difícil si su resultado no necesita ser muy preciso. De lo contrario, tarea bastante difícil.
  • Escalabilidad: también conocido como Big Data. Para poder procesar miles y millones de tweets, debe utilizar herramientas de big data. Utilizamos Spark ya que se unió muy bien a nuestro código de Python y alojamos todos los cálculos en Amazon Web Services. Algo dificil.
  • Interfaz de usuario: no llegamos a esta parte, pero esta es la menor de sus preocupaciones. Una plataforma web para mostrar todos los tweets y sus sentimientos para que el usuario, alias la empresa, pueda verlos. Mira en el matraz. No es tan dificil.

Un gran problema con toda su idea es que Twitter limita la cantidad de tweets que puede extraer por minuto. Y son muy inteligentes para atraparte. Por lo tanto, hacer un negocio real con esta idea podría ser difícil o imposible. Sin embargo, he oído que existen soluciones alternativas y existe la posibilidad de pagar a Twitter por más tweets. Mira esto.

Bonificación: la “industria” en la que se centrará, en nuestro caso fue la industria de las aerolíneas, es muy importante. Más tarde descubrimos que a las aerolíneas realmente no les importan mucho las quejas y no están dispuestas a hacer nada al respecto. Para la industria hotelera, podría ser diferente. Así que haga una buena investigación de mercado antes de comenzar. ¡Buena suerte!

Oy Los datos de Twitter son caros en estos días, la API gratuita está disminuyendo. Puede violar sus términos de servicio y activar varias instancias de cómputo para recopilar muchos datos. Escuché de un tipo que hizo eso que se parecía mucho a mí que obtienes un montón de datos superpuestos.

Atom.XML es un buen lugar para comenzar.