Algunos de los buenos casos de uso de Big Data que se pueden implementar son:
Proyecto # 1: Analice los sitios de marcadores sociales para encontrar información
Datos: comprende la información recopilada de sitios como la página principal de Internet, StumbleUpon, que son sitios de marcadores y le permiten marcar, revisar, calificar, buscar varios enlaces en cualquier reddit, StumbleUpon, etc.
- ¿Debo aprender el desarrollo de Android o esperar al fucsia?
- Cómo promocionar mi aplicación de Android de forma gratuita
- ¿Hay buenos editores de video en Android? Kinemasters es bueno, pero no parece estar de acuerdo con mi grabadora de pantalla, lo cual es un dolor.
- Cómo obtener una copia de seguridad de la memoria del teléfono en caso de bloqueo del sistema Android
- ¿Cuáles son los mejores juegos top tower defense para Android?
Declaración del problema: analice los datos en el ecosistema de Hadoop para:
· Obtenga los datos en HDFS y analícelos con la ayuda de MapReduce, Pig and Hive para encontrar los enlaces mejor valorados en función de los comentarios de los usuarios, los me gusta, etc.
· Con MapReduce, convierta el formato semiestructurado (datos XML) en un formato estructurado y clasifique la calificación del usuario como positiva y negativa para cada uno de los miles de enlaces.
· Empuje la salida a HDFS y luego aliméntela a PIG, que divide los datos en dos partes: datos de categoría y datos de calificación.
· Escriba una consulta Hive sofisticada para analizar más los datos e insertar el resultado en una base de datos relacional (RDBMS) usando Sqoop.
Proyecto # 2: Análisis de quejas de clientes
Datos : conjunto de datos disponible públicamente, que contiene algunas observaciones lakh con atributos como; Id. Del cliente, modo de pago, detalles del producto, queja, ubicación, estado de la queja, etc.
Declaración del problema: analice los datos en el ecosistema de Hadoop para:
· Obtenga el número de quejas presentadas bajo cada producto
· Obtenga el número total de quejas presentadas desde una ubicación en particular
· Obtenga la lista de quejas agrupadas por ubicación que no tiene respuesta oportuna
Proyecto # 3: Análisis de datos turísticos
Datos: El conjunto de datos comprende atributos como el par de ciudades (combinación de y desde), adultos que viajan, personas mayores que viajan, niños que viajan, precio de reserva aérea, precio de reserva de automóvil, etc.
Declaración del problema: encuentre las siguientes ideas a partir de los datos:
· Los 20 destinos principales a los que las personas viajan con frecuencia, según los datos proporcionados, podemos encontrar los destinos más populares donde las personas viajan con frecuencia, según el número inicial específico de viajes reservados para un destino en particular
· Los 20 mejores lugares desde donde la mayoría de los viajes comienzan según el recuento de viajes reservado
· Los 20 principales destinos de altos ingresos aéreos, es decir, las 20 ciudades que generan altos ingresos de aerolíneas para viajes, de modo que las ofertas de descuento se pueden ofrecer para atraer más reservas para estos destinos.
Proyecto # 4: Análisis de datos de la aerolínea
Datos: conjunto de datos disponible públicamente que contiene los detalles del vuelo de varias aerolíneas, como identificación del aeropuerto, nombre del aeropuerto, ciudad principal a la que sirve el aeropuerto, país o territorio donde se encuentra el aeropuerto, código del aeropuerto, grados decimales, compensación de horas desde UTC, Zona horaria, etc.
Declaración del problema: analice los datos de las aerolíneas para:
· Encuentra la lista de aeropuertos que operan en el país
· Encuentra la lista de aerolíneas que tienen cero paradas
· Lista de aerolíneas que operan con código compartido
¿Qué país (o territorio) tiene el mayor número de aeropuertos?
· Encuentre la lista de aerolíneas activas en los Estados Unidos
Proyecto # 5: Analizar el conjunto de datos de préstamos
Datos: conjunto de datos disponible públicamente que contiene detalles completos de todos los préstamos emitidos, incluido el estado actual del préstamo (actual, atrasado, totalmente pagado, etc.) y la última información de pago.
Planteamiento del problema:
· Encuentre el número de casos por ubicación y clasifique el recuento con respecto a la razón por la cual tomó un préstamo y muestre el puntaje promedio de riesgo.
Proyecto # 6: Analizar clasificaciones de películas
Datos: datos disponibles públicamente de sitios como tomates podridos, IMDB, etc.
Declaración del problema: Analice las clasificaciones de películas de diferentes usuarios para:
· Obtenga el usuario que ha calificado la mayor cantidad de películas
· Obtenga el usuario que ha calificado la menor cantidad de películas
· Obtenga el recuento del número total de películas clasificadas por el usuario que pertenece a una ocupación específica
· Obtener el número de usuarios menores de edad
Proyecto # 7: Analiza datos de YouTube
Datos: se trata de los videos de YouTube y contiene atributos como VideoID, Uploader, Edad, Categoría, Duración, vistas, calificaciones, comentarios, etc.
Planteamiento del problema:
· Identifique las 5 categorías principales en las que se carga la mayor cantidad de videos, los 10 videos mejor calificados y los 10 videos más vistos.
Proyecto # 8: Elección de los Estados Unidos
Industria: gobierno
Planteamiento del problema:
En las elecciones primarias de EE. UU. De 2016, Hillary Clinton fue nominada sobre Bernie Sanders de los demócratas y, por otro lado, Donald Trump fue nominado del Partido Republicano para competir por la posición presidencial. Como analista, se le ha encomendado la tarea de comprender los diferentes factores que llevaron a la victoria de Hillary Clinton y Donald Trump en las elecciones primarias basadas en características demográficas para planificar sus próximas iniciativas y campañas.
Proyecto # 9: Taxis instantáneos
Industria: transporte
Planteamiento del problema:
La puesta en marcha de un servicio de taxi en los EE. UU. (Es decir, cabinas instantáneas) quiere satisfacer las demandas de manera óptima y maximizar el beneficio. Por lo tanto, lo contrataron como analista de datos para interpretar el conjunto de datos de Uber disponible y descubrir los puntos de recogida del cliente de la colmena y las horas pico para satisfacer la demanda de manera rentable.
Proyecto # 10: Drop-page de señal durante el roaming
Industria: industria de las telecomunicaciones
Planteamiento del problema:
Se le proporcionará un archivo CDR (Registro de detalles de llamadas), debe encontrar los 10 principales clientes que enfrentan frecuentes caídas de llamadas en Roaming. Este es un informe muy importante que las compañías de telecomunicaciones usan para evitar la pérdida de clientes, devolviéndoles la llamada y al mismo tiempo contactando a sus socios de roaming para mejorar los problemas de conectividad en áreas específicas.
Edureka proporciona una buena lista de videos tutoriales de Hadoop. Le recomendaría que revise esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop . Su aprendizaje debe estar alineado con la certificación Hadoop .