En lugar de enumerar todas las soluciones, permítame centrarme en todos los desafíos, problemas y compensaciones que enfrentamos al crear uno de los principales motores de comparación que existe para el comercio electrónico indio: Gludo.
Recolección de datos (dificultad media)
Como probablemente ya habrás adivinado, el primer paso es recopilar datos de varios sitios web para compararlos. Hay dos formas de recopilar datos:
- ¿Cuánto debo cobrar por construir un sitio web muy similar como Puls.com?
- ¿Cuánto costaría un viaje de una semana a Ereván, Armenia?
- ¿Cuánto costará por GB de almacenamiento en la Web si quiero crear un tipo de sitio web de YouTube?
- ¿Cuánto costará crear una aplicación como OLX?
- ¿Cuánto dinero cuesta desarrollar un sitio web?
- Rastrea los sitios web
- Esta es una opción lenta pero precisa y rica.
- Es lento porque no puede rastrear sitios web más allá de una cierta velocidad. Los sitios web tienen configurados mecanismos anti rastreo que lo bloquearán si los bombardea con demasiadas solicitudes.
- Los datos son ricos porque puede tener toda la información disponible para los usuarios en la página web.
- Existen múltiples servicios de proxy que le permiten anonimizar su solicitud y ayuda a su rastreador a evitar que lo baneen. Ejemplo: tor. Otros servicios pagos están disponibles también.
- Dificultad de implementación: media. Debe escribir rastreadores separados para cada sitio web que desee comparar. Por lo tanto, hay mucho trabajo manual.
- Feeds de afiliados
- Esto es más rápido, pero puede ser menos preciso y menos rico en datos que el rastreo.
- Puede descargar el feed de sus respectivas cuentas de afiliados. Estas alimentaciones tienden a ser menos precisas pero aceptables hasta cierto punto.
- Los datos de los feeds son menos ricos porque solo hay información básica disponible a través de feeds como título, url, tamaño de color, etc.
- Nivel de implementación: fácil. La implementación es fácil ya que obtienes feeds xml o csv de datos. Analizar estos es fácil.
- Estas son las dos únicas opciones legales y éticas que se nos ocurrieron. Por lo tanto, implementamos solo estos. Avíseme si tiene ideas más innovadoras para recopilar datos en los comentarios. Agregaré a esta respuesta.
Se puede utilizar una combinación de las ideas anteriores para crear un buen sistema para recopilar datos.
Deduplicación (dura)
Hay sitios web que tienen múltiples instancias de un solo producto. Por ejemplo, eBay enumera el mismo teléfono móvil de varios vendedores en su sitio web. Esto lleva a muchos datos sucios. Estos pueden limpiarse utilizando técnicas similares que se describen en la siguiente sección “Coincidencia de productos”.
Coincidencia de productos (extremadamente difícil)
El segundo paso es hacer coincidir productos de diferentes fuentes como Amazon y Flipkart. Este es el quid del problema e involucra algoritmos complejos de aprendizaje automático para la simple coincidencia de atributos. No se me permite hablar sobre algoritmos específicos o tecnología que utilizamos para resolver este problema en público, pero ciertamente puedo discutir algunas ideas no tan esotéricas aquí. Para hacer coincidir un producto, puede aplicar los siguientes trucos y técnicas además de los algoritmos de ML para facilitar el problema:
- Haga coincidir productos dentro de la misma categoría, es decir, haga coincidir Mobiles de Amazon con Mobiles de Flipkart.
- Haga coincidir productos con los mismos atributos, como unique_id, color, tamaño, título, etc.
- Utilice el procesamiento de imágenes para unir imágenes.
Hay muchos desafíos para hacer coincidir correctamente:
- Los atributos no son exactamente iguales. Por ejemplo, el título en un sitio web lo llama “Moto G4”, mientras que otro sitio web lo llama “Motorola 4thGen G series”.
- Los datos están mal categorizados. Por ejemplo, a veces los accesorios móviles están marcados como móviles en sitios web.
- Falta de suficientes atributos para poder productos entre sí. Por ejemplo, varios jeans solo dicen “jeans de hombre azul”.
Presentación (fácil)
La capa de presentación necesita todas las tecnologías que de otro modo serían necesarias para una plataforma de comercio electrónico: aplicación de Android, aplicación de iPhone, sitio web, motor de búsqueda, marco de api, etc. No hablaré mucho de esto aquí ya que este problema no es específico para la comparación motor.
SEO (difícil)
Para cualquier startup, la visibilidad es un gran problema. Aparecer orgánicamente en la búsqueda es difícil. Para los motores de comparación, es más difícil porque se trata esencialmente de datos duplicados como sitios web como Amazon, Snapdeal, etc. Esto hace que la lucha sea aún más difícil.
Ingresos
Después de todo, para cualquier negocio se reduce a cuánto dinero puede ganar. Hemos encontrado estas posibles opciones para la monetización:
- Afiliado
- Sitios web como Amazon Flipkart y Snapdeal le proporcionan cuentas de afiliados. Puede redirigir el tráfico a su sitio web y, si se realiza una compra, se agrega alguna comisión a su cuenta.
- Para saber más sobre las estimaciones de ingresos, lea la respuesta del usuario de Quora a ¿Cómo se estiman los ingresos del sitio de comparación de precios?
- Sugiérame más opciones en los comentarios; en caso de que le gustaría discutir.
Inicio de su propio motor de comparación:
Mi experiencia dice que es mucho trabajo en el lado de la ingeniería y de lo contrario hacerlo bien. Definitivamente no es un juego de un solo hombre para ocuparse de toda la complejidad operativa. Ninguna startup es un juego de hombre de hecho. Puede parecer una idea de inicio lucrativa para un joven ingeniero, pero en mi experiencia, hay muchas variables ocultas y el crecimiento es muy lento si elige un dominio abarrotado como el comercio electrónico.
Gastos
Los rastreadores y analizadores deben ejecutarse continuamente para mantener los datos actualizados. Esto necesita mucha potencia de cálculo si tiene la intención de tener decenas de millones de productos. También el servicio proxy pagado por solicitud anónima cuesta mucho. En general, puede costar entre $ 500 y $ 2000 por mes, dependiendo de la escala de su proyecto. Para su información, usamos Amazon Web Services.
Auto promoción desvergonzada
Hay muchos problemas de ingeniería que aún no se han resuelto. Envíeme un correo electrónico a [Mayank @ Gludo dot com] si desea unirse a nosotros.
Paz.