¿Cómo realizaría una prueba A / B si las observaciones son extremadamente sesgadas?

La mayoría de las pruebas A / B analizan las medias de las observaciones, por lo que el Teorema del límite central (CLT) implica que, en condiciones bastante generales, su media se distribuirá normalmente y la distribución de la media será más normal a medida que aumente el número de observaciones independientes. .

Asegúrese de que realmente está tratando de resolver un problema que el CLT ya no le atiende de forma gratuita.

Suponiendo que todavía está preocupado, hay algunas cosas útiles que hacer:

  1. Reduce la variabilidad de tu métrica.
    Digamos que está buscando ingresos para un sitio minorista (mi experiencia es de Amazon) o ingresos por clics (mi experiencia es de anuncios de Bing). Ambos tienen una gran masa de $ 0 (la mayoría de las personas no compran ni hacen clic en los anuncios), y una larga cola derecha.
    En lugar de ingresos, observe dos métricas: un indicador de conversión (sí / no) y el condicional (ingresos si se compran; nulo de lo contrario).
    Cada uno de los dos tendrá una varianza más baja, por lo tanto, dará más señal para las pruebas A / B.
    Su producto son los ingresos.
    Consulte la Sección 3.2.1 de la Guía práctica y la encuesta para obtener más detalles.
  2. Valores de cap.
    Aquí te advierto que entiendas las razones del sesgo.
    Por ejemplo, si está mirando el tiempo en el sitio, puede encontrar una métrica muy sesgada, pero también irregular. Por ejemplo, una masa de alrededor de 1440 minutos puede significar que los usuarios visitaron su sitio nuevamente al día siguiente aproximadamente a la misma hora. Suponiendo que esa no sea su intención, limitar el tiempo en el sitio a 30 minutos es una estrategia común.
    En Amazon, encontramos valores atípicos significativos para los ingresos y la cantidad de artículos comprados. Después de mirar los detalles, resultó que se trataba de bibliotecas o departamentos de compras. Si uno de los tratamientos obtiene un par de bibliotecas más que otro, podría sesgar los resultados.
    Limitar a ciertos valores en dólares y artículos comprados redujo la variación (y mejoró la confiabilidad).
  3. Mire las métricas percentiles o los medios recortados. Por ejemplo, time-to-X (evento de tiempo de carga para la carga de la página, tiempo de hacer clic) tiende a tener mucha distorsión hacia la derecha. En lugar de la media, mire algún percentil, como el 90.
  4. Lee la literatura de Estadística sobre transformaciones de datos, como tomar registros. No soy un fanático de estos porque cambia sus criterios de optimización sin una justificación comercial. Prefiero estudiar las razones del sesgo y aplicar las técnicas anteriores.

La prevención de observaciones asimétricas se presenta en varias formas: tener un tamaño de muestra lo suficientemente grande puede ayudar, teniendo en cuenta las múltiples variaciones dentro de su organización, etc. La pieza de tamaño de muestra es fácil si tiene mucho tráfico, la parte de variación no lo es. La estacionalidad no es lo único que causará ruido en sus pruebas, estas pueden depender de su organización, industria e incluso otras pruebas que se están ejecutando actualmente. Hay otra razón que puede causar observaciones sesgadas y que está configurando pruebas A / B basadas en números, no en perspicacia.

Muchas veces cuando las organizaciones ejecutan pruebas A / B para probar algo y, por lo general, ese algo es una sola métrica. Si cambiamos X, entonces las conversiones aumentarán. Incluso he visto una prueba en la que el cliente quería cambiar algunos aspectos para ver si el tiempo en el sitio aumentaría. El gran problema aquí es que las pruebas deben ejecutarse en función de una pregunta e hipótesis primarias dentro de un departamento que tenga una visión imparcial del resultado. Su trabajo es proporcionar ideas que prueben o refuten la hipótesis, y proporcionar algunas recomendaciones sobre los próximos elementos de acción.

La forma en que recopilamos datos en el mundo digital sigue siendo difícil, un visitante y sus acciones se recopilan dentro de los 30 minutos de acción en su sitio web, cualquier cosa después de eso se prescriben como un nuevo visitante. Con los navegadores que nos permiten crear pestañas, los usuarios abrirán un día y lo dejarán inactivo durante 40 minutos antes de interactuar con su contenido. He estado en LinkedIn durante los últimos 20 minutos sin hacer nada en ese sitio.

Asegúrese de que cuando reúna los resultados de las pruebas, se concentre en obtener nueva información sobre su empresa y sus clientes en lugar de lo que sucedió con algunos números. Es genial aumentar las ventas, los ingresos o las conversiones, pero es aún mejor si sabe por qué sucedió eso y no está especulando debido a que solo ha analizado algunos puntos de datos específicos.