¿Cuánto dura una prueba A / B típica?

Esta es un área compleja que es difícil hacer justicia en una breve respuesta como esta. Mi objetivo es responder la pregunta directamente y dar pautas prácticas útiles, pero para ser claros, hay mucho más.

De hecho, el punto de partida es “un gran número de usuarios”, es decir, el tamaño de la muestra . Eso es más importante que la duración de la prueba. Entonces, como otros han señalado, el Paso 1 es usar una calculadora de tamaño de muestra. Eso lo ayudará a determinar durante cuánto tiempo ejecutar la prueba.

Para maximizar la confianza en el resultado de un experimento, puede estar inclinado a ejecutarlo durante un año o más, como lo sugirió otra persona. Sin embargo, no es aconsejable extender la duración de la prueba más allá de lo requerido por una serie de razones, que incluyen:

  • Presenta un costo de oportunidad. Tiene un número finito de ranuras de prueba en un período determinado. Realizar más experimentos aumentaría sus posibilidades de obtener más ganancias y obtener más información, lo que a su vez puede alimentar más pruebas ganadoras.
  • A medida que se realizan cambios en el código del sitio, corre el riesgo de que una prueba se vuelva inestable y cause errores como resultado de las dependencias. Las pruebas semipermanentes deben someterse a control de calidad después de cada lanzamiento de código, o pueden “romper” el sitio.
  • ¿Por qué limitarías tu éxito exponiendo solo la mitad de tu audiencia a una variación ganadora a largo plazo? Si su preocupación es el efecto de estacionalidad, una mejor opción es establecer la variación ganadora en 90-95% contra un trozo de 5-10% en el control.

Encontrará muchas reglas generales bien intencionadas, la mayoría de las cuales deben ignorarse. Una común es realizar una prueba durante dos semanas completas. Es bastante razonable, siempre que alcance el tamaño de la muestra. Por lo tanto, incluso si requiere menos tiempo para llegar a la muestra, la mantendría viva durante dos semanas. Esto es en parte para resolver las diferencias de comportamiento según el día de la semana. No significa que dos semanas sean suficientes si se necesita más tiempo para alcanzar la muestra requerida.

También le permite tener en cuenta las compras retrasadas hasta cierto punto. Si un usuario visitó el sitio el día 1 de su experimento, pero solo volvió a comprar el día 8, esa conversión no se contabilizaría si la prueba se detuvo el día 7. Por esta razón, es una buena idea considerar su ciclo de compra . Si la mayoría de los pedidos tienen un retraso de más de 14 días, entonces dos semanas de tiempo de prueba pueden no ser suficientes.

En resumen, busque un equilibrio :

  • No pause la prueba antes de alcanzar el tamaño de muestra requerido. Manténgalo activo durante dos semanas completas a menos que el ciclo de compra le indique que lo ejecute durante más tiempo.
  • Pause la prueba en un plazo razonable. Dispara a un efecto que sea lo suficientemente grande como para decidirse en 2 a 3 semanas. (Use la configuración MDE en la calculadora de duración de la prueba para ver la diferencia que hace). Si no se produce la elevación necesaria en este momento, continúe con el siguiente experimento. No pierda el tiempo valioso de prueba, esperando que se materialice una victoria, cuando podría estar usando esa ranura de prueba de manera más efectiva.

Para obtener informes de sus pruebas A / B con el significado estadístico del 95%, debe ejecutarlo con la ayuda de la calculadora de prueba A / B. En algunas calculadoras, la significancia estadística es modificable por defecto. Puede cambiarlo según el nivel de precisión que necesita.

Cada calculadora de prueba A / B tendrá secciones como

Calculadora de duración: esta parte le mostrará cuánto tiempo debe ejecutar un A / B en su página web. Dependiendo del tráfico que obtenga en una página web, la cantidad de tiempo que necesita para ejecutar una prueba puede variar. Y el principio principal detrás de la calculadora de prueba A / B y su cálculo es: la página con menos tráfico tendrá que ser probada A / B para días más grandes y viceversa.

Calculadora de muestreo: esta es una fórmula que tiene controles de tasa de descubrimiento falsos para calcular la significancia estadística. Al usar la calculadora de tamaño de muestra, descubrirá el tamaño de muestra ideal que necesita probar. Y el tamaño de la muestra que muestra, es la cantidad de respuestas que necesita, para obtener el nivel de confianza que desea.

El mejor lugar para obtener respuestas a estas preguntas es a través de proveedores líderes de plataformas de pruebas A / B. Trabajan en este espacio todos los días con miles de pruebas que se ejecutan simultáneamente, para que sepan lo que hacen.

Una herramienta gratuita muy útil proporcionada por una compañía es la Calculadora de Tamaño de Muestra de Optimizely. Lea sobre esto y encuentre un enlace a él, en esta página.

Además de la calculadora de tamaño de muestra, en general, debe realizar su experimento durante al menos una semana para evitar cualquier efecto de confusión en diferentes días de la semana.

He visto experimentos de días a más de un año. Depende de cuán importante sea la conclusión y de si hay efectos a largo plazo que se consideren importantes para el experimento. He visto a personas realizar experimentos de pago críticos (p. Ej., Modelo de suscripción frente a propiedad) durante más de un año, porque es fundamental que descubran cuál es el mejor modelo para su negocio.