¿Cuánto dura una prueba A / B típica?

Esta es un área compleja que es difícil hacer justicia en una breve respuesta como esta. Mi objetivo es responder la pregunta directamente y dar pautas prácticas útiles, pero para ser claros, hay mucho más.

De hecho, el punto de partida es “un gran número de usuarios”, es decir, el tamaño de la muestra . Eso es más importante que la duración de la prueba. Entonces, como otros han señalado, el Paso 1 es usar una calculadora de tamaño de muestra. Eso lo ayudará a determinar durante cuánto tiempo ejecutar la prueba.

Para maximizar la confianza en el resultado de un experimento, puede estar inclinado a ejecutarlo durante un año o más, como lo sugirió otra persona. Sin embargo, no es aconsejable extender la duración de la prueba más allá de lo requerido por una serie de razones, que incluyen:

Presenta un costo de oportunidad. Tiene un número finito de ranuras de prueba en un período determinado. Realizar más experimentos aumentaría sus posibilidades de obtener más ganancias y obtener más información, lo que a su vez puede alimentar más pruebas ganadoras.
A medida que se realizan cambios en el código del sitio, corre el riesgo de que una prueba se vuelva inestable y cause errores como resultado de las dependencias. Las pruebas semipermanentes deben someterse a control de calidad después de cada lanzamiento de código, o pueden “romper” el sitio.
¿Por qué limitarías tu éxito exponiendo solo la mitad de tu audiencia a una variación ganadora a largo plazo? Si su preocupación es el efecto de estacionalidad, una mejor opción es establecer la variación ganadora en 90-95% contra un trozo de 5-10% en el control.

Encontrará muchas reglas generales bien intencionadas, la mayoría de las cuales deben ignorarse. Una común es realizar una prueba durante dos semanas completas. Es bastante razonable, siempre que alcance el tamaño de la muestra. Por lo tanto, incluso si requiere menos tiempo para llegar a la muestra, la mantendría viva durante dos semanas. Esto es en parte para resolver las diferencias de comportamiento según el día de la semana. No significa que dos semanas sean suficientes si se necesita más tiempo para alcanzar la muestra requerida.

También le permite tener en cuenta las compras retrasadas hasta cierto punto. Si un usuario visitó el sitio el día 1 de su experimento, pero solo volvió a comprar el día 8, esa conversión no se contabilizaría si la prueba se detuvo el día 7. Por esta razón, es una buena idea considerar su ciclo de compra . Si la mayoría de los pedidos tienen un retraso de más de 14 días, entonces dos semanas de tiempo de prueba pueden no ser suficientes.

En resumen, busque un equilibrio :

No pause la prueba antes de alcanzar el tamaño de muestra requerido. Manténgalo activo durante dos semanas completas a menos que el ciclo de compra le indique que lo ejecute durante más tiempo.
Pause la prueba en un plazo razonable. Dispara a un efecto que sea lo suficientemente grande como para decidirse en 2 a 3 semanas. (Use la configuración MDE en la calculadora de duración de la prueba para ver la diferencia que hace). Si no se produce la elevación necesaria en este momento, continúe con el siguiente experimento. No pierda el tiempo valioso de prueba, esperando que se materialice una victoria, cuando podría estar usando esa ranura de prueba de manera más efectiva.