El A/B testing puede ser engañoso

By Antonio Álvarez
Antonio Álvarez

Las pruebas A/B son una de las herramientas más utilizadas en el marketing digital. Permiten a los anunciantes comparar el rendimiento de dos versiones diferentes de un anuncio para ver cuál genera mejores resultados. Pero, ¿qué pasa si los resultados que estás obteniendo no cuentan toda la historia? Un estudio reciente de Michael Braun y Eric M. Schwartz, publicado por la Cox School of Business y la Ross School of Business, revela una falla importante en la forma en que las plataformas en línea realizan las pruebas A/B. Este problema, conocido como "entrega divergente", significa que los resultados de tus pruebas A/B pueden no ser tan confiables como crees.

En este artículo, desglosaremos qué descubrió este estudio, por qué es importante y qué puedes hacer al respecto.

¿Qué Es la Prueba A/B?

Las pruebas A/B (también llamadas pruebas divididas) consisten en mostrar dos versiones diferentes de un anuncio—Anuncio A y Anuncio B—a diferentes grupos de usuarios. El objetivo es determinar cuál funciona mejor según métricas como clics, conversiones o interacciones. Las plataformas de publicidad en línea como Meta (Facebook, Instagram) y Google permiten a los anunciantes realizar estas pruebas fácilmente.

Se supone que en una prueba A/B ambos anuncios se muestran a una mezcla aleatoria de usuarios, haciendo que la comparación sea justa. Si el Anuncio A obtiene una tasa de conversión más alta que el Anuncio B, debería significar que el Anuncio A es mejor, ¿verdad? Pues, no necesariamente.

El Problema: Entrega Divergente

El estudio de Braun y Schwartz descubrió que las plataformas de publicidad en línea no muestran realmente ambos anuncios a una mezcla aleatoria de usuarios. En su lugar, utilizan algoritmos para optimizar la entrega de anuncios, lo que significa que cada anuncio se muestra a diferentes tipos de usuarios en función de quién creen que responderá mejor. Este proceso se llama entrega divergente.

¿Cómo Funciona la Entrega Divergente?

Imagina que realizas una prueba A/B para una empresa de jardinería

  • Anuncio A enfatiza la estética de un patio bellamente diseñado.
  • Anuncio B destaca los beneficios de sostenibilidad de las plantas nativas.

Una prueba A/B verdadera mostraría cada anuncio a una mezcla similar de personas, asegurando una comparación justa. Pero en realidad, las plataformas podrían mostrar el Anuncio A a usuarios más interesados en la decoración del hogar y el Anuncio B a personas que se preocupan más por el medio ambiente. Debido a esto, cualquier diferencia en el rendimiento puede deberse no solo al anuncio en sí, sino también a los diferentes tipos de usuarios que ven cada anuncio.

Esto significa que los resultados de tu prueba A/B reflejan tanto la efectividad del anuncio como el algoritmo de segmentación de la plataforma.

¿Por qué esto es importante?

Si confías en las pruebas A/B para tomar decisiones importantes de marketing, la entrega divergente puede desviarte del camino. Aquí te explicamos por qué:

Resultados Engañosos – La prueba podría mostrar que el Anuncio B funciona mejor que el Anuncio A, pero eso podría deberse a que se mostró a una audiencia más receptiva, no porque sea realmente el mejor anuncio.

Decisiones Estratégicas Inexactas – Si basas tus futuras campañas publicitarias en estos resultados erróneos, podrías terminar dirigiendo los mensajes incorrectos a las audiencias equivocadas.

Presupuesto Desperdiciado – Los anunciantes podrían estar invirtiendo dinero en una estrategia publicitaria que no está realmente optimizada.

Un Ejemplo Real: El Experimento de Reclutamiento en Detroit

El estudio probó este concepto utilizando anuncios de Facebook para una campaña de reclutamiento en Detroit. El experimento incluyó diferentes mensajes publicitarios, algunos centrados en beneficios de carrera y otros en impacto comunitario. Los investigadores encontraron que la plataforma entregó estos anuncios a diferentes segmentos demográficos de una manera que reforzó estereotipos (por ejemplo, los anuncios enfocados en la comunidad se mostraron más a mujeres).

Esto confirma que las pruebas A/B en estas plataformas no proporcionan una comparación pura de la efectividad de los anuncios, ya que reflejan tanto el contenido del anuncio como el algoritmo de segmentación de la plataforma.

¿Se Puede Corregir Este Problema?

Lamentablemente, los anunciantes no pueden simplemente "desactivar" la entrega divergente. El estudio encontró que las plataformas no permiten a los anunciantes deshabilitar esta optimización y, en muchos casos, está profundamente integrada en el funcionamiento de la plataforma.

Sin embargo, hay algunas medidas que puedes tomar para obtener resultados más confiables:

Usar Pruebas de Retención (Holdout Tests) – En lugar de comparar solo el Anuncio A y el Anuncio B, incluye un grupo de control que no vea ningún anuncio. Esto ayuda a medir el impacto real de tus anuncios. Sin embargo, implementar pruebas de retención requiere un enfoque diferente y, a menudo, un presupuesto mayor, ya que una parte de tu audiencia no será monetizada durante el periodo de prueba.

Analizar la Demografía de la Audiencia – Observa quién está viendo cada anuncio. Si hay grandes diferencias en la composición de la audiencia entre los dos grupos de prueba, los resultados pueden estar sesgados.

Realizar Pruebas en Diferentes Plataformas – Las plataformas optimizan la entrega de anuncios de manera diferente. Ejecutar pruebas similares en múltiples plataformas puede ayudarte a determinar si los resultados son consistentes.

Considerar Experimentos No Digitales – Si es posible, realiza pruebas A/B en entornos controlados donde tengas más control sobre la selección de la audiencia.

Referencia: Where A-B Testing Goes Wrong: How Divergent Delivery Affects What Online Experiments Cannot (and Can) Tell You About How Customers Respond to Advertising por Michael Braun (Cox School of Business, Southern Methodist University) y Eric M. Schwartz (Ross School of Business, University of Michigan).