• Nuestros productos:
  • BSP chattigo • Proveedor oficial de whatsapp
  • chattigo Bot • Atención automatizada
  • Atención humana • Conversaciones en un solo lugar
read

A/B testing en atención: probar mensajes, flujos y horarios

By chattigo

El A/B testing aplicado a CX conversacional (WhatsApp, Instagram, Messenger, Email y Webchat) consiste en comparar dos variantes controladas para responder una pregunta concreta: ¿qué mensaje, flujo o horario genera mejores resultados sin sacrificar la experiencia? Más allá del “probar por probar”, el valor está en medir con rigor y en desplegar de forma controlada

Cuando los experimentos se diseñan bien, bajas FRT (tiempo de primera respuesta), reduces TMO/AHT, elevas FCR y mejoras CSAT/CES, mientras proteges la salud del canal (opt-outs, bloqueos, calidad del número en WhatsApp). 

Esta guía te muestra cómo plantear hipótesis sólidas, calcular muestras, segmentar, elegir qué testear, medir con significancia y llevar a producción a ritmo seguro.

Hipótesis y objetivos

Todo A/B empieza con una hipótesis comprobable y una métrica primaria.

Cómo escribirla

  • Cambio: qué componente modificarás (encabezado de plantilla, orden de pasos del flow, horario de envío).

  • Dirección esperada: qué esperas que ocurra (+respuesta, −FRT, +conversión).

  • Magnitud mínima detectable (MDE): efecto relevante (ej.: +2 puntos porcentuales en respuesta).

  • Métrica primaria: la que decide; solo una (evita “empate” de objetivos).

  • Métricas guardarraíl: no deben empeorar (opt-outs, bloqueos, CSAT, FRT p90).

Ejemplo
“Cambiar la primera línea de la plantilla de recuperación (‘¿Seguimos con tu pedido?’ → ‘Tu pedido # está listo para cerrar en 1 clic’) aumentará la tasa de respuesta en +2 p.p. sin elevar opt-outs ni bajar CSAT.”

Diseño experimental

Define de antemano unidad de aleatorización, muestra, ventana y duración.

Unidad de aleatorización

  • Persona/cliente (recomendado para campañas): la misma persona siempre ve la misma variante durante el test.

  • Conversación/sesión (útil en flows in-thread): una conversación se asigna a A o B; la siguiente del mismo cliente debe respetar un “cooldown” para no contaminar.

  • Agente/cola (para macros o handoff): grupos balanceados por experiencia y volumen.

Tamaño de muestra y duración

  • Depende del baseline (p. ej., 10% de respuesta), la MDE (p. ej., +2 p.p.), el nivel de confianza (95%) y la potencia (80%).

  • Regla práctica: a menor baseline o menor MDE, más muestra y más días necesitas.

  • Evita cortar por ansiedad: define duración mínima, cubre ciclos de demanda (incluye fin de semana si afecta) y no “espíes” para detener temprano salvo que uses métodos secuenciales con corrección.

Ventanas y estacionalidad

  • Corre el experimento en ventanas comparables (mis días, mismas horas).

  • Si hay eventos (campaña, feriado), documenta y decide si pausar o excluir.

Segmentación y targeting

Un test “para todos” rara vez enseña lo correcto. Segmenta para ser justo y accionable.

Ejes comunes

  • Canal: WhatsApp vs Instagram vs Webchat.

  • País/idioma: mensajes y horarios dependen de cultura y huso.

  • Segmento: nuevo vs recurrente; VIP vs estándar; riesgo de churn.

  • Motivo: preventa vs postventa; logística vs pagos; L1 vs L2/L3.

  • Estado: en ventana de 24 h vs fuera (plantillas).

Estrategias

  • Estratificación: reparte A/B dentro de cada estrato (p. ej., por país) para evitar sesgos.

  • Elegibilidad: reglas claras para entrar (opt-in, no contacto reciente, sin casos abiertos).

  • Holdout: pequeña muestra que no recibe nada para medir uplift real si haces proactividad.

Qué testear: mensajes, flujos y horarios

El secreto está en tocar pocas cosas a la vez y elegir palancas con impacto.

Mensajes (plantillas y copys)

  • Encabezado y primera línea: lo que más mueve lectura y respuesta.

  • Personalización: incluir o ; ojo con errores de variables.

  • CTA único: botón principal claro vs múltiples opciones.

  • Componentes interactivos: botones, listas, quick replies, catálogos.

  • Tono y longitud: directo y breve vs explicativo; localización por país.

Flujos conversacionales (Flows)

  • Orden de pasos: pedir primero lo fácil (ID), luego lo sensible (documento).

  • Validaciones: estrictas (menos errores, más fricción) vs laxas (más avance, más corrección).

  • Desambiguación: lista corta de opciones vs entrada libre guiada.

  • Cierre: confirmación + resumen vs cierre directo.

  • Handoff: con TL;DR automático vs sin resumen (compara impacto en TMO y FCR).

Handoff bot→agente

  • Paquete de contexto: campos y adjuntos incluidos vs mínimos.

  • Macros sugeridas: con guía de cierre vs libre.

  • Reglas de prioridad: envío a skill específico vs general.

Horarios de envío

  • Send-time: mañana vs tarde vs noche (por zona horaria).

  • Frecuencia: 1 toque vs 2 toques (recordatorio); respeta límites.

  • Días: hábiles vs fin de semana; considera comportamiento por industria.

Métricas y significancia

Elige una primaria, guardarraíles y mide con criterios estadísticos.

Métricas típicas por tipo de test

  • Mensajes: tasa de entrega/lectura/respuesta, clic/acción, opt-out/bloqueos.

  • Flujos: tasa de inicio→finalización, tiempo a completar, errores por paso, handoff rate.

  • Operativas: FRT p50/p90, TMO/AHT, FCR, re-encolados, backlog/aging.

  • Experiencia: CSAT/CES in-thread.

  • Salud del canal: calidad y límites (si aplica WhatsApp).

Significancia

  • Predefine p-value (≤0,05 común) y intervalos de confianza.

  • No “hagas pesca”: si miras muchas métricas, corres el riesgo de falsos positivos; prioriza la primaria.

  • Para métricas de tiempo con colas largas, usa percentiles (p50/p90) y no solo promedios.

  • Si cortar temprano es clave, usa métodos secuenciales o grupos cuasi-gemelos por estrato para limitar sesgo.

Salvaguardas y riesgos

La velocidad sin control te puede costar caro. Implementa guardrails.

Cap de exposición

  • Límite de personas a impactar por día/país/segmento (evita dañar calidad del canal).

  • Capping por usuario: no más de N plantillas por semana; excluye quienes ejecutaron la acción.

Canibalización y contaminación

  • Si otra campaña contacta al mismo público, pausa o excluye.

  • Fija cooldowns para que el mismo cliente no vea A y B en pocos días.

  • En flows, evita que agentes modifiquen manualmente el paso clave del experimento.

Cumplimiento y operativa

  • Plantillas aprobadas, consentimiento y ventanas de mensajería.

  • Entrena a agentes: si un test cambia el handoff, todos deben saber qué esperar.

  • Observa fatiga: si suben quejas/opt-outs, detén el test.

Interpretación y rollout

Terminado el test, decide y despliega sin romper nada.

Criterios de éxito

  • Variante B supera a A en la métrica primaria con significancia y no viola guardarraíles.

  • Si el resultado es inconcluso, aprende (descarta hipótesis o sube MDE) y prueba otra cosa.

Ramp-up progresivo

  • 10% → 50% → 100% en 24–72 h, con monitoreo de guardarraíles (opt-outs, FRT p90, CSAT).

  • En canales críticos, mantén un holdout pequeño 1–2 semanas para validar uplift sostenido.

Rollback

  • Ten el botón de reversa listo (plantillas, flows, ruteo).

  • Si se dispara una alerta (p. ej., caída de calidad del canal), vuelve a A y analiza.

Efecto por segmentos

  • Aunque ganes en global, verifica subgrupos: si pierdes mucho en un país o motivo, aplica rollout parcial o crea una variante localizada.

Documentación y aprendizaje

El repositorio de experimentos es tu ventaja competitiva.

Registro estándar de cada A/B

  • Nombre y código del test.

  • Hipótesis, métrica primaria, guardarraíles y MDE.

  • Diseño: unidad, muestra, duración, segmentos.

  • Materiales: copys, capturas de flows, reglas de ruteo.

  • Resultados: tabla de métricas, significancia, análisis por segmento.

  • Decisión: rollout/rollback, fecha, responsables.

  • Aprendizajes reutilizables: “primera línea con beneficio concreto > genérica”, “listas de 3 opciones > 6 opciones”, etc.

Versionado

  • Convención tipo AB-CAMPAÑA_FLOW-ES-CL-2025-09-v1.

  • Guarda artefactos (plantillas, flows) y changelogs.

  • Enlaza el experimento con la base de conocimiento y con las macros impactadas.

Repositorio de “ganadores”

  • Biblioteca de templates ganadoras, flows optimizados y horarios ideales por país/segmento.

  • Refresca periódicamente: lo que gana hoy puede envejecer (fatiga creativa).

Ejemplos prácticos para arrancar mañana

Test 1: Mensaje de recuperación de carrito en WhatsApp

  • A: “¿Seguimos con tu pedido?”

  • B: “Tu pedido # está listo para cerrar en 1 clic” + botón “Completar pago”

  • Métrica primaria: respuesta en 24 h. Guardarraíles: opt-out y bloqueos.

  • Segmento: recurrentes con opt-in <90 días.

  • Duración: 10 días incluyendo fin de semana.

Test 2: Flow de “cambio de dirección”

  • A: pedir dirección nueva primero; B: pedir ID de pedido primero.

  • Métrica primaria: tasa de finalización del flow. Guardarraíles: handoff rate y TMO.

  • Unidad: conversación; cooldown de 14 días por cliente.

Test 3: Horario de recordatorios

  • A: 10:00 local; B: 18:30 local.

  • Métrica primaria: clic en enlace de confirmación. Guardarraíles: CSAT y calidad del canal.

  • Estratos: país/idioma; ramp-up por oleadas.

Checklist rápido

  • Hipótesis con MDE y una métrica primaria.

  • Unidad de aleatorización definida y estratificada.

  • Muestra y duración acordadas (sin “peek” prematuro).

  • Segmentos y elegibilidad claros; cooldowns configurados.

  • Variantes listas (plantillas aprobadas, flows QA, ruteo).

  • Dashboards con primaria + guardarraíles en tiempo real.

  • Ramp-up progresivo y plan de rollback.

  • Documentación y repositorio de resultados.

Conclusión

El A/B testing en atención no es un lujo; es la forma profesional de decidir con datos qué mensajes, flujos y horarios realmente mejoran tus KPIs. Con hipótesis claras, diseño experimental sólido, segmentación inteligente, métricas bien instrumentadas y despliegues controlados, transformarás intuiciones en ganancias repetibles. Empieza pequeño, prueba a ritmo constante y convierte cada aprendizaje en un activo: plantillas ganadoras, flows más cortos, horarios efectivos y una operación que mejora semana a semana.

Solicita a  chattigo un plan de A/B testing con tablero de métricas y un calendario de experimentos para tus próximos 90 días.

Etiquetas: bot conversacional IA

AGENDEMOS UNA DEMO

Anímate a leer más