Somos Chattigo

Detección de picos y alertas tempranas con analítica en tiempo real

Escrito por chattigo | Oct 20, 2025 2:45:00 PM

En atención al cliente, los picos de demanda no son una excepción: son la “nueva normalidad”. Una campaña que convierte mejor de lo esperado, una caída de un proveedor de pagos, un post viral o un feriado regional pueden duplicar el tráfico en minutos. 

Si no reaccionas a tiempo, el FRT (tiempo de primera respuesta) se dispara, el TMO/AHT se alarga, el CSAT cae y el backlog se vuelve ingobernable. La clave no es adivinar el futuro, sino detectar picos en tiempo real, lanzar alertas tempranas y ejecutar playbooks de respuesta que protejan tus SLA y la experiencia del cliente, incluso cuando la demanda se desordena.

Este artículo te mostramos una guía paso a paso: tipos de picos, señales y fuentes de datos, métodos de detección (de umbrales dinámicos a EWMA), diseño de alertas sin fatiga, playbooks accionables, integración con staffing, post-mortem y métricas de resiliencia.

Tipos de picos

No todos los picos se manejan igual. Clasificarlos te permite preparar respuestas específicas.

  • Campañas y lanzamientos: Desencadenados por emails, ads, descuentos o eventos (Cyber, Hot Sale). Son parcialmente previsibles y concentrados por franja horaria.
  • Incidentes operativos: Caídas del ERP/PSP, latencias del CRM, errores de webhooks o bloqueos de plantillas. Elevan FRT y TMO sin que el volumen necesariamente suba: la señal es la congestión.
  • Estacionales y calendario: Feriados, cierre de mes, matrícula escolar, impuestos. El patrón se repite año a año, pero la magnitud varía.
  • PR/crisis: Cobertura mediática, quejas virales, incidentes de servicio. Crecen rápido y suelen combinar alta emotividad con motivos poco estructurados.
  • “Long tail”: No explotan; gotean. Un leve aumento sostenido en solicitudes complejas (L2/L3) que, sin monitoreo, termina erosionando los SLAs.

Señales y fuentes de datos

Para detectar picos con precisión, observa varias dimensiones a la vez.

Volumen y ritmo

  • Nuevas conversaciones por minuto y por canal (WhatsApp, IG, Webchat, Email).

  • Llegadas vs atenciones: si las llegadas superan atenciones durante X minutos, el backlog crecerá.

Estado de colas y tiempos

  • Conversaciones en cola, backlog abierto y aging por tramos (0–5, 5–15, 15–30, 30+ min).

  • FRT p50/p90 y AHT por cola/skill: si suben sin subir volumen, sospecha de incidentes/latencias.

Contenido e intención

  • Distribución de intents y motivos: cambios abruptos sugieren eventos (p. ej., “pago rechazado”).

  • Tasa de escalamiento y re-encolados: subidas repentinas indican saturación o fallas de ruteo.

Salud de integraciones

  • Errores/latencia en CRM/ERP/PSP y webhooks; timeouts o 5xx.

  • Para WhatsApp, estado de calidad y rechazos de plantillas.

Capacidad

  • Agentes conectados, adherencia al turno, ocupación, ausencias.

  • Disponibilidad de skills críticos (idioma, vertical, ERP específico).

Métodos de detección

Huye del “si supera 100, alerta” para todo. Combina métodos simples y robustos.

Umbrales dinámicos (baseline + %)

Calcula un baseline por canal/cola/franja (p. ej., promedio de las últimas 2–4 semanas para ese día y hora) y alerta si el volumen actual supera baseline × (1 + α). Útil para campañas.

Moving average + desviación estándar

Promedio móvil (MA) y desviación móvil (σ) en ventanas cortas (5–15 min). Alerta si la señal supera MA + k·σ (k entre 2 y 3), con histeresis (dos o tres puntos consecutivos) para evitar ruido.

Z-score

Convierte la diferencia respecto al promedio en unidades de desviación: z = (x – μ) / σ. Activa si z > z_umbral (ej. 3). Ideal para normalizar señales distintas.

EWMA (media móvil exponencial)

Pondera más los datos recientes: S_t = α·x_t + (1–α)·S_{t–1}. Detecta cambios suaves sin sobre-reaccionar. Útil para FRT p90 y latencia de integraciones.

Percentiles y colas

Monitorea p90/p95 de FRT/AHT en vez de promedios: capturan mejor los extremos que rompen SLA.

Reglas compuestas

Dispara “pico real” si ocurren dos o más señales a la vez (volumen ↑ y FRT p90 ↑, o backlog ↑ y agentes activos ↓). Reduce falsos positivos.

Cooldown y deduplicación

Tras alertar, aplica un cooldown (p. ej., 10–15 min) o exige cambio de severidad para no inundar a Supervisión.

Diseño de alertas

El objetivo es actuar antes de que el cliente sufra, sin fatiga de alertas.

Severidad (S1–S3)

  • S1 (crítica): riesgo de incumplir SLA general o caída de integraciones clave.

  • S2 (alta): FRT p90 en ámbar, backlog creciendo, skills críticos bajo dotación.

  • S3 (informativa): desvíos leves, tendencias que vigilar.

Canales y destinatarios

  • Tiempo real: panel (wallboard) + Slack/Teams para S1/S2.

  • Email para resumen horario o post-evento.

  • On-call con rotación y “grupo de respuesta” predefinido.

Frecuencia y deduplicación

  • Rate-limit por tipo de alerta (no más de 1 S1 igual cada 10 min).

  • Deduplicación por “huella” (canal/cola/país + tipo de pico).

  • “Silenciar” tras acknowledged, con re-alerta solo si empeora.

Plantilla de alerta útil
Incluye: qué pasó, desde cuándo, dónde (canal/cola/país), tamaño del desvío vs baseline, hipótesis (campaña/latencia), acciones sugeridas y botón/enlace al playbook.

Playbooks de respuesta

Una alerta sin playbook es solo ruido. Diseña respuestas específicas por tipo de pico.

Campañas/lanzamientos

  • Ruteo prioritario para motivos de conversión.

  • Refuerzo de dotación planificado (turnos cortos, cross-skill).

  • Pausa o escalado gradual de envíos si FRT p90 supera umbral.

  • Template de “espera informada” con tiempo estimado.

Incidentes de integraciones

  • Cambiar a modo contingencia: flujos offline (captura de datos, ticket diferido).

  • Mensaje proactivo informando incidencia y próximos hitos.

  • Redirigir a skills que no dependan del sistema caído; priorizar casos críticos.

Estacionales

  • Activar colas temporales (p. ej., “Matrícula L1”), macros específicas y knowledge base actualizada.

  • Extender horarios y abrir micro-turnos en picos predecibles.

PR/crisis

  • Guion único aprobado por Legal/PR para todos los canales.

  • Ruteo a equipo especializado, deshabilitar mensajes promocionales, y unificar tracking de menciones.

Long tail

  • Reasignar L2/L3 a especialistas, disparar entrenamiento de intents y revisar procesos de backoffice que alargan AHT.

Integración con staffing

Las alertas valen si puedes mover gente a tiempo.

Turnos dinámicos y micro-shifts: Crea “ventanas flex” de 60–120 min que se activan ante S2/S1 con compensación acordada. Publica cronograma semanal para voluntarios.

Skills críticos y cross-training: Mantén un pool multi-skill para overflow. El playbook debe indicar qué colas ayudan a cuáles y con qué prioridad.

Redistribución de colas: Con wallboards, mueve agentes de colas verdes a colas ámbar/rojo. Limita conversaciones simultáneas por agente para evitar burnout en picos.

Cálculo rápido de dotación: A falta de WFM avanzado, aproxima:

  • Llegadas/min × AHT (min) = carga ofrecida.

  • Agentes ≈ carga ofrecida / objetivo de ocupación (p. ej., 0,75).
    Ajusta por shrinkage (ausencias, pausas) y calidad (no sobre-ocupes >0,85).

Post-mortem y mejora

Cada pico debe convertirse en aprendizaje.

Causas raíz

Haz línea de tiempo y aplica 5 Whys. Clasifica si fue demanda (campaña), capacidad (dotación, skills) o capacidad efectiva (incidencias/latencia).

Acciones preventivas

  • Nuevos umbrales por franja/país.

  • Cambios en ruteo (prioridades, overflow).

  • Entrenamiento de intents y macros.

  • Acuerdos con Marketing sobre cap de envíos.

Knowledge base y plantillas

Agrega artículos de “modo contingencia” y versiones cortas de mensajes de espera informada por canal/país.

Métricas de resiliencia

Lo que no mides, no mejora. Además de los KPIs diarios, sigue estos indicadores de “antifrágil”.

MTTD (Mean Time To Detect): Tiempo medio desde que comienza el desvío hasta la alerta accionable. Meta: minutos, no horas.

MTTR (Mean Time To Recover): Tiempo desde alerta hasta volver a estado verde (FRT/SLAs normales). Aplícalo por tipo de pico.

Cumplimiento de SLA en pico: porcentaje de conversaciones dentro de SLA durante el evento. Segmenta por cola/skill para focalizar refuerzos.

Área bajo el backlog: No solo mires máximos; suma el “área” (conversaciones × minutos en cola) para dimensionar el costo del pico.

Falsos positivos/negativos de alertas: Tasa de alertas que no requerían acción y picos detectados tarde. Sirve para tunear umbrales y reglas compuestas.

TTCC (Time To Customer Communication): Tiempo hasta informar al cliente (mensaje de espera/contingencia). Impacta CSAT y bloqueos.

Checklist de implementación

  • Eventos en tiempo real: llegadas, atenciones, backlog, FRT p50/p90, AHT, integraciones (latencia/errores), agentes activos, skills.

  • Baselines por canal/cola/país/franja; percentiles y EWMA para tiempos.

  • Reglas compuestas con histeresis, cooldown y deduplicación.

  • Severidades S1–S3, on-call y destinatarios claros.

  • Playbooks por tipo de pico: pasos, responsables, macros/plantillas y criterios de salida.

  • Integración con staffing: micro-turnos, cross-skill y occupancy objetivo.

  • Post-mortem con línea de tiempo, 5 Whys y acciones dueñas con fecha.

  • Revisión mensual de umbrales y actualización de KB.

Conclusión

Los picos no se “evitan”; se orquestan. Cuando detectas desvíos en minutos, alertas sin ruido y activas playbooks que ajustan ruteo, dotación y comunicación al cliente, tus SLA sobreviven incluso en días caóticos. 

La combinación ganadora es técnica + operación: señales bien instrumentadas, umbrales dinámicos, reglas compuestas, staffing flexible y una cultura de post-mortem que convierte cada evento en mejoras permanentes. Con eso, el FRT vuelve a verde, el TMO no se infla y el CSAT resiste.

Además, con la reportería de chattigo —que unifica interacciones, bots, CRM y llamadas— las empresas obtienen visibilidad completa en tiempo real, lo que les permite anticiparse a los picos y sostener sus SLA en cualquier escenario.

Activa alertas en tiempo real con chattigo y protege tus SLA. Configuramos tus señales, umbrales y playbooks en semanas, con wallboards y reportes listos para supervisión.