Un buen bot no se “lanza” y ya: se entrena, se mide y se mejora cada semana. A medida que tu operación crece en WhatsApp, Instagram, Messenger, Email y Webchat, aparecen nuevas formas de preguntar, términos locales, abreviaturas y problemas que el guion original no contemplaba. Por eso, el entrenamiento continuo del bot es la palanca para escalar CX: incrementa contención (lo que se resuelve sin agente), baja FRT y TMO y deja a los humanos lo que realmente requiere criterio. Esta guía resume un método práctico para descubrir intents, definir su cobertura, crear y curar datos de entrenamiento, diseñar flujos con fallbacks elegantes, publicar versiones con control y medir el impacto con métricas que importan al negocio.
Antes de escribir una sola línea de entrenamiento, hay que mirar la realidad de tus conversaciones.
Análisis de logs
Exporta 4–8 semanas de chats. Normaliza idioma, elimina PII innecesaria y agrupa por canal. Unifica saludos y muletillas (“hola”, “buen día”, emojis) para reducir ruido.
Motivos top
Clasifica manual o semiautomáticamente los 20–30 motivos que más se repiten (estado de pedido, cambios de dirección, reprogramación de cita, cobros, soporte técnico básico). Aplica la regla 80/20: unos pocos motivos concentran la mayor parte del volumen.
Clústeres de lenguaje
Usa técnicas de clustering o, si no cuentas con ellas, agrupa frases similares manualmente. Observa variaciones locales (“boleta/factura”, “pedido/orden”, “pega/trabajo”), abreviaturas y errores ortográficos frecuentes.
Quick wins
Prioriza intents cuya resolución sea simple (L1) y de alto volumen. Es mejor empezar con diez intents bien resueltos que con cuarenta a medias. Define desde ya si el objetivo es responder (FAQ), ejecutar (flow transaccional) o derivar (a skill humano específico).
Un intent es la intención del usuario (“quiero reprogramar mi entrega”). Su poder está en su cobertura: la variedad de formas con que la gente lo expresa.
Intents y entidades
Sinónimos y variantes
Crea listas por país/idioma (“pedido/orden/compra”, “dirección/domicilio”), conjuga verbos (“reprogramar/reagendar/cambiar”), añade abreviaturas (“n° pdo”, “cp”, “dni/rut/rfc”) y emojis frecuentes.
Negativas (out-of-scope y contraejemplos)
Incluye ejemplos que no pertenecen al intent (“cancelar definitivamente”, “devolver producto”) para reducir falsos positivos. Una buena colección de negativas acelera la precisión.
Umbrales de confianza
Define el score mínimo para decidir. Ejemplo: ≥0,75 resuelvo; 0,55–0,74 pido desambiguar; <0,55 derivo a agente. Ajusta por intent: los críticos pueden exigir más confianza.
El dataset es el corazón del modelo. Sin datos representativos, el bot “aprende” la versión idealizada, no la real.
Balance
Evita que un par de intents dominen el dataset. Apunta a tamaños similares en las clases principales y añade negativas para equilibrio saludable.
Augmentations responsables
Genera variantes controladas (sinónimos, orden de palabras, errores ortográficos comunes). No abuses: demasiada sintética puede introducir sesgos. Mantén un ratio real:sintético de referencia (p. ej., 3:1).
Conjuntos de validación y test
Separa un dev set para calibrar umbrales y un test set para medir avances. Congela el test set; no lo contamines con ejemplos vistos en entrenamiento.
Multilenguaje y localización
Si operas en varios países, etiqueta por país/idioma. A veces conviene duplicar intents por variante lingüística (ES-CL vs ES-MX) si cambian entidades (RUT/RFC, monedas) o políticas.
Reconocer la intención es la mitad del trabajo; la otra mitad es guiar al usuario hasta la resolución con fricción mínima.
Desambiguación
Cuando dos intents compiten (“cambiar dirección” vs “cambiar fecha”), presenta una pregunta cerrada o una lista corta. Evita menús eternos: 2–3 opciones, máximo 5.
Confirmaciones inteligentes
Repite en una línea lo que entendiste (“¿Quieres reprogramar tu entrega para mañana?”). Ofrece sí/no y un escape a agente si detectas frustración.
Captura de entidades
Usa botones, listas y respuestas rápidas siempre que sea posible. Para campos estructurados (fechas, ciudad, tienda), valida formato y ofrece ejemplos. Si falta un dato, pregúntalo; si sobra, úsalo.
Recuperación (fallback)
Handoff a agente
Envía un paquete de contexto: intent reconocido, entidades capturadas, pasos ya hechos, motivos y etiquetas. El agente entra a resolver, no a preguntar de nuevo.
No hagas releases gigantes cada trimestre. Avanza con ciclos cortos y gana seguridad en cada paso.
Ciclos semanales o quincenales
Active learning
El bot marca como “incertidumbre” los mensajes cercanos al umbral. Los anotas, entrenas de nuevo y repites. Es la forma más eficiente de ganar precisión justo donde la necesitas.
Criterios de publicación
Publica si mejoras F1 global o de intents prioritarios con pérdida ≤X en otros. Define “guards”: no publiques si empeora notablemente un intent crítico (pagos, fraude, alta severidad).
La disciplina de versionado te salva en producción.
Ramas y tagging
Trabaja con ramas (main, staging, feature/intent_nuevo). Etiqueta cada release con fecha y cambios (“v2025.09.15 – +Intent Reprogramación, ↑Umbral Cobro”).
Pruebas controladas
Divide tráfico por segmentos (país, canal, horario). Compara versión A vs B en contención, FCR, CSAT y rebotes (re-encolados). Mantén la prueba lo suficiente para captar picos y fines de semana.
Rollback
Debe ser inmediato. Si sube el error en un intent crítico o cae CSAT, vuelve a la versión anterior mientras investigas.
Medir solo “mensajes atendidos” engaña. Combina métricas de modelo con métricas operativas.
Precisión, recall y F1
Matriz de confusión
Revela en qué se confunde el bot (ej.: confunde “cambiar dirección” con “reprogramar entrega”). Ahí están tus próximos sprints de mejora.
Tasa de contención
% de conversaciones resueltas por el bot sin agente. Segmenta por intent y canal. El objetivo no es subirla “a cualquier costo”: si sube, pero cae CSAT, revisa el diseño del flujo.
Rebotes y re-encolados
Cuántas veces la conversación vuelve al bot o salta de cola tras el handoff. Si son altos, falta contexto o el ruteo no respeta el skill correcto.
Tiempo a resolución (bot)
Mide la duración de los flujos exitosos. Un flujo más corto y claro suele correlacionar con CSAT más alto.
Sin gobernanza, los datasets se degradan y el conocimiento se dispersa.
Roles
Guidelines de etiquetado
Documento corto, ejemplos positivos/negativos y casos límite. Criterios para separar intents (“cambiar dirección” vs “añadir referencia”) y para usar negativas. Actualiza cuando descubres ambigüedades.
Control de calidad
Muestras aleatorias etiquetadas por dos personas; mide acuerdo inter-anotador. Donde haya conflicto, define regla y actualiza guidelines.
Catálogo de intents
Mantenlo como fuente de verdad: nombre, descripción, entidades, ejemplos, macros y flujo asociado, owner, fecha de última actualización, KPIs (precisión/recall, contención).
El bot debe minimizar PII y respetar políticas de cada canal.
Minimización de datos
Pregunta solo lo necesario (principio de necesidad). Evita recolectar números de tarjetas o credenciales por chat. Para datos sensibles, redirige a canales seguros.
Mascarado y retención
Enmascara identificadores en logs de entrenamiento. Define ventanas de retención por país y cúmplelas: borra o anonimiza lo que ya no necesitas.
Auditoría
Registra cambios de intents, umbrales, flujos y plantillas. Si una métrica cae, podrás rastrear qué versión provocó el cambio.
Políticas de canal
En WhatsApp, respeta ventanas de 24 h y categorías de plantillas en comunicaciones proactivas. Entrena al bot para reconocer solicitudes que requieren plantilla (p. ej., reenganche fuera de 24 h) y para detener envíos si la calidad del canal baja.
El diseño y entrenamiento de intents no es un proyecto, es un proceso. Si conviertes tus conversaciones reales en datos limpios, defines cobertura con negativas, diseñas flujos que confirman y recuperan con elegancia, y publicas versiones pequeñas con métricas claras, tu bot contendrá más, derivará mejor y mejorará la experiencia de forma sostenida. La promesa no es “automatizarlo todo”, sino automatizar bien lo que tiene sentido y subir de nivel al equipo humano con casos realmente complejos.
Solicita a chattigo un sprint de mejora del bot con plan de entrenamiento y tablero de métricas.