Diseño de intents y entrenamiento: mejora continua de tu bot

Escrito por chattigo | Oct 14, 2025 1:44:59 PM

Un buen bot no se “lanza” y ya: se entrena, se mide y se mejora cada semana. A medida que tu operación crece en WhatsApp, Instagram, Messenger, Email y Webchat, aparecen nuevas formas de preguntar, términos locales, abreviaturas y problemas que el guion original no contemplaba. Por eso, el entrenamiento continuo del bot es la palanca para escalar CX: incrementa contención (lo que se resuelve sin agente), baja FRT y TMO y deja a los humanos lo que realmente requiere criterio. Esta guía resume un método práctico para descubrir intents, definir su cobertura, crear y curar datos de entrenamiento, diseñar flujos con fallbacks elegantes, publicar versiones con control y medir el impacto con métricas que importan al negocio.

Descubrimiento de intents

Antes de escribir una sola línea de entrenamiento, hay que mirar la realidad de tus conversaciones.

Análisis de logs
Exporta 4–8 semanas de chats. Normaliza idioma, elimina PII innecesaria y agrupa por canal. Unifica saludos y muletillas (“hola”, “buen día”, emojis) para reducir ruido.

Motivos top
Clasifica manual o semiautomáticamente los 20–30 motivos que más se repiten (estado de pedido, cambios de dirección, reprogramación de cita, cobros, soporte técnico básico). Aplica la regla 80/20: unos pocos motivos concentran la mayor parte del volumen.

Clústeres de lenguaje
Usa técnicas de clustering o, si no cuentas con ellas, agrupa frases similares manualmente. Observa variaciones locales (“boleta/factura”, “pedido/orden”, “pega/trabajo”), abreviaturas y errores ortográficos frecuentes.

Quick wins
Prioriza intents cuya resolución sea simple (L1) y de alto volumen. Es mejor empezar con diez intents bien resueltos que con cuarenta a medias. Define desde ya si el objetivo es responder (FAQ), ejecutar (flow transaccional) o derivar (a skill humano específico).

Definición y cobertura

Un intent es la intención del usuario (“quiero reprogramar mi entrega”). Su poder está en su cobertura: la variedad de formas con que la gente lo expresa.

Intents y entidades

Intent: “Reprogramar entrega”.
Entidades: fecha, ciudad, franja horaria, número de pedido.
Diseña prompts que capturen esas entidades en el menor número de turnos posibles.

Sinónimos y variantes
Crea listas por país/idioma (“pedido/orden/compra”, “dirección/domicilio”), conjuga verbos (“reprogramar/reagendar/cambiar”), añade abreviaturas (“n° pdo”, “cp”, “dni/rut/rfc”) y emojis frecuentes.

Negativas (out-of-scope y contraejemplos)
Incluye ejemplos que no pertenecen al intent (“cancelar definitivamente”, “devolver producto”) para reducir falsos positivos. Una buena colección de negativas acelera la precisión.

Umbrales de confianza
Define el score mínimo para decidir. Ejemplo: ≥0,75 resuelvo; 0,55–0,74 pido desambiguar; <0,55 derivo a agente. Ajusta por intent: los críticos pueden exigir más confianza.

Datos de entrenamiento

El dataset es el corazón del modelo. Sin datos representativos, el bot “aprende” la versión idealizada, no la real.

Balance
Evita que un par de intents dominen el dataset. Apunta a tamaños similares en las clases principales y añade negativas para equilibrio saludable.

Augmentations responsables
Genera variantes controladas (sinónimos, orden de palabras, errores ortográficos comunes). No abuses: demasiada sintética puede introducir sesgos. Mantén un ratio real:sintético de referencia (p. ej., 3:1).

Conjuntos de validación y test
Separa un dev set para calibrar umbrales y un test set para medir avances. Congela el test set; no lo contamines con ejemplos vistos en entrenamiento.

Multilenguaje y localización
Si operas en varios países, etiqueta por país/idioma. A veces conviene duplicar intents por variante lingüística (ES-CL vs ES-MX) si cambian entidades (RUT/RFC, monedas) o políticas.

Diseño de flujos y fallback

Reconocer la intención es la mitad del trabajo; la otra mitad es guiar al usuario hasta la resolución con fricción mínima.

Desambiguación
Cuando dos intents compiten (“cambiar dirección” vs “cambiar fecha”), presenta una pregunta cerrada o una lista corta. Evita menús eternos: 2–3 opciones, máximo 5.

Confirmaciones inteligentes
Repite en una línea lo que entendiste (“¿Quieres reprogramar tu entrega para mañana?”). Ofrece sí/no y un escape a agente si detectas frustración.

Captura de entidades
Usa botones, listas y respuestas rápidas siempre que sea posible. Para campos estructurados (fechas, ciudad, tienda), valida formato y ofrece ejemplos. Si falta un dato, pregúntalo; si sobra, úsalo.

Recuperación (fallback)

Fallback suave 1: reformula el pedido (“¿Te refieres a reprogramar o cancelar?”).
Fallback suave 2: ofrece hablar con agente o dejar registro para callback.
Fallback duro: handoff directo cuando detectes lenguaje de frustración o baja confianza persistente.

Handoff a agente
Envía un paquete de contexto: intent reconocido, entidades capturadas, pasos ya hechos, motivos y etiquetas. El agente entra a resolver, no a preguntar de nuevo.

Entrenamiento incremental

No hagas releases gigantes cada trimestre. Avanza con ciclos cortos y gana seguridad en cada paso.

Ciclos semanales o quincenales

Día 1–2: etiquetado y curaduría de ejemplos nuevos.
Día 3–4: entrenamiento, validación y ajuste de umbrales.
Día 5: publicación a un porcentaje de tráfico (canary) y monitoreo.

Active learning
El bot marca como “incertidumbre” los mensajes cercanos al umbral. Los anotas, entrenas de nuevo y repites. Es la forma más eficiente de ganar precisión justo donde la necesitas.

Criterios de publicación
Publica si mejoras F1 global o de intents prioritarios con pérdida ≤X en otros. Define “guards”: no publiques si empeora notablemente un intent crítico (pagos, fraude, alta severidad).

Versionado y A/B testing

La disciplina de versionado te salva en producción.

Ramas y tagging
Trabaja con ramas (main, staging, feature/intent_nuevo). Etiqueta cada release con fecha y cambios (“v2025.09.15 – +Intent Reprogramación, ↑Umbral Cobro”).

Pruebas controladas
Divide tráfico por segmentos (país, canal, horario). Compara versión A vs B en contención, FCR, CSAT y rebotes (re-encolados). Mantén la prueba lo suficiente para captar picos y fines de semana.

Rollback
Debe ser inmediato. Si sube el error en un intent crítico o cae CSAT, vuelve a la versión anterior mientras investigas.

Métricas del bot

Medir solo “mensajes atendidos” engaña. Combina métricas de modelo con métricas operativas.

Precisión, recall y F1

Precisión: de lo que el bot dijo que era Intent X, ¿cuánto fue realmente X?
Recall: de todos los X reales, ¿cuántos detectó?
F1: balance de ambas. Repórtalas por intent y global.

Matriz de confusión
Revela en qué se confunde el bot (ej.: confunde “cambiar dirección” con “reprogramar entrega”). Ahí están tus próximos sprints de mejora.

Tasa de contención
% de conversaciones resueltas por el bot sin agente. Segmenta por intent y canal. El objetivo no es subirla “a cualquier costo”: si sube, pero cae CSAT, revisa el diseño del flujo.

Rebotes y re-encolados
Cuántas veces la conversación vuelve al bot o salta de cola tras el handoff. Si son altos, falta contexto o el ruteo no respeta el skill correcto.

Tiempo a resolución (bot)
Mide la duración de los flujos exitosos. Un flujo más corto y claro suele correlacionar con CSAT más alto.

Gobernanza y anotación

Sin gobernanza, los datasets se degradan y el conocimiento se dispersa.

Roles

Owner de NLU: define taxonomía de intents y estándares.
Anotadores: etiquetan ejemplos con guidelines claras; no improvisan.
QA de datos: revisa consistencia, equilibra clases, controla calidad.
Producto/Operaciones: prioriza intents por impacto en negocio.

Guidelines de etiquetado
Documento corto, ejemplos positivos/negativos y casos límite. Criterios para separar intents (“cambiar dirección” vs “añadir referencia”) y para usar negativas. Actualiza cuando descubres ambigüedades.

Control de calidad
Muestras aleatorias etiquetadas por dos personas; mide acuerdo inter-anotador. Donde haya conflicto, define regla y actualiza guidelines.

Catálogo de intents
Mantenlo como fuente de verdad: nombre, descripción, entidades, ejemplos, macros y flujo asociado, owner, fecha de última actualización, KPIs (precisión/recall, contención).

Seguridad y cumplimiento

El bot debe minimizar PII y respetar políticas de cada canal.

Minimización de datos
Pregunta solo lo necesario (principio de necesidad). Evita recolectar números de tarjetas o credenciales por chat. Para datos sensibles, redirige a canales seguros.

Mascarado y retención
Enmascara identificadores en logs de entrenamiento. Define ventanas de retención por país y cúmplelas: borra o anonimiza lo que ya no necesitas.

Auditoría
Registra cambios de intents, umbrales, flujos y plantillas. Si una métrica cae, podrás rastrear qué versión provocó el cambio.

Políticas de canal
En WhatsApp, respeta ventanas de 24 h y categorías de plantillas en comunicaciones proactivas. Entrena al bot para reconocer solicitudes que requieren plantilla (p. ej., reenganche fuera de 24 h) y para detener envíos si la calidad del canal baja.

Caso práctico resumido

Exportas 6 semanas de conversaciones, detectas 12 motivos top (60% del volumen).
Diseñas 10 intents con entidades claras y 2 de negativas.
Etiquetas 300–600 ejemplos por intent (reales + variaciones parciales), separas dev/test.
Publicas v1 a 20% del tráfico con umbrales conservadores.
Mides: +12% de contención en L1, F1 de 0,86 global; detectas confusión entre “cambiar dirección” y “reprogramar”.
Siguiente sprint: desambiguación explícita, más negativas, ajuste de umbrales.
A/B: versión B supera F1 en +0,03 y baja rebotes en −18%. Promueves B a 100%.
Instituyes ciclo quincenal de retraining y dashboard de intents con precisión/recall, contención y CSAT por flujo.

Checklist listo para usar

Dataset curado por país/idioma y con negativas.
Umbrales definidos por intent (resolver / desambiguar / derivar).
Flujos con desambiguación, confirmaciones y handoff con contexto.
Ciclo de entrenamiento incremental (semanal/quincenal) y active learning.
Versionado con ramas, canary release y rollback.
Métricas: precisión/recall/F1 por intent, contención, rebotes, tiempo a resolución y CSAT.
Gobernanza: owners, guidelines, QA y catálogo de intents vivo.
Seguridad: minimización de PII, mascarado, retención y auditoría.
Cumplimiento de políticas de canal y plantillas cuando corresponda.

Conclusión

El diseño y entrenamiento de intents no es un proyecto, es un proceso. Si conviertes tus conversaciones reales en datos limpios, defines cobertura con negativas, diseñas flujos que confirman y recuperan con elegancia, y publicas versiones pequeñas con métricas claras, tu bot contendrá más, derivará mejor y mejorará la experiencia de forma sostenida. La promesa no es “automatizarlo todo”, sino automatizar bien lo que tiene sentido y subir de nivel al equipo humano con casos realmente complejos.

Solicita a chattigo un sprint de mejora del bot con plan de entrenamiento y tablero de métricas.

Ver post completo