Tu equipo comercial lleva tres horas intentando contactar con 80 leads de la campaña de marzo. Han conseguido hablar con 14. De esos 14, cinco no son el interlocutor correcto. Tres han dicho que llamen más tarde. Dos han colgado.
Cuatro conversaciones reales en tres horas. Y mañana tienen que repetirlo.
Esto no es un problema de actitud ni de formación. Es un problema estructural. Las llamadas salientes a escala son, por naturaleza, una actividad que no escala con humanos.
El problema que nadie
llama por su nombre
El coste oculto de las llamadas salientes manuales
El coste no es solo el salario. Es el tiempo perdido marcando números, escuchando el tono de espera, dejando mensajes en buzones que nadie escucha. En equipos de 5 comerciales haciendo outbound, entre el 60 y el 70% del tiempo de trabajo se va en intentos de contacto que no producen ninguna conversación útil.
El número que duele
De media, un comercial dedica el 68% de su tiempo en campañas outbound a intentos fallidos de contacto: marcación, espera, buzón de voz, número incorrecto. Solo el 32% restante produce conversaciones reales. Y de esas, una fracción cierra.
El problema tiene dos caras. La primera: pagas a personas para hacer algo que una máquina puede hacer mejor, más rápido y sin agotarse. La segunda: esos mismos comerciales podrían estar cerrando, no marcando.
- Máximo 60-80 llamadas por agente y día
- Calidad de conversación variable según cómo esté el agente ese día
- Sin datos estructurados de cada llamada
- Rotación alta en perfiles de telemarketing
- Solo funciona en horario laboral
- Miles de llamadas simultáneas sin techo de escala
- Conversación consistente en cada llamada, siempre
- Cada llamada genera datos estructurados automáticamente
- Sin rotación. Sin bajas. Sin mal día.
- Opera 24/7. También a las 7 de la mañana.
Qué es una campaña outbound
con agentes de voz
Sin buzzwords. Solo lo que importa.
No es un bot de centralita que lee un script como un robot. Eso existe, y es una pesadilla de experiencia de cliente. Lo que ha cambiado en los últimos dos años es la capacidad de los modelos de lenguaje para mantener una conversación real, adaptarse a lo que dice el interlocutor en tiempo real y responder con coherencia aunque la conversación se desvíe del guion.
Los sistemas anteriores seguían árboles de decisión. Si el cliente dice A, responde B. El árbol tenía 50 ramas y en la 51 el sistema se rompía. Los sistemas actuales entienden la intención y generan una respuesta contextual. No hay árbol. Hay comprensión.
Los cuatro pilares que lo sostienen
Convierte el texto en voz con entonación y pausas naturales. En producción, un porcentaje alto de interlocutores no saben que están hablando con un agente hasta que se les dice.
El cerebro. Entiende lo que dice el cliente, mantiene el contexto y genera la respuesta adecuada. La calidad depende de cómo se configura: el prompt, las instrucciones y los casos borde.
La parte que casi nadie menciona. El agente necesita hacer llamadas reales, con CLIs reales, sobre una red con suficiente capacidad simultánea. Sin esto, el agente no puede llamar a nadie.
Cada llamada actualiza el CRM automáticamente: resultado, transcripción, sentimiento, próximo paso. Sin esta capa, el agente llama pero no alimenta el proceso comercial.
Lo que no ves en las demos
La demo siempre funciona. El problema llega en producción cuando el agente tiene que gestionar acentos regionales, ruido de fondo o interlocutores que responden con algo inesperado. El trabajo real está en los casos borde.
Cómo funciona por dentro
Desde que el sistema decide hacer una llamada hasta que actualiza el CRM
Retell AI (agente de voz) + ElevenLabs turbo v2.5 (voz) + Gemini 2.0 Flash (LLM) + telefonía IP de netelip (SIP) + N8N Cloud (automatización) + Cal.com (agenda) + Gemini 2.5 Flash (análisis post-llamada)
Los casos de uso
que sí funcionan
Los que dan retorno medible en menos de 90 días. No los del blog de la plataforma de turno.
He probado varios. Algunos van muy bien. Otros tienen una pinta brutal en la demo y en producción se desmoronan. Lo que te cuento aquí son los que he visto funcionar con datos reales, en empresas reales del mercado español.
Confirmación de citas
El agente llama 24h antes de la cita, confirma asistencia, gestiona cancelaciones y reprograma directamente en el calendario. Sin intervención humana. Funciona especialmente bien en clínicas, inmobiliarias y academias.
Seguimiento de leads fríos
Contacto con leads que llevan más de 30 días sin actividad. El agente cualifica, detecta si sigue habiendo interés y transfiere al comercial solo los que responden positivamente.
Avisos de pago y renovación
El agente llama antes del vencimiento, informa del importe, ofrece opciones y registra la respuesta. Para cobranzas, funciona mejor que el email en segmentos que no abren la bandeja de entrada.
Encuestas post-servicio
NPS y CSAT conversacional. En lugar de un formulario que nadie rellena, una llamada de 90 segundos donde el cliente cuenta su experiencia.
Calificación de leads entrantes
Cuando alguien rellena un formulario web, el agente llama en menos de 60 segundos. La velocidad de contacto es el factor que más impacta en la conversión B2B. Ningún equipo humano puede competir con eso a escala.
Recuperación de contratos no firmados
El agente detecta cuando un proceso se ha quedado a medias y llama para entender el freno. Sin presión. Escucha. Transfiere si hay oportunidad real.
El caso que más me flipó
Una agencia de contratación que contacta cada mañana con 400 candidatos para confirmar disponibilidad. El agente saluda por nombre, pregunta por preferencias de horario y actualiza el sistema automáticamente.
Lo que antes requería 3 personas y 4 horas ahora ocurre en 20 minutos, antes de que llegue el primer humano a la oficina.
Lo que nadie te dice
antes de empezar
Los problemas reales que aparecen en producción
He visto proyectos de agentes de voz que han tardado seis meses en llegar a producción. Y otros que nunca han llegado. En casi todos los casos, los problemas no eran técnicos. Eran de diseño, de expectativas y de infraestructura.
La normativa no es opcional
Obligatorio antes de arrancar
El interlocutor tiene derecho a saber que está hablando con un sistema automatizado. En España, la normativa obliga a identificarse como IA si se le pregunta directamente. El agente debe saber decirlo y debe poder transferir a un humano cuando el interlocutor lo pida.
Operar sin base de datos limpia y con consentimiento verificado es el error más caro que puedes cometer. No por el coste de la llamada. Por las consecuencias regulatorias.
La infraestructura SIP importa más de lo que parece
Un agente de voz necesita hacer muchas llamadas en paralelo. Cada llamada es un canal SIP activo. Si tu proveedor de telefonía no tiene la capacidad simultánea suficiente, el sistema colapsa en producción aunque en la demo haya funcionado perfectamente.
| Métrica | Qué mide | Umbral crítico | Estado |
|---|---|---|---|
| CPS | Llamadas iniciadas por segundo. Un valor bajo crea colas y retrasos que rompen la campaña a escala. | Mínimo 3-5 CPS para campaña real | Verificar |
| Canales SIP | Conversaciones simultáneas máximas. Define el techo real de tu campaña. | 1 canal por llamada activa | Verificar |
| ASR | Porcentaje de llamadas que el sistema enruta con éxito. ASR bajo indica problemas de routing o lista sucia. | Por encima del 70% | Verificar |
| Latencia de audio | Tiempo entre que el interlocutor termina de hablar y el agente responde. | Por debajo de 800ms | Elio: ~600ms |
El diseño conversacional no es escribir un script
El error más común: alguien coge un script de telemarketing, lo pega en el prompt del agente y espera que funcione. No funciona. Un script de telemarketing está diseñado para humanos que improvisan. Un agente de voz necesita instrucciones sobre qué hacer cuando la conversación se desvía, no solo sobre el camino principal.
El dato que cambia cómo diseñas
El 40% de las conversaciones en producción se desvían del flujo principal en los primeros 30 segundos. El interlocutor hace una pregunta inesperada, pide que llamen más tarde, dice que no es el contacto correcto, o directamente pregunta si es un robot. Si el agente no sabe gestionar esos cuatro escenarios, la campaña falla.
Resultados reales
de producción
Números de sistemas que están corriendo ahora mismo
No me gustan los casos de estudio de landing page. Lo que te cuento aquí viene de sistemas en producción, con clientes reales, con las complicaciones reales del mercado español.
Elio es mi agente de voz. Lleva meses en producción. Lo que sé sobre cómo funciona esto lo sé porque lo he visto en los logs, en las transcripciones y en los resultados de cada semana.
inicio → producción
400 candidatos
vs email en encuestas
Elio en producción: de 45% de alucinaciones a 0%
Arrancamos con un 45% de alucinaciones en los primeros tests. Hoy estamos en 0% en producción. Ese número no es el de un benchmark. Es el de llamadas reales, con clientes reales, semana tras semana.
El trabajo que hay detrás: más de 70 palabras en el diccionario de pronunciación, análisis post-llamada con Gemini 2.5 Flash después de cada conversación, y ajustes basados en datos reales, no en intuición.
Caso real — sector inmobiliario
Una base de 2.000 leads que habían pedido información en los últimos 6 meses y nunca habían llegado a una visita. El equipo comercial los había abandonado porque el tiempo de contacto no era rentable.
El agente llamó a toda la base en 48 horas, cualificó el interés y agendó visitas directamente en el calendario del asesor. Resultado: 87 visitas agendadas sin que ningún humano hubiera hecho una sola llamada. El equipo recibió 87 citas con contexto completo. Solo tuvieron que presentarse.
Por dónde empezar
La secuencia que funciona. Sin saltarse pasos.
Lo más caro no es montar el agente. Lo más caro es montarlo mal y tener que desmontarlo. Antes de escribir una sola línea de prompt, hay que hacer esto.
Retell AI (agente de voz) + ElevenLabs (voz custom) + Gemini Flash (LLM) + telefonía IP de netelip (SIP, operador licenciado en España) + N8N Cloud (automatización) + HubSpot free (CRM)
La pregunta que siempre hago antes de arrancar
¿Si este agente comete un error en el 2% de las llamadas, cuánto daño produce? Si la respuesta es "mínimo, lo gestiona el humano", adelante. Si la respuesta es "destroza la relación con el cliente", necesitamos más trabajo de diseño antes de lanzar.
El agente no es perfecto. El diseño del sistema tiene que contemplar el error, no ignorarlo.