13 ABRIL 2026

Mil llamadas al día.
Sin contratar a nadie.

Lo que nadie te cuenta sobre las campañas outbound con agentes de voz. Stack real, infraestructura SIP, casos de uso con números y los errores que ya he cometido yo para que no los cometas tú.

1.000 Llamadas
en paralelo
24/7 Sin turnos
sin bajas
0% Alucinaciones
en producción
TL;DR — Lee esto primero

Un agente de voz hace 1.000 llamadas en paralelo, 24 horas al día, sin bajas, sin rotación y sin que alguien tenga un mal día y lo destroce todo.

Pero si la infraestructura SIP no aguanta, si la base de datos está sucia o si el diseño conversacional es un script rígido de telemarketing pegado en un prompt, el sistema falla en producción aunque en la demo haya ido perfecto.

Este artículo es para CEOs que necesitan ver números reales. Si ya sabes lo que es un LLM, salta directamente a la sección 4.

Tu equipo comercial lleva tres horas intentando contactar con 80 leads de la campaña de marzo. Han conseguido hablar con 14. De esos 14, cinco no son el interlocutor correcto. Tres han dicho que llamen más tarde. Dos han colgado.

Cuatro conversaciones reales en tres horas. Y mañana tienen que repetirlo.

Esto no es un problema de actitud ni de formación. Es un problema estructural. Las llamadas salientes a escala son, por naturaleza, una actividad que no escala con humanos.

Sección 01

El problema que nadie
llama por su nombre

El coste oculto de las llamadas salientes manuales

El coste no es solo el salario. Es el tiempo perdido marcando números, escuchando el tono de espera, dejando mensajes en buzones que nadie escucha. En equipos de 5 comerciales haciendo outbound, entre el 60 y el 70% del tiempo de trabajo se va en intentos de contacto que no producen ninguna conversación útil.

El número que duele

De media, un comercial dedica el 68% de su tiempo en campañas outbound a intentos fallidos de contacto: marcación, espera, buzón de voz, número incorrecto. Solo el 32% restante produce conversaciones reales. Y de esas, una fracción cierra.

El problema tiene dos caras. La primera: pagas a personas para hacer algo que una máquina puede hacer mejor, más rápido y sin agotarse. La segunda: esos mismos comerciales podrían estar cerrando, no marcando.

Modelo tradicional
  • Máximo 60-80 llamadas por agente y día
  • Calidad de conversación variable según cómo esté el agente ese día
  • Sin datos estructurados de cada llamada
  • Rotación alta en perfiles de telemarketing
  • Solo funciona en horario laboral
Agente de voz con IA
  • Miles de llamadas simultáneas sin techo de escala
  • Conversación consistente en cada llamada, siempre
  • Cada llamada genera datos estructurados automáticamente
  • Sin rotación. Sin bajas. Sin mal día.
  • Opera 24/7. También a las 7 de la mañana.
Sección 02

Qué es una campaña outbound
con agentes de voz

Sin buzzwords. Solo lo que importa.

No es un bot de centralita que lee un script como un robot. Eso existe, y es una pesadilla de experiencia de cliente. Lo que ha cambiado en los últimos dos años es la capacidad de los modelos de lenguaje para mantener una conversación real, adaptarse a lo que dice el interlocutor en tiempo real y responder con coherencia aunque la conversación se desvíe del guion.

Los sistemas anteriores seguían árboles de decisión. Si el cliente dice A, responde B. El árbol tenía 50 ramas y en la 51 el sistema se rompía. Los sistemas actuales entienden la intención y generan una respuesta contextual. No hay árbol. Hay comprensión.

Los cuatro pilares que lo sostienen

Capa de voz 01
Síntesis de voz avanzada (TTS)

Convierte el texto en voz con entonación y pausas naturales. En producción, un porcentaje alto de interlocutores no saben que están hablando con un agente hasta que se les dice.

Capa de IA 02
Modelo de lenguaje (LLM)

El cerebro. Entiende lo que dice el cliente, mantiene el contexto y genera la respuesta adecuada. La calidad depende de cómo se configura: el prompt, las instrucciones y los casos borde.

Capa de red 03
Telefonía IP + SIP

La parte que casi nadie menciona. El agente necesita hacer llamadas reales, con CLIs reales, sobre una red con suficiente capacidad simultánea. Sin esto, el agente no puede llamar a nadie.

Capa de datos 04
Integración CRM + automatización

Cada llamada actualiza el CRM automáticamente: resultado, transcripción, sentimiento, próximo paso. Sin esta capa, el agente llama pero no alimenta el proceso comercial.

Lo que no ves en las demos

La demo siempre funciona. El problema llega en producción cuando el agente tiene que gestionar acentos regionales, ruido de fondo o interlocutores que responden con algo inesperado. El trabajo real está en los casos borde.

Sección 03

Cómo funciona por dentro

Desde que el sistema decide hacer una llamada hasta que actualiza el CRM

Flujo completo — llamada outbound con agente de voz
CRM / Lista Extrae contacto N8N Dispara llamada Retell AI Inicia agente netelip SIP Llama al contacto Conversación en tiempo real — <600ms latencia STT → LLM (Gemini) → TTS (ElevenLabs) → Voz Objetivo logrado Cita agendada / Confirmación Caso complejo Transfiere a humano con contexto Post-call automático Transcripción + sentimiento + actualización CRM + próximo paso — sin intervención humana
Stack en producción

Retell AI (agente de voz) + ElevenLabs turbo v2.5 (voz) + Gemini 2.0 Flash (LLM) + telefonía IP de netelip (SIP) + N8N Cloud (automatización) + Cal.com (agenda) + Gemini 2.5 Flash (análisis post-llamada)

Sección 04

Los casos de uso
que sí funcionan

Los que dan retorno medible en menos de 90 días. No los del blog de la plataforma de turno.

He probado varios. Algunos van muy bien. Otros tienen una pinta brutal en la demo y en producción se desmoronan. Lo que te cuento aquí son los que he visto funcionar con datos reales, en empresas reales del mercado español.

01 Citas

Confirmación de citas

El agente llama 24h antes de la cita, confirma asistencia, gestiona cancelaciones y reprograma directamente en el calendario. Sin intervención humana. Funciona especialmente bien en clínicas, inmobiliarias y academias.

Reducción de no-shows: 40-60%
02 Leads

Seguimiento de leads fríos

Contacto con leads que llevan más de 30 días sin actividad. El agente cualifica, detecta si sigue habiendo interés y transfiere al comercial solo los que responden positivamente.

Tasa de reactivación: 12-18%
03 Cobros

Avisos de pago y renovación

El agente llama antes del vencimiento, informa del importe, ofrece opciones y registra la respuesta. Para cobranzas, funciona mejor que el email en segmentos que no abren la bandeja de entrada.

Reducción de impagados: 25-35%
04 NPS

Encuestas post-servicio

NPS y CSAT conversacional. En lugar de un formulario que nadie rellena, una llamada de 90 segundos donde el cliente cuenta su experiencia.

Tasa de respuesta: x4 vs email
05 Speed

Calificación de leads entrantes

Cuando alguien rellena un formulario web, el agente llama en menos de 60 segundos. La velocidad de contacto es el factor que más impacta en la conversión B2B. Ningún equipo humano puede competir con eso a escala.

Conversión: +30-50% con contacto <60s
06 Recovery

Recuperación de contratos no firmados

El agente detecta cuando un proceso se ha quedado a medias y llama para entender el freno. Sin presión. Escucha. Transfiere si hay oportunidad real.

Recuperación: 8-15% de los abandonos

El caso que más me flipó

Una agencia de contratación que contacta cada mañana con 400 candidatos para confirmar disponibilidad. El agente saluda por nombre, pregunta por preferencias de horario y actualiza el sistema automáticamente.

Lo que antes requería 3 personas y 4 horas ahora ocurre en 20 minutos, antes de que llegue el primer humano a la oficina.

Sección 05

Lo que nadie te dice
antes de empezar

Los problemas reales que aparecen en producción

He visto proyectos de agentes de voz que han tardado seis meses en llegar a producción. Y otros que nunca han llegado. En casi todos los casos, los problemas no eran técnicos. Eran de diseño, de expectativas y de infraestructura.

La normativa no es opcional

Obligatorio antes de arrancar

El interlocutor tiene derecho a saber que está hablando con un sistema automatizado. En España, la normativa obliga a identificarse como IA si se le pregunta directamente. El agente debe saber decirlo y debe poder transferir a un humano cuando el interlocutor lo pida.

Operar sin base de datos limpia y con consentimiento verificado es el error más caro que puedes cometer. No por el coste de la llamada. Por las consecuencias regulatorias.

La infraestructura SIP importa más de lo que parece

Un agente de voz necesita hacer muchas llamadas en paralelo. Cada llamada es un canal SIP activo. Si tu proveedor de telefonía no tiene la capacidad simultánea suficiente, el sistema colapsa en producción aunque en la demo haya funcionado perfectamente.

Métrica Qué mide Umbral crítico Estado
CPS Llamadas iniciadas por segundo. Un valor bajo crea colas y retrasos que rompen la campaña a escala. Mínimo 3-5 CPS para campaña real Verificar
Canales SIP Conversaciones simultáneas máximas. Define el techo real de tu campaña. 1 canal por llamada activa Verificar
ASR Porcentaje de llamadas que el sistema enruta con éxito. ASR bajo indica problemas de routing o lista sucia. Por encima del 70% Verificar
Latencia de audio Tiempo entre que el interlocutor termina de hablar y el agente responde. Por debajo de 800ms Elio: ~600ms

El diseño conversacional no es escribir un script

El error más común: alguien coge un script de telemarketing, lo pega en el prompt del agente y espera que funcione. No funciona. Un script de telemarketing está diseñado para humanos que improvisan. Un agente de voz necesita instrucciones sobre qué hacer cuando la conversación se desvía, no solo sobre el camino principal.

El dato que cambia cómo diseñas

El 40% de las conversaciones en producción se desvían del flujo principal en los primeros 30 segundos. El interlocutor hace una pregunta inesperada, pide que llamen más tarde, dice que no es el contacto correcto, o directamente pregunta si es un robot. Si el agente no sabe gestionar esos cuatro escenarios, la campaña falla.

Sección 06

Resultados reales
de producción

Números de sistemas que están corriendo ahora mismo

No me gustan los casos de estudio de landing page. Lo que te cuento aquí viene de sistemas en producción, con clientes reales, con las complicaciones reales del mercado español.

Elio es mi agente de voz. Lleva meses en producción. Lo que sé sobre cómo funciona esto lo sé porque lo he visto en los logs, en las transcripciones y en los resultados de cada semana.

45% 0% Alucinaciones
inicio → producción
4h 20min Contactar
400 candidatos
base x4 Tasa de respuesta
vs email en encuestas

Elio en producción: de 45% de alucinaciones a 0%

Arrancamos con un 45% de alucinaciones en los primeros tests. Hoy estamos en 0% en producción. Ese número no es el de un benchmark. Es el de llamadas reales, con clientes reales, semana tras semana.

El trabajo que hay detrás: más de 70 palabras en el diccionario de pronunciación, análisis post-llamada con Gemini 2.5 Flash después de cada conversación, y ajustes basados en datos reales, no en intuición.

Caso real — sector inmobiliario

Una base de 2.000 leads que habían pedido información en los últimos 6 meses y nunca habían llegado a una visita. El equipo comercial los había abandonado porque el tiempo de contacto no era rentable.

El agente llamó a toda la base en 48 horas, cualificó el interés y agendó visitas directamente en el calendario del asesor. Resultado: 87 visitas agendadas sin que ningún humano hubiera hecho una sola llamada. El equipo recibió 87 citas con contexto completo. Solo tuvieron que presentarse.

Sección 07

Por dónde empezar

La secuencia que funciona. Sin saltarse pasos.

Lo más caro no es montar el agente. Lo más caro es montarlo mal y tener que desmontarlo. Antes de escribir una sola línea de prompt, hay que hacer esto.

01
Define el caso de uso concreto No "hacer outbound". Sino "confirmar citas de los leads que han pedido demo en los últimos 7 días y no han respondido al email". Cuanto más específico, mejor funciona el agente.
02
Limpia y valida la base de datos Teléfonos verificados, consentimiento documentado, segmentación clara. Una lista sucia en una campaña de 1.000 llamadas es un problema multiplicado por 1.000. La LOPD no es opcional.
03
Asegura la infraestructura SIP Verifica que tienes los canales simultáneos necesarios, el CPS adecuado y un CLI limpio. Sin esto, la campaña no despega aunque el agente funcione perfectamente.
04
Diseña el flujo con los casos borde Escribe el camino principal. Luego escribe qué hace el agente en los cuatro escenarios que siempre aparecen: "no soy yo", "llame más tarde", "¿es usted un robot?", "no me interesa".
05
Prueba con volumen bajo primero Las primeras 50 llamadas son para aprender, no para escalar. Escucha las transcripciones. Mira dónde se rompe la conversación. Ajusta el prompt. Cuando funciona a 50, se sube a 500.
06
Supervisa antes de soltarlo Primero lo supervisamos nosotras. Y cuando funciona, lo dejamos volar. Esta es la regla que no me rompo: ningún agente entra en producción sin que alguien haya validado las primeras llamadas en tiempo real.
Stack para empezar

Retell AI (agente de voz) + ElevenLabs (voz custom) + Gemini Flash (LLM) + telefonía IP de netelip (SIP, operador licenciado en España) + N8N Cloud (automatización) + HubSpot free (CRM)

La pregunta que siempre hago antes de arrancar

¿Si este agente comete un error en el 2% de las llamadas, cuánto daño produce? Si la respuesta es "mínimo, lo gestiona el humano", adelante. Si la respuesta es "destroza la relación con el cliente", necesitamos más trabajo de diseño antes de lanzar.

El agente no es perfecto. El diseño del sistema tiene que contemplar el error, no ignorarlo.

Cada semana, desde las trincheras

Casos reales, errores documentados y lo que funciona de verdad en IA aplicada a negocio.

Sin teoría. Sin hype. Desde producción.

¿Montando agentes
de voz con IA?

Estoy en las trincheras todos los días. Si tienes dudas específicas
o quieres contrastar tu approach, hablemos.

Escríbeme directo. Sin formularios. Sin intermediarios.
Si tienes proyecto, dame contexto. Si no encajamos, te lo digo.

Trabajo diferente porque pienso diferente.

Sistemas que funcionan 24/7.

Mis reglas. Tus resultados.