Agentes de voz con IA: de un 45% a 0 alucinaciones en producción real

SECCIÓN 01

Por qué las llamadas automatizadas ya no son el futuro

Llevan años diciéndote que "la IA transformará la atención al cliente". Mientras tanto, yo la estoy usando. Esto es lo que veo desde dentro.

He visto pasar tecnologías que prometían revolucionar cómo hablan las empresas con sus clientes: IVRs, centralitas virtuales, chatbots de texto, asistentes con scripts rígidos que nadie aguantaba más de 20 segundos.

Ninguna cumplió lo que prometía. O eran demasiado caras para implantarlas bien, o demasiado torpes para que el cliente las aguantara, o las dos cosas a la vez.

Los agentes de voz con IA son diferentes. No lo digo por entusiasmo. Lo digo porque llevamos varios en producción para distintas industrias, y vemos los números.

La diferencia esta vez es la conversación real. No un árbol de decisiones disfrazado de IA. No un script con variantes. Una conversación que entiende lo que dice el cliente, gestiona interrupciones, recuerda lo que se ha dicho antes en la misma llamada y actúa sobre sistemas reales en tiempo real.

Lo que ha cambiado en los últimos 18 meses es la convergencia de tres cosas que antes no coexistían: modelos de lenguaje suficientemente buenos para conversación real, síntesis de voz que ya no suena a robot, y plataformas que conectan todo eso con la telefonía sin necesidad de un equipo de ingeniería de cinco personas.

El resultado: una empresa puede tener un agente de voz operativo en días, no en meses. Y el coste de operación por llamada ha caído tan rápido en el último año que la ecuación financiera ya no es un debate.

Ojo con esto

Lo que acabo de describir aplica cuando se implementa bien. Un agente de voz mal configurado, con un prompt genérico y sin integración real con los sistemas de la empresa, es peor que no tener nada. El cliente cuelga frustrado y la empresa pierde más confianza que si hubiera contestado un humano. La tecnología no perdona la implementación chapucera.

Lo que vais a leer en este artículo no es teoría de sector. Es lo que hemos aprendido construyendo agentes de voz en producción para distintas industrias: desde Elio, que gestiona llamadas entrantes, cualifica leads y agenda citas, hasta agentes específicos para clínicas, agencias y empresas de servicios. Con errores reales, iteraciones reales y números reales.

SECCIÓN 02

Cómo funciona un agente de voz por dentro

Sin simplificaciones de marketing. El stack real, capa por capa, con los nombres de los componentes que importan.

Cuando alguien te habla de un agente de voz con IA, en realidad te está hablando de cuatro tecnologías trabajando en secuencia, en tiempo real, con latencia medida en milisegundos. Si falla cualquiera de las capas, la conversación se rompe.

Este es el ciclo completo de lo que pasa en cada turno de conversación:

STT

Speech to Text

La voz del cliente se convierte en texto

→

Deepgram / Retell nativo

~200ms latencia objetivo

LLM

Modelo de lenguaje

El texto llega al cerebro del agente

→

Gemini 2.0 Flash

Genera la respuesta según el prompt

TOOLS

Acciones en tiempo real

El agente actúa sobre sistemas externos

→

Cal.com · N8N · CRM

Durante la llamada, no después

TTS

Text to Speech

La respuesta se convierte en voz

→

ElevenLabs

La voz que escucha el cliente

El stack concreto: Retell AI como orquestador, Gemini 2.0 Flash como LLM, ElevenLabs para la voz y telefonía IP de netelip. La capa de automatización la resolvemos con N8N o con código propio según la complejidad del proyecto: N8N cuando hay que moverse rápido y prototipar flujos, código cuando el proyecto necesita control total y la lógica es compleja.

Lo del LLM merece un aparte. Llevamos meses probando Gemini 2.0 Flash y los resultados en conversación telefónica real son notablemente mejores que con ChatGPT: latencia más baja, mejor seguimiento del contexto dentro de la llamada y menos alucinaciones en flujos con muchas instrucciones. No es teoría. Son transcripciones reales comparadas lado a lado.

¿Por qué este stack y no otro? Cada pieza tiene su razón de ser.

POR QUÉ NO ALGO MÁS SIMPLE

POR QUÉ ESTE STACK

Hay plataformas todo-en-uno que prometen montar un agente en 10 minutos. En producción, esas plataformas tienen el techo bajo: no controlas el LLM, no controlas la voz, no controlas las integraciones. Cuando algo falla, estás atrapado.

Control total sobre cada capa. Si el modelo mejora, lo cambiamos. Si la voz no convence, la sustituimos. Si necesitamos una integración que no existe, la construimos con N8N o con código. Cada decisión es nuestra.

Un agente sin integración real con los sistemas de la empresa es un contestador automático caro. No agenda, no actualiza CRM, no envía SMS de confirmación. Solo habla.

Nuestros agentes actúan durante la llamada: agendan, disparan flujos, transfieren a humano cuando toca. La integración no es opcional, es lo que hace útil al agente. Y la telefonía IP de netelip garantiza que la llamada llega al agente con la calidad y fiabilidad que una conversación real necesita.

Nota de producción

La latencia es el enemigo silencioso de los agentes de voz. Por encima de 800ms entre que el cliente termina de hablar y el agente responde, la conversación se vuelve incómoda. Por encima de 1200ms, el cliente empieza a repetir lo que ha dicho pensando que no se ha escuchado. Mide la latencia end-to-end en tu configuración específica antes de lanzar a producción. Los números del marketing de las plataformas miden en condiciones de laboratorio.

SECCIÓN 03

Dónde funciona. Y dónde no.

Los sectores donde he visto que los agentes de voz aportan valor real. Y los casos donde siguen necesitando a un humano delante.

Hay un catálogo de casos de uso que todo el mundo repite cuando habla de agentes de voz con IA: atención al cliente, reservas de citas, cualificación de leads, cobertura 24/7. Todo correcto. Todo real.

Pero lo que nadie te cuenta es en qué sectores el ROI aparece rápido y en cuáles el agente necesita más trabajo para llegar a ser útil en producción.

Lo que sabemos viene de tener agentes corriendo en producción para distintos sectores y de años viendo cómo la telefonía funciona o no en distintas industrias.

Inmobiliario y PropTech

Cualificación de leads entrantes, gestión de visitas, seguimiento de interesados. El volumen de llamadas es alto y la mayoría son consultas repetitivas que no necesitan un agente humano.

ROI rápido

Clínicas dentales y estética

Gestión de citas, confirmaciones, recordatorios. Las clínicas pierden entre un 15% y un 25% de las llamadas entrantes porque la recepcionista está con otro paciente. El agente no pierde ninguna.

ROI rápido

Agencias de viaje y hostelería

Consultas de disponibilidad, reservas, gestión de cambios. Especialmente valioso en cobertura nocturna y fines de semana, cuando el equipo no está.

Alto volumen

VTC y taxi

Reservas, confirmaciones, seguimiento de servicio. El cliente llama, quiere respuesta inmediata, y el modelo de negocio aguanta perfectamente la automatización de la primera interacción.

Inmediatez crítica

Asesorías y despachos

Gestión de primera consulta, recogida de información inicial, agenda con el asesor. El agente hace el trabajo de clasificación que libera tiempo del profesional para el trabajo de valor.

Cualificación

Administración de fincas

Incidencias, consultas, seguimiento de avisos. Funciona bien para el primer contacto y el registro de la incidencia. Necesita integración robusta con el software de gestión.

Integración clave

Dónde no funciona todavía

Conversaciones que requieren juicio complejo, negociación de precios fuera de rangos predefinidos, gestión de clientes muy enfadados en situaciones delicadas, o cualquier proceso donde la decisión humana sea legalmente obligatoria. Un agente de voz mal usado en estos casos daña más de lo que ayuda. La clave es saber cuándo transferir al humano, y que esa transferencia sea limpia y sin fricciones para el cliente.

SECCIÓN 04

El proceso de construcción real

Del prompt vacío a producción. Lo que ocurre entre medias no sale en los demos de 5 minutos.

Todos los demos de agentes de voz con IA son perfectos. El agente responde exactamente lo que debería, el cliente dice exactamente lo que se espera, y la llamada acaba en 90 segundos con el objetivo cumplido.

La producción no funciona así.

En la primera versión de Elio, el 45% de las respuestas contenían algún tipo de alucinación: información inventada, referencias a datos que no existían, confirmaciones de acciones que el agente no había ejecutado realmente. Inaceptable para una llamada real con un cliente real.

Llegar a 0 no fue cuestión de cambiar el modelo. Fue cuestión de entender por qué fallaba y atacar cada causa de forma sistemática: prompt mal estructurado, integraciones que devolvían datos inconsistentes, flujos sin manejo de excepciones. Cada fallo analizado en transcripciones reales. Y ese proceso lo hemos repetido en cada agente que hemos puesto en producción después.

Descubrimiento: antes de escribir una línea de prompt

Definir exactamente qué hace el agente, qué no hace, y dónde transfiere al humano. Sin esta claridad, el prompt fallará. El agente necesita saber qué información tiene de antemano, qué información tiene que recoger, y en qué orden. Sin esto, improvisa. Y la improvisación en voz es donde aparecen las alucinaciones.

El prompt: estructura no negociable

Rol claro, personalidad definida, instrucciones de comportamiento específicas, fases de la conversación explícitas, manejo de excepciones documentado. Voz no es texto. El prompt para un agente de voz tiene reglas que no aplican al chat: una pregunta por turno, cómo leer números y emails en voz alta, cómo gestionar la latencia y los mensajes incompletos.

Las integraciones: donde vive el valor real

Un agente que solo habla es un contestador automático caro. Las integraciones son lo que lo convierte en útil: agenda durante la llamada, dispara un webhook cuando hay que crear un registro en CRM, transfiere con contexto cuando el humano tiene que coger el hilo. La capa de automatización la resolvemos con N8N o con código propio según la complejidad del proyecto.

Testing con transcripciones reales

La única forma de saber si el agente funciona es escuchar las llamadas y leer las transcripciones. No las llamadas perfectas. Las que fallan. Los errores de transcripción de STT, las interrupciones del cliente, las preguntas fuera de guión. Lo que parece funcionar en un test controlado se rompe con el primer cliente real. Itera con transcripciones, no con intuición.

Producción: monitoriza o estás ciego

En producción el agente interactúa con clientes reales que dicen cosas que no habías anticipado. Necesitas métricas: tasa de llamadas completadas sin transferencia, tasa de alucinaciones, duración media de llamada, puntos de abandono. Sin datos, no puedes mejorar lo que no ves. Y lo que no mejoras, eventualmente falla en el momento menos oportuno.

El error que más veces he visto

Intentar meter demasiado en un solo agente. Un agente que cualifica leads, gestiona incidencias, hace seguimiento post-venta y responde FAQs técnicas es un agente que no hace nada bien. Empieza con un caso de uso concreto, un flujo claro y unas métricas de éxito definidas. Cuando ese flujo funcione en producción, piensa en el siguiente.

SECCIÓN 05

Las integraciones que marcan la diferencia

Sin integración, un agente de voz es conversación vacía. Con integración, es un miembro del equipo que actúa.

Hay dos tipos de agentes de voz en producción. Los que hablan y los que actúan.

Un agente que solo habla puede resolver dudas, dar información, filtrar llamadas. Es útil. Pero el salto de valor real ocurre cuando el agente actúa sobre sistemas reales durante la llamada: agenda una cita, registra un lead en el CRM, envía un SMS de confirmación, transfiere con el contexto completo al humano que va a continuar la conversación.

Estas son las integraciones que he implementado en Elio y por qué cada una importa:

Cal.com para agendado en tiempo real. El cliente dice que quiere una cita, el agente consulta disponibilidad y agenda durante la llamada. El cliente cuelga con la cita confirmada, no con la promesa de que alguien le llamará. Esa diferencia en la experiencia del cliente es enorme.
N8N o código para la automatización post-llamada. Cuando la llamada termina, hay que procesar los datos recogidos y distribuirlos: crear el registro en CRM, enviar el SMS de confirmación al cliente, notificar al equipo si hay algo que gestionar. Usamos N8N cuando hay que moverse rápido y la lógica es estándar, y código propio cuando el proyecto necesita control total sobre el flujo. El agente no necesita saber cómo funciona cada sistema, solo tiene que pasar la información correcta.
Transferencia con contexto. Cuando el agente transfiere al humano, el humano recibe un resumen de la conversación: nombre del cliente, motivo de la llamada, información recogida. Sin ese contexto, el cliente tiene que repetir todo desde el principio. Eso es lo que convierte una transferencia en una experiencia frustrante.
Base de conocimiento dinámica. El agente consulta información actualizada: horarios, precios, disponibilidad, FAQs. Sin esto, cualquier cambio en la empresa requiere actualizar el prompt del agente manualmente. Con esto, el agente siempre tiene información correcta sin tocar el prompt.

Lo que nadie te dice de las integraciones

Las integraciones son el 20% del trabajo y el 80% del tiempo. Conectar el agente a Cal.com parece sencillo hasta que te encuentras con que los horarios tienen excepciones que no están en la API, o que el cliente quiere una franja que el sistema marca como disponible pero el equipo tiene bloqueada por otra razón. Planifica el tiempo de integración multiplicando tu estimación inicial por tres. No es pesimismo, es experiencia.

SECCIÓN 06

Lo que debes saber antes de empezar

Costes reales, tiempos reales, preguntas que tienes que hacerte antes de comprometerte con un proveedor.

El mayor problema que veo cuando alguien llega con "quiero montar un agente de voz" es que no ha hecho las preguntas correctas antes de empezar. Y esas preguntas afectan directamente a cuánto va a costar, cuánto va a tardar y si va a funcionar cuando llegue a producción.

Componente	Coste aproximado	Lo que debes saber
Plataforma orquestadora (Retell AI)	Desde ~0,05€/min de llamada	El precio varía por volumen y modelo LLM elegido. Calcula bien tu volumen de llamadas mensual antes de comprometerte.
LLM (GPT-4.1)	Por tokens consumidos	Una llamada de 3 minutos puede consumir entre 2.000 y 8.000 tokens dependiendo de la complejidad. El coste ha bajado significativamente en el último año.
Síntesis de voz (ElevenLabs)	Por caracteres generados	La calidad de voz impacta directamente en la percepción del cliente. No escatimes aquí. Una voz robótica rompe la experiencia aunque el agente sea perfecto.
Telefonía IP	Variable según proveedor	Si ya tienes telefonía IP, añadir el agente es una integración. Si partes de cero, añade el coste de número de teléfono y troncal SIP.
Tiempo de implementación	2 semanas mínimo	De un agente simple con flujo básico. Con integraciones complejas y testing exhaustivo: 4-8 semanas. Los demos de "montado en una hora" no incluyen producción.
Mantenimiento	Continuo	Un agente de voz no se monta y se olvida. Las transcripciones hay que analizarlas, el prompt hay que ajustarlo, las integraciones hay que mantenerlas. Planifica tiempo de operación.

Las preguntas que tienes que hacerte antes de contratar a nadie

¿Cuál es el caso de uso concreto? No "atención al cliente". ¿Qué tipo de llamadas? ¿Qué información recoge? ¿Qué acción ejecuta? Sin esto, no puedes dimensionar ni presupuestar.

¿Qué sistemas necesita tocar el agente? CRM, agenda, sistema de gestión, base de datos. Cada integración tiene coste de tiempo. Y algunas APIs no están preparadas para ser consumidas en tiempo real.

¿Cuál es el volumen de llamadas mensual? El modelo de costes cambia completamente según el volumen. Lo que es caro a 200 llamadas/mes es barato a 2.000. Y al revés: algunos proveedores tienen costes fijos que no tienen sentido con poco volumen.

¿Quién va a mantenerlo? Un agente sin mantenimiento se degrada. Las transcripciones hay que analizarlas. El prompt hay que ajustarlo. Necesitas a alguien responsable de la operación continua, no solo del lanzamiento.

¿Qué pasa cuando el agente no sabe qué decir? La política de transferencia al humano es tan importante como el flujo principal. Si el agente se queda bloqueado o dice algo incorrecto y no hay salida limpia, el cliente cuelga enfadado.

Nuestra forma de trabajar es directa: si tu caso de uso encaja con lo que sabemos hacer, te lo decimos. Si no encaja, también. Pagas, entregamos, funciona. Sin intermediarios, sin promesas que no podemos cumplir, sin demos que no reflejan la producción real.

Si estás pensando en implementar un agente de voz y quieres contrastar tu caso antes de comprometerte con nada, hablamos.

Agentes de voz con IA:
de un 45% a 0 alucinaciones en producción real

La oportunidad real

El stack que funciona

Lo que el demo no muestra

Por qué las llamadas automatizadas ya no son el futuro

Cómo funciona un agente de voz por dentro

Dónde funciona. Y dónde no.

El proceso de construcción real

Las integraciones que marcan la diferencia

Lo que debes saber antes de empezar

¿Montando un agente de voz?

¿Tienes un proyecto
de voz con IA?

La oportunidad real

El stack que funciona

Lo que el demo no muestra

Por qué las llamadas automatizadas ya no son el futuro

Cómo funciona un agente de voz por dentro

Dónde funciona. Y dónde no.

El proceso de construcción real

Las integraciones que marcan la diferencia

Lo que debes saber antes de empezar

¿Montando un agente de voz?

¿Tienes un proyectode voz con IA?

¿Tienes un proyecto
de voz con IA?