Por qué las llamadas automatizadas ya no son el futuro
Llevan años diciéndote que "la IA transformará la atención al cliente". Mientras tanto, yo la estoy usando. Esto es lo que veo desde dentro.
He visto pasar tecnologías que prometían revolucionar cómo hablan las empresas con sus clientes: IVRs, centralitas virtuales, chatbots de texto, asistentes con scripts rígidos que nadie aguantaba más de 20 segundos.
Ninguna cumplió lo que prometía. O eran demasiado caras para implantarlas bien, o demasiado torpes para que el cliente las aguantara, o las dos cosas a la vez.
Los agentes de voz con IA son diferentes. No lo digo por entusiasmo. Lo digo porque llevamos varios en producción para distintas industrias, y vemos los números.
La diferencia esta vez es la conversación real. No un árbol de decisiones disfrazado de IA. No un script con variantes. Una conversación que entiende lo que dice el cliente, gestiona interrupciones, recuerda lo que se ha dicho antes en la misma llamada y actúa sobre sistemas reales en tiempo real.
Lo que ha cambiado en los últimos 18 meses es la convergencia de tres cosas que antes no coexistían: modelos de lenguaje suficientemente buenos para conversación real, síntesis de voz que ya no suena a robot, y plataformas que conectan todo eso con la telefonía sin necesidad de un equipo de ingeniería de cinco personas.
El resultado: una empresa puede tener un agente de voz operativo en días, no en meses. Y el coste de operación por llamada ha caído tan rápido en el último año que la ecuación financiera ya no es un debate.
Lo que acabo de describir aplica cuando se implementa bien. Un agente de voz mal configurado, con un prompt genérico y sin integración real con los sistemas de la empresa, es peor que no tener nada. El cliente cuelga frustrado y la empresa pierde más confianza que si hubiera contestado un humano. La tecnología no perdona la implementación chapucera.
Lo que vais a leer en este artículo no es teoría de sector. Es lo que hemos aprendido construyendo agentes de voz en producción para distintas industrias: desde Elio, que gestiona llamadas entrantes, cualifica leads y agenda citas, hasta agentes específicos para clínicas, agencias y empresas de servicios. Con errores reales, iteraciones reales y números reales.
Cómo funciona un agente de voz por dentro
Sin simplificaciones de marketing. El stack real, capa por capa, con los nombres de los componentes que importan.
Cuando alguien te habla de un agente de voz con IA, en realidad te está hablando de cuatro tecnologías trabajando en secuencia, en tiempo real, con latencia medida en milisegundos. Si falla cualquiera de las capas, la conversación se rompe.
Este es el ciclo completo de lo que pasa en cada turno de conversación:
El stack concreto: Retell AI como orquestador, Gemini 2.0 Flash como LLM, ElevenLabs para la voz y telefonía IP de netelip. La capa de automatización la resolvemos con N8N o con código propio según la complejidad del proyecto: N8N cuando hay que moverse rápido y prototipar flujos, código cuando el proyecto necesita control total y la lógica es compleja.
Lo del LLM merece un aparte. Llevamos meses probando Gemini 2.0 Flash y los resultados en conversación telefónica real son notablemente mejores que con ChatGPT: latencia más baja, mejor seguimiento del contexto dentro de la llamada y menos alucinaciones en flujos con muchas instrucciones. No es teoría. Son transcripciones reales comparadas lado a lado.
¿Por qué este stack y no otro? Cada pieza tiene su razón de ser.
La latencia es el enemigo silencioso de los agentes de voz. Por encima de 800ms entre que el cliente termina de hablar y el agente responde, la conversación se vuelve incómoda. Por encima de 1200ms, el cliente empieza a repetir lo que ha dicho pensando que no se ha escuchado. Mide la latencia end-to-end en tu configuración específica antes de lanzar a producción. Los números del marketing de las plataformas miden en condiciones de laboratorio.
Dónde funciona. Y dónde no.
Los sectores donde he visto que los agentes de voz aportan valor real. Y los casos donde siguen necesitando a un humano delante.
Hay un catálogo de casos de uso que todo el mundo repite cuando habla de agentes de voz con IA: atención al cliente, reservas de citas, cualificación de leads, cobertura 24/7. Todo correcto. Todo real.
Pero lo que nadie te cuenta es en qué sectores el ROI aparece rápido y en cuáles el agente necesita más trabajo para llegar a ser útil en producción.
Lo que sabemos viene de tener agentes corriendo en producción para distintos sectores y de años viendo cómo la telefonía funciona o no en distintas industrias.
Conversaciones que requieren juicio complejo, negociación de precios fuera de rangos predefinidos, gestión de clientes muy enfadados en situaciones delicadas, o cualquier proceso donde la decisión humana sea legalmente obligatoria. Un agente de voz mal usado en estos casos daña más de lo que ayuda. La clave es saber cuándo transferir al humano, y que esa transferencia sea limpia y sin fricciones para el cliente.
El proceso de construcción real
Del prompt vacío a producción. Lo que ocurre entre medias no sale en los demos de 5 minutos.
Todos los demos de agentes de voz con IA son perfectos. El agente responde exactamente lo que debería, el cliente dice exactamente lo que se espera, y la llamada acaba en 90 segundos con el objetivo cumplido.
La producción no funciona así.
En la primera versión de Elio, el 45% de las respuestas contenían algún tipo de alucinación: información inventada, referencias a datos que no existían, confirmaciones de acciones que el agente no había ejecutado realmente. Inaceptable para una llamada real con un cliente real.
Llegar a 0 no fue cuestión de cambiar el modelo. Fue cuestión de entender por qué fallaba y atacar cada causa de forma sistemática: prompt mal estructurado, integraciones que devolvían datos inconsistentes, flujos sin manejo de excepciones. Cada fallo analizado en transcripciones reales. Y ese proceso lo hemos repetido en cada agente que hemos puesto en producción después.
Intentar meter demasiado en un solo agente. Un agente que cualifica leads, gestiona incidencias, hace seguimiento post-venta y responde FAQs técnicas es un agente que no hace nada bien. Empieza con un caso de uso concreto, un flujo claro y unas métricas de éxito definidas. Cuando ese flujo funcione en producción, piensa en el siguiente.
Las integraciones que marcan la diferencia
Sin integración, un agente de voz es conversación vacía. Con integración, es un miembro del equipo que actúa.
Hay dos tipos de agentes de voz en producción. Los que hablan y los que actúan.
Un agente que solo habla puede resolver dudas, dar información, filtrar llamadas. Es útil. Pero el salto de valor real ocurre cuando el agente actúa sobre sistemas reales durante la llamada: agenda una cita, registra un lead en el CRM, envía un SMS de confirmación, transfiere con el contexto completo al humano que va a continuar la conversación.
Estas son las integraciones que he implementado en Elio y por qué cada una importa:
- Cal.com para agendado en tiempo real. El cliente dice que quiere una cita, el agente consulta disponibilidad y agenda durante la llamada. El cliente cuelga con la cita confirmada, no con la promesa de que alguien le llamará. Esa diferencia en la experiencia del cliente es enorme.
- N8N o código para la automatización post-llamada. Cuando la llamada termina, hay que procesar los datos recogidos y distribuirlos: crear el registro en CRM, enviar el SMS de confirmación al cliente, notificar al equipo si hay algo que gestionar. Usamos N8N cuando hay que moverse rápido y la lógica es estándar, y código propio cuando el proyecto necesita control total sobre el flujo. El agente no necesita saber cómo funciona cada sistema, solo tiene que pasar la información correcta.
- Transferencia con contexto. Cuando el agente transfiere al humano, el humano recibe un resumen de la conversación: nombre del cliente, motivo de la llamada, información recogida. Sin ese contexto, el cliente tiene que repetir todo desde el principio. Eso es lo que convierte una transferencia en una experiencia frustrante.
- Base de conocimiento dinámica. El agente consulta información actualizada: horarios, precios, disponibilidad, FAQs. Sin esto, cualquier cambio en la empresa requiere actualizar el prompt del agente manualmente. Con esto, el agente siempre tiene información correcta sin tocar el prompt.
Las integraciones son el 20% del trabajo y el 80% del tiempo. Conectar el agente a Cal.com parece sencillo hasta que te encuentras con que los horarios tienen excepciones que no están en la API, o que el cliente quiere una franja que el sistema marca como disponible pero el equipo tiene bloqueada por otra razón. Planifica el tiempo de integración multiplicando tu estimación inicial por tres. No es pesimismo, es experiencia.
Lo que debes saber antes de empezar
Costes reales, tiempos reales, preguntas que tienes que hacerte antes de comprometerte con un proveedor.
El mayor problema que veo cuando alguien llega con "quiero montar un agente de voz" es que no ha hecho las preguntas correctas antes de empezar. Y esas preguntas afectan directamente a cuánto va a costar, cuánto va a tardar y si va a funcionar cuando llegue a producción.
| Componente | Coste aproximado | Lo que debes saber |
|---|---|---|
| Plataforma orquestadora (Retell AI) |
Desde ~0,05€/min de llamada | El precio varía por volumen y modelo LLM elegido. Calcula bien tu volumen de llamadas mensual antes de comprometerte. |
| LLM (GPT-4.1) |
Por tokens consumidos | Una llamada de 3 minutos puede consumir entre 2.000 y 8.000 tokens dependiendo de la complejidad. El coste ha bajado significativamente en el último año. |
| Síntesis de voz (ElevenLabs) |
Por caracteres generados | La calidad de voz impacta directamente en la percepción del cliente. No escatimes aquí. Una voz robótica rompe la experiencia aunque el agente sea perfecto. |
| Telefonía IP | Variable según proveedor | Si ya tienes telefonía IP, añadir el agente es una integración. Si partes de cero, añade el coste de número de teléfono y troncal SIP. |
| Tiempo de implementación | 2 semanas mínimo | De un agente simple con flujo básico. Con integraciones complejas y testing exhaustivo: 4-8 semanas. Los demos de "montado en una hora" no incluyen producción. |
| Mantenimiento | Continuo | Un agente de voz no se monta y se olvida. Las transcripciones hay que analizarlas, el prompt hay que ajustarlo, las integraciones hay que mantenerlas. Planifica tiempo de operación. |
Nuestra forma de trabajar es directa: si tu caso de uso encaja con lo que sabemos hacer, te lo decimos. Si no encaja, también. Pagas, entregamos, funciona. Sin intermediarios, sin promesas que no podemos cumplir, sin demos que no reflejan la producción real.
Si estás pensando en implementar un agente de voz y quieres contrastar tu caso antes de comprometerte con nada, hablamos.