8 ABRIL 2026
TELEFONÍA + IA — GUÍA TÉCNICA

Tu agente de voz puede hacer mil llamadas.
Tu red, no

SIP trunks, canales, CPS, Erlang, ASR y ACD. Todo lo que hay debajo de una campaña outbound con agentes de voz.

Resumen ejecutivo
01

Los límites reales

La IA escala casi infinito. La telefonía no. SIP trunks, canales y CPS son los tres cuellos de botella que nadie del mundo IA te cuenta.

02

Cómo dimensionar

Erlang, regla rápida y ejemplo real con números. Cómo calcular cuántos canales necesitas antes de lanzar ni una sola llamada.

03

La arquitectura correcta

Cola de llamadas, controlador de CPS, workers y la capa de telefonía IP de netelip. Cuatro capas que evitan que todo explote.

04

Métricas que importan

ASR y ACD. Las dos métricas que te dicen si la campaña funciona, si la base de datos es basura, o si tu CLI está marcado como spam.

3
Límites reales
de la telefonía
60%
ASR saludable
en outbound
3-4 min
ACD objetivo
por llamada
403/503
Errores SIP cuando
la red se satura
Índice del artículo
SECCIÓN 01

El error que comete casi todo el mundo

Cuando la IA promete escala infinita y la telefonía dice que no.

"Mi sistema puede hacer miles de llamadas simultáneas."

Lo escucho constantemente. Y cada vez que alguien lo dice, sé que no ha tocado nunca la infraestructura de telefonía real. Porque desde el punto de vista de la IA, es técnicamente posible. Desde el punto de vista de la telefonía, es completamente incorrecto.

Plataformas como Retell AI o ElevenLabs están diseñadas para escalar en la nube. Cada llamada es un stream de audio, el modelo de lenguaje procesa texto, y en teoría el sistema podría gestionar cientos o miles de sesiones WebRTC de forma simultánea.

El problema es que una sesión WebRTC no es lo mismo que una llamada telefónica real.

Cuando una llamada tiene que llegar a un número de teléfono real, entran en juego elementos que tienen límites físicos y regulatorios: SIP trunks, gateways PSTN, operadores intermedios, sistemas antifraude y antispam de carriers. Cada uno de esos elementos tiene su propio techo de tráfico.

Cuando se supera ese techo

Llamadas que no se completan, rutas bloqueadas, errores SIP 403 o 503, y en casos graves, el CLI marcado como sospechoso por los operadores. Y eso no se arregla con un reinicio.

SECCIÓN 02

Los tres límites reales de la telefonía

Lo que los ingenieros de tráfico saben desde hace décadas y el mundo de la IA ignora.

El SIP trunk

El SIP trunk es el canal de comunicación que conecta la infraestructura de voz IP con la red telefónica pública (PSTN). Es el punto de entrada y salida de todas las llamadas. No es infinito: tiene una capacidad máxima de llamadas simultáneas definida en el momento de la contratación, y está sujeto a las políticas del operador que lo proporciona.

Los canales (concurrencia real)

Los canales salientes determinan cuántas llamadas pueden estar activas al mismo tiempo. Esta es la definición real de concurrencia en telefonía, y es un número concreto, no una abstracción.

30
Canales
30 llamadas simultáneas
60
Canales
60 llamadas simultáneas
120
Canales
120 llamadas simultáneas
Límite duro

Cuando un sistema de IA intenta abrir más llamadas de las que permiten los canales disponibles, las llamadas adicionales se rechazan o quedan en espera. No hay degradación gradual: el límite es duro.

El CPS (Calls Per Second)

El CPS es la velocidad a la que se pueden iniciar llamadas nuevas, medida en llamadas por segundo. Es el segundo gran limitador, independiente del número de canales disponibles. Un sistema puede tener 100 canales disponibles y aun así no poder lanzar 100 llamadas de golpe si el CPS configurado es 5.

CPSTipo de campañaSeñal para el operador
2-3 CPSTráfico bajo / pruebasNormal, sin alarmas
5 CPSCampañas estándarAceptable con buena configuración
10+ CPSCampañas grandesRequiere whitelist y coordinación previa
>20 CPSRiesgo altoPosible bloqueo o throttling del carrier
SECCIÓN 03

Cómo calcular cuántos canales necesitas

Dos métodos: Erlang para ingenieros, regla rápida para todo el mundo.

El tráfico Erlang

El Erlang es la unidad estándar en telecomunicaciones para medir el volumen de tráfico. Un Erlang equivale a un canal ocupado continuamente durante una hora.

Fórmula Erlang
Tráfico (Erlang) = llamadas/hora x duración media (en horas)
Ejemplo: 22,5 llamadas/hora x 0,067 horas = 1,5 Erlang
Tráfico (Erlang)Canales recomendadosEjemplo de uso
1 Erlang5 canalesCliente pequeño, pocas llamadas/hora
5 Erlang15 canalesCampaña media, volumen moderado
10 Erlang25 canalesCampaña activa, varios agentes
20 Erlang40 canalesCampaña grande, alto volumen

La regla rápida

Para dimensionamiento rápido sin hacer el cálculo Erlang completo, esta aproximación funciona bien para conversaciones con clientes y estimaciones iniciales.

Regla rápida
Concurrencia ≈ CPS x duración llamada (segundos) / 60
Ejemplo: 5 CPS x 240 segundos / 60 = 20 llamadas simultáneas
SECCIÓN 04

Ejemplo real con números

Un cliente, una campaña, tres pasos. Así se dimensiona.

3.500
Llamadas
al mes
180
Llamadas
al día
8h
Jornada
operativa
4 min
Duración
media
PASO 1
Llamadas por hora
180 llamadas / 8 horas = 22,5 llamadas por hora
PASO 2
Tráfico Erlang
22,5 x (4/60) = 22,5 x 0,067 ≈ 1,5 Erlang
PASO 3
Canales necesarios
1,5 x 3 (margen estándar) ≈ 5 canales suficientes. Con 30 canales, este cliente tiene margen enorme.
Por qué se empieza con 30 canales

Aunque la campaña solo necesita 5 canales, arrancar con 30 es la práctica correcta. Da margen para picos de tráfico, reintentos, aumento futuro de volumen y campañas paralelas. Dimensionar al mínimo es el camino más corto hacia los problemas.

No es una campaña grande. El único escenario problemático sería si el sistema lanzara las 180 llamadas diarias en un intervalo muy corto, lo que dispararía el CPS a valores que activarían las protecciones del operador.

SECCIÓN 05

Qué ocurre cuando no controlas el tráfico

Los carriers no perdonan. Y los agentes de IA sin control son los primeros en activar las alarmas.

Los carriers y operadores tienen sistemas automáticos que detectan patrones de tráfico anómalos. Los agentes de voz con IA son especialmente susceptibles a activar estas detecciones si no se configuran correctamente, porque el sistema es automático y puede lanzar llamadas muy rápido sin ningún tipo de control humano.

Patrones que activan las alarmas

Los sistemas antifraude no analizan solo el volumen. Analizan la regularidad y la forma del tráfico.

Tráfico sano
3 CPS, 3 CPS, 3 CPS, 3 CPS. Flujo regular y predecible.
Tráfico sospechoso
0 CPS, 0 CPS, 50 CPS, 0 CPS. Picos violentos que gritan "robot".

Los picos violentos son habituales en sistemas de IA mal configurados: scripts que se ejecutan en bucle, webhooks sin pacing, o automatizaciones que disparan todas las llamadas de golpe cuando se cumple una condición.

CLI repetido

Cuando miles de llamadas salen con el mismo número de origen en poco tiempo, los operadores lo interpretan como robocalling o spam masivo. Las consecuencias: limitación de la ruta, marcado del CLI como sospechoso, o filtros que afectan a todas las llamadas de esa numeración.

Llamadas demasiado cortas

Los sistemas antifraude detectan patrones como muchas llamadas de 1-2 segundos, muchas llamadas rechazadas, o muchos números inexistentes. Estos patrones se parecen a los de escaneo de números o campañas de spam, y activan protecciones automáticas.

La IA sin control

IA genera evento, webhook, llamada. IA genera evento, webhook, llamada. IA genera evento, webhook, llamada. x100 en segundos. Resultado: errores SIP 403/503, timeouts, llamadas que no se completan, y el bloqueo temporal de la ruta por parte del carrier.

SECCIÓN 06

La arquitectura correcta para campañas outbound

La IA no debe lanzar llamadas directamente. Debe pasar por un sistema que regule el ritmo.

La solución es interponer una capa de control entre la IA y la infraestructura telefónica. Esta arquitectura tiene cuatro capas:

01

Cola de llamadas

La lista de números se introduce en una cola de trabajo (Redis, RabbitMQ, base de datos o sistema interno). Cada número espera su turno. Esto evita que el sistema dispare todas las llamadas simultáneamente.

02

Controlador de CPS

Un proceso extrae números de la cola a velocidad controlada. Si el CPS está configurado a 3, cada segundo salen exactamente 3 llamadas. Tráfico estable y predecible que los operadores interpretan como legítimo.

03

Workers de llamada

Procesos que ejecutan la llamada: reciben un número, inician la llamada a través del SIP trunk, conectan con el agente de IA, y gestionan el flujo hasta que la llamada termina. Se ejecutan en paralelo respetando el límite de canales.

04

Infraestructura de telefonía (netelip)

SIP trunk, canales salientes, rutas PSTN, balanceo entre servidores (livekit.netelip.com, livekit2.netelip.com) y protecciones de red. Las llamadas llegan ya reguladas.

SECCIÓN 07

El papel de netelip en este modelo

La IA genera la conversación. netelip controla el tráfico telefónico. Son dos capas independientes que deben escalar juntas.

En una campaña outbound con agentes de voz IA, el papel de la telefonía IP de netelip abarca cinco áreas:

01

Control de canales

Define cuántas llamadas pueden estar activas simultáneamente mediante los canales salientes.

02

Control de CPS

Limita la velocidad de inicio de nuevas llamadas para proteger la red y cumplir con las políticas de los carriers.

03

Infraestructura SIP

Gestiona el SIP trunk, los servidores de señalización, el transporte RTP de audio y el balanceo de carga entre servidores.

04

Protección de la red

Aplica controles contra picos de llamadas, tráfico mal autenticado y saturación de rutas.

05

Escalado progresivo

Acompaña al cliente en el proceso de aumentar gradualmente la capacidad, comenzando con pocos canales y monitorizando antes de escalar.

Concepto clave

La IA puede crear miles de conversaciones, pero netelip es quien regula cómo esas llamadas entran en la red telefónica para que todo funcione de forma estable. La IA escala casi infinito. La telefonía marca el ritmo.

SECCIÓN 08

El segundo cuello de botella: la latencia de la IA

No solo la red tiene límites. El propio pipeline de IA tiene un ciclo que, bajo carga, degrada la conversación.

La infraestructura telefónica no es el único límite. La propia IA tiene un ciclo de procesamiento que, bajo carga alta, puede degradar la calidad de la conversación. En cada turno, el sistema ejecuta tres pasos en cadena:

ComponenteLatencia típicaQué hace
STT (Speech-to-Text)150 - 400 msConvierte audio del usuario a texto
LLM (modelo de lenguaje)300 - 800 msGenera la respuesta
TTS (Text-to-Speech)200 - 500 msConvierte la respuesta a audio
Total ciclo completo700 ms - 1.500 msLo que percibe el usuario como silencio

Cuando aumentan las llamadas simultáneas, estos tiempos se acumulan. El síntoma más habitual es un silencio de 2-3 segundos antes de que el agente responda.

Las plataformas bien diseñadas mitigan esto con streaming parcial del LLM, TTS en streaming, y procesamiento paralelo mientras el usuario todavía está hablando.

Dato desde producción

Con Elio en producción sobre Retell AI + ElevenLabs turbo v2.5 + Gemini 2.0 Flash, la latencia media del primer turno está por debajo de 1 segundo. Pero eso es con una sola llamada activa. Cuando escalas a docenas de llamadas simultáneas, la historia cambia.

SECCIÓN 09

Métricas de rendimiento: ASR y ACD

Las dos métricas que todo operador VoIP y toda plataforma de contact center monitoriza. Y que tú también deberías.

ASR (Answer-Seizure Ratio)

El ASR mide el porcentaje de llamadas contestadas respecto al total de intentos realizados.

ASR
ASR = (llamadas contestadas / llamadas intentadas) x 100
Valor de referencia saludable en campañas outbound: ~60%

Un ASR bajo puede indicar problemas en la entrega de las llamadas, pero en campañas con agentes de voz IA la causa más habitual no es la infraestructura telefónica. Suele ser la calidad de la base de datos: números inexistentes, desactualizados, o ya marcados como spam.

ACD (Average Call Duration)

El ACD mide la duración media de las llamadas que han sido conectadas.

ACD
ACD = duración total llamadas conectadas / número llamadas contestadas
Valor de referencia saludable en campañas outbound: entre 3 y 4 minutos

Un ACD saludable de 3 a 4 minutos indica que las conversaciones se están desarrollando con normalidad. Un ACD muy bajo con ASR alto es señal de alarma: las llamadas se contestan pero el usuario cuelga de inmediato, lo que suele significar que el número de origen está identificado como spam o que el inicio de la conversación del agente genera desconfianza.

Cómo leer ASR y ACD juntos

Estas dos métricas se analizan siempre conjuntamente. La combinación revela el estado real de la campaña:

PatrónDiagnóstico probableOrigen habitual
ASR bajo + ACD bajo Llamadas no llegan o se rechazan rápido Base de datos deficiente, números inexistentes o marcados como spam
ASR alto + ACD muy bajo Contestadas pero usuario cuelga al instante CLI marcado como spam, primer mensaje del agente poco natural
ASR ~60% + ACD 3-4 min Campaña saludable Configuración correcta, datos de calidad
Punto clave

En campañas con agentes de voz IA, un ASR bajo o un ACD muy bajo casi nunca son problemas del operador. Son síntomas de bases de datos deficientes, números marcados como spam, o un diseño del primer mensaje que hace que el usuario cuelgue. La infraestructura telefónica entrega la llamada correctamente; el problema está antes o después de ese punto.

Recomendaciones para mantener métricas saludables

Calidad de la base de datos. Usar únicamente números válidos, actualizados y correctamente segmentados. Es el factor con mayor impacto en el ASR.

Gestión del CLI. Evitar que los números de origen acumulen reportes de spam. Rotar CLIs en campañas de alto volumen para distribuir el tráfico.

Diseño del primer mensaje. El inicio de la conversación del agente debe ser claro y natural. Un primer mensaje agresivo o poco natural es la causa más común de ACD muy bajo con ASR alto.

Latencia del agente. Si el sistema tarda demasiado en responder tras conectar la llamada, el usuario interpreta el silencio como spam y cuelga. Mantener la latencia del primer turno por debajo de 1 segundo es crítico para el ACD.

Monitorizar desde el inicio. Revisar ASR y ACD desde las primeras llamadas, antes de escalar el volumen. Es mucho más fácil corregir un problema con 30 canales que con 250.

SECCIÓN 10

Las 4 preguntas antes de lanzar una campaña

Estas cuatro preguntas detectan el 90% de los problemas de dimensionamiento.

01

¿A qué CPS vas a lanzar las llamadas?

Es la pregunta más reveladora. Si el cliente no sabe responder, normalmente no tiene control de tráfico configurado.

02

¿Cuál es la duración media esperada de cada llamada?

Junto con el CPS, permite calcular la concurrencia estimada con la fórmula rápida.

03

¿Cuántos canales tienes disponibles?

Si la concurrencia estimada supera los canales disponibles, habrá llamadas rechazadas desde el primer día.

04

¿Tienes pacing configurado entre la IA y el SIP trunk?

Si la respuesta es no, el sistema puede generar picos de CPS que activen las protecciones de los carriers, independientemente del número de canales.

EXTRA

Cómo escalar paso a paso

El proceso que aplicamos con netelip. Sin saltos al vacío.

FASE 1
Arrancar con 30 canales y CPS conservador
Observar el comportamiento: tasa de completado, errores SIP, calidad de audio.
FASE 2
Subir a 60 canales
Una vez confirmada la estabilidad. Monitorizar ASR y ACD como indicadores de salud.
FASE 3
Escalado progresivo: 120, 250...
Según el volumen de la campaña. Ajustar el CPS en paralelo al aumento de canales.
CONTINUO
Monitorización permanente
ASR y ACD desde el inicio. Es mucho más fácil corregir un problema con 30 canales que con 250.
Siguiente artículo

¿Te ha servido este artículo?

Cada semana comparto más casos reales, errores documentados y soluciones pragmáticas desde las trincheras de la IA en producción.

Sin humo. Sin teoría. Desde producción.

¿Montando agentes
de voz con IA?

Estoy en las trincheras todos los días. Si tienes dudas específicas
o quieres contrastar tu approach, hablemos.

Escríbeme directo. Sin formularios. Sin intermediarios.
Si tienes proyecto, dame contexto. Si no encajamos, te lo digo.

Trabajo diferente porque pienso diferente.

Sistemas que funcionan 24/7.

Mis reglas. Tus resultados.