SIP trunks, canales, CPS, Erlang, ASR y ACD. Todo lo que hay debajo de una campaña outbound con agentes de voz.
La IA escala casi infinito. La telefonía no. SIP trunks, canales y CPS son los tres cuellos de botella que nadie del mundo IA te cuenta.
Erlang, regla rápida y ejemplo real con números. Cómo calcular cuántos canales necesitas antes de lanzar ni una sola llamada.
Cola de llamadas, controlador de CPS, workers y la capa de telefonía IP de netelip. Cuatro capas que evitan que todo explote.
ASR y ACD. Las dos métricas que te dicen si la campaña funciona, si la base de datos es basura, o si tu CLI está marcado como spam.
Cuando la IA promete escala infinita y la telefonía dice que no.
"Mi sistema puede hacer miles de llamadas simultáneas."
Lo escucho constantemente. Y cada vez que alguien lo dice, sé que no ha tocado nunca la infraestructura de telefonía real. Porque desde el punto de vista de la IA, es técnicamente posible. Desde el punto de vista de la telefonía, es completamente incorrecto.
Plataformas como Retell AI o ElevenLabs están diseñadas para escalar en la nube. Cada llamada es un stream de audio, el modelo de lenguaje procesa texto, y en teoría el sistema podría gestionar cientos o miles de sesiones WebRTC de forma simultánea.
El problema es que una sesión WebRTC no es lo mismo que una llamada telefónica real.
Cuando una llamada tiene que llegar a un número de teléfono real, entran en juego elementos que tienen límites físicos y regulatorios: SIP trunks, gateways PSTN, operadores intermedios, sistemas antifraude y antispam de carriers. Cada uno de esos elementos tiene su propio techo de tráfico.
Llamadas que no se completan, rutas bloqueadas, errores SIP 403 o 503, y en casos graves, el CLI marcado como sospechoso por los operadores. Y eso no se arregla con un reinicio.
Lo que los ingenieros de tráfico saben desde hace décadas y el mundo de la IA ignora.
El SIP trunk es el canal de comunicación que conecta la infraestructura de voz IP con la red telefónica pública (PSTN). Es el punto de entrada y salida de todas las llamadas. No es infinito: tiene una capacidad máxima de llamadas simultáneas definida en el momento de la contratación, y está sujeto a las políticas del operador que lo proporciona.
Los canales salientes determinan cuántas llamadas pueden estar activas al mismo tiempo. Esta es la definición real de concurrencia en telefonía, y es un número concreto, no una abstracción.
Cuando un sistema de IA intenta abrir más llamadas de las que permiten los canales disponibles, las llamadas adicionales se rechazan o quedan en espera. No hay degradación gradual: el límite es duro.
El CPS es la velocidad a la que se pueden iniciar llamadas nuevas, medida en llamadas por segundo. Es el segundo gran limitador, independiente del número de canales disponibles. Un sistema puede tener 100 canales disponibles y aun así no poder lanzar 100 llamadas de golpe si el CPS configurado es 5.
| CPS | Tipo de campaña | Señal para el operador |
|---|---|---|
| 2-3 CPS | Tráfico bajo / pruebas | Normal, sin alarmas |
| 5 CPS | Campañas estándar | Aceptable con buena configuración |
| 10+ CPS | Campañas grandes | Requiere whitelist y coordinación previa |
| >20 CPS | Riesgo alto | Posible bloqueo o throttling del carrier |
Dos métodos: Erlang para ingenieros, regla rápida para todo el mundo.
El Erlang es la unidad estándar en telecomunicaciones para medir el volumen de tráfico. Un Erlang equivale a un canal ocupado continuamente durante una hora.
| Tráfico (Erlang) | Canales recomendados | Ejemplo de uso |
|---|---|---|
| 1 Erlang | 5 canales | Cliente pequeño, pocas llamadas/hora |
| 5 Erlang | 15 canales | Campaña media, volumen moderado |
| 10 Erlang | 25 canales | Campaña activa, varios agentes |
| 20 Erlang | 40 canales | Campaña grande, alto volumen |
Para dimensionamiento rápido sin hacer el cálculo Erlang completo, esta aproximación funciona bien para conversaciones con clientes y estimaciones iniciales.
Un cliente, una campaña, tres pasos. Así se dimensiona.
Aunque la campaña solo necesita 5 canales, arrancar con 30 es la práctica correcta. Da margen para picos de tráfico, reintentos, aumento futuro de volumen y campañas paralelas. Dimensionar al mínimo es el camino más corto hacia los problemas.
No es una campaña grande. El único escenario problemático sería si el sistema lanzara las 180 llamadas diarias en un intervalo muy corto, lo que dispararía el CPS a valores que activarían las protecciones del operador.
Los carriers no perdonan. Y los agentes de IA sin control son los primeros en activar las alarmas.
Los carriers y operadores tienen sistemas automáticos que detectan patrones de tráfico anómalos. Los agentes de voz con IA son especialmente susceptibles a activar estas detecciones si no se configuran correctamente, porque el sistema es automático y puede lanzar llamadas muy rápido sin ningún tipo de control humano.
Los sistemas antifraude no analizan solo el volumen. Analizan la regularidad y la forma del tráfico.
Los picos violentos son habituales en sistemas de IA mal configurados: scripts que se ejecutan en bucle, webhooks sin pacing, o automatizaciones que disparan todas las llamadas de golpe cuando se cumple una condición.
Cuando miles de llamadas salen con el mismo número de origen en poco tiempo, los operadores lo interpretan como robocalling o spam masivo. Las consecuencias: limitación de la ruta, marcado del CLI como sospechoso, o filtros que afectan a todas las llamadas de esa numeración.
Los sistemas antifraude detectan patrones como muchas llamadas de 1-2 segundos, muchas llamadas rechazadas, o muchos números inexistentes. Estos patrones se parecen a los de escaneo de números o campañas de spam, y activan protecciones automáticas.
IA genera evento, webhook, llamada. IA genera evento, webhook, llamada. IA genera evento, webhook, llamada. x100 en segundos. Resultado: errores SIP 403/503, timeouts, llamadas que no se completan, y el bloqueo temporal de la ruta por parte del carrier.
La IA no debe lanzar llamadas directamente. Debe pasar por un sistema que regule el ritmo.
La solución es interponer una capa de control entre la IA y la infraestructura telefónica. Esta arquitectura tiene cuatro capas:
La lista de números se introduce en una cola de trabajo (Redis, RabbitMQ, base de datos o sistema interno). Cada número espera su turno. Esto evita que el sistema dispare todas las llamadas simultáneamente.
Un proceso extrae números de la cola a velocidad controlada. Si el CPS está configurado a 3, cada segundo salen exactamente 3 llamadas. Tráfico estable y predecible que los operadores interpretan como legítimo.
Procesos que ejecutan la llamada: reciben un número, inician la llamada a través del SIP trunk, conectan con el agente de IA, y gestionan el flujo hasta que la llamada termina. Se ejecutan en paralelo respetando el límite de canales.
SIP trunk, canales salientes, rutas PSTN, balanceo entre servidores (livekit.netelip.com, livekit2.netelip.com) y protecciones de red. Las llamadas llegan ya reguladas.
La IA genera la conversación. netelip controla el tráfico telefónico. Son dos capas independientes que deben escalar juntas.
En una campaña outbound con agentes de voz IA, el papel de la telefonía IP de netelip abarca cinco áreas:
Define cuántas llamadas pueden estar activas simultáneamente mediante los canales salientes.
Limita la velocidad de inicio de nuevas llamadas para proteger la red y cumplir con las políticas de los carriers.
Gestiona el SIP trunk, los servidores de señalización, el transporte RTP de audio y el balanceo de carga entre servidores.
Aplica controles contra picos de llamadas, tráfico mal autenticado y saturación de rutas.
Acompaña al cliente en el proceso de aumentar gradualmente la capacidad, comenzando con pocos canales y monitorizando antes de escalar.
La IA puede crear miles de conversaciones, pero netelip es quien regula cómo esas llamadas entran en la red telefónica para que todo funcione de forma estable. La IA escala casi infinito. La telefonía marca el ritmo.
No solo la red tiene límites. El propio pipeline de IA tiene un ciclo que, bajo carga, degrada la conversación.
La infraestructura telefónica no es el único límite. La propia IA tiene un ciclo de procesamiento que, bajo carga alta, puede degradar la calidad de la conversación. En cada turno, el sistema ejecuta tres pasos en cadena:
| Componente | Latencia típica | Qué hace |
|---|---|---|
| STT (Speech-to-Text) | 150 - 400 ms | Convierte audio del usuario a texto |
| LLM (modelo de lenguaje) | 300 - 800 ms | Genera la respuesta |
| TTS (Text-to-Speech) | 200 - 500 ms | Convierte la respuesta a audio |
| Total ciclo completo | 700 ms - 1.500 ms | Lo que percibe el usuario como silencio |
Cuando aumentan las llamadas simultáneas, estos tiempos se acumulan. El síntoma más habitual es un silencio de 2-3 segundos antes de que el agente responda.
Las plataformas bien diseñadas mitigan esto con streaming parcial del LLM, TTS en streaming, y procesamiento paralelo mientras el usuario todavía está hablando.
Con Elio en producción sobre Retell AI + ElevenLabs turbo v2.5 + Gemini 2.0 Flash, la latencia media del primer turno está por debajo de 1 segundo. Pero eso es con una sola llamada activa. Cuando escalas a docenas de llamadas simultáneas, la historia cambia.
Las dos métricas que todo operador VoIP y toda plataforma de contact center monitoriza. Y que tú también deberías.
El ASR mide el porcentaje de llamadas contestadas respecto al total de intentos realizados.
Un ASR bajo puede indicar problemas en la entrega de las llamadas, pero en campañas con agentes de voz IA la causa más habitual no es la infraestructura telefónica. Suele ser la calidad de la base de datos: números inexistentes, desactualizados, o ya marcados como spam.
El ACD mide la duración media de las llamadas que han sido conectadas.
Un ACD saludable de 3 a 4 minutos indica que las conversaciones se están desarrollando con normalidad. Un ACD muy bajo con ASR alto es señal de alarma: las llamadas se contestan pero el usuario cuelga de inmediato, lo que suele significar que el número de origen está identificado como spam o que el inicio de la conversación del agente genera desconfianza.
Estas dos métricas se analizan siempre conjuntamente. La combinación revela el estado real de la campaña:
| Patrón | Diagnóstico probable | Origen habitual |
|---|---|---|
| ASR bajo + ACD bajo | Llamadas no llegan o se rechazan rápido | Base de datos deficiente, números inexistentes o marcados como spam |
| ASR alto + ACD muy bajo | Contestadas pero usuario cuelga al instante | CLI marcado como spam, primer mensaje del agente poco natural |
| ASR ~60% + ACD 3-4 min | Campaña saludable | Configuración correcta, datos de calidad |
En campañas con agentes de voz IA, un ASR bajo o un ACD muy bajo casi nunca son problemas del operador. Son síntomas de bases de datos deficientes, números marcados como spam, o un diseño del primer mensaje que hace que el usuario cuelgue. La infraestructura telefónica entrega la llamada correctamente; el problema está antes o después de ese punto.
Calidad de la base de datos. Usar únicamente números válidos, actualizados y correctamente segmentados. Es el factor con mayor impacto en el ASR.
Gestión del CLI. Evitar que los números de origen acumulen reportes de spam. Rotar CLIs en campañas de alto volumen para distribuir el tráfico.
Diseño del primer mensaje. El inicio de la conversación del agente debe ser claro y natural. Un primer mensaje agresivo o poco natural es la causa más común de ACD muy bajo con ASR alto.
Latencia del agente. Si el sistema tarda demasiado en responder tras conectar la llamada, el usuario interpreta el silencio como spam y cuelga. Mantener la latencia del primer turno por debajo de 1 segundo es crítico para el ACD.
Monitorizar desde el inicio. Revisar ASR y ACD desde las primeras llamadas, antes de escalar el volumen. Es mucho más fácil corregir un problema con 30 canales que con 250.
Estas cuatro preguntas detectan el 90% de los problemas de dimensionamiento.
Es la pregunta más reveladora. Si el cliente no sabe responder, normalmente no tiene control de tráfico configurado.
Junto con el CPS, permite calcular la concurrencia estimada con la fórmula rápida.
Si la concurrencia estimada supera los canales disponibles, habrá llamadas rechazadas desde el primer día.
Si la respuesta es no, el sistema puede generar picos de CPS que activen las protecciones de los carriers, independientemente del número de canales.
La mayoría de los problemas en proyectos de agentes de voz con IA no vienen de la IA. Vienen de una telefonía mal dimensionada, de un tráfico sin control, o de latencias acumuladas que degradan la conversación.
Y una vez lanzada la campaña, el ASR y el ACD son los dos indicadores que revelan de forma inmediata si algo no está funcionando bien, y dónde está el problema real.
Cuando esos factores se gestionan bien, los sistemas pueden escalar de forma estable y predecible. El enfoque basado en control de canales, CPS, infraestructura SIP profesional, escalado progresivo y monitorización continua de métricas es exactamente el método que usan los operadores VoIP y plataformas de call center serios.
No es marketing de IA. Es ingeniería de telecomunicaciones.
El proceso que aplicamos con netelip. Sin saltos al vacío.
Cada semana comparto más casos reales, errores documentados y soluciones pragmáticas desde las trincheras de la IA en producción.
Sin humo. Sin teoría. Desde producción.
CONTACTO
Estoy en las trincheras todos los días. Si tienes dudas específicas
o quieres contrastar tu approach, hablemos.
Escríbeme directo. Sin formularios. Sin intermediarios.
Si tienes proyecto, dame contexto. Si no encajamos, te lo digo.
Trabajo diferente porque pienso diferente.
Sistemas que funcionan 24/7.
Mis reglas. Tus resultados.