La diferencia brutal entre crear agentes que funcionan en demos y construir sistemas que funcionan en producción real.
He pasado 6 meses construyendo agentes de IA que "funcionaban perfectamente" en demos.
Tasa de éxito en producción real: 65%.
Después de meses depurando en las trincheras, aprendí algo brutal: hay una diferencia ABISMAL entre crear un agente en un entorno cerrado y construir un sistema que funciona en producción real.
Y quien te diga que su sistema de IA no tiene errores está mintiendo como un auténtico "Bellaco narcisista". Los errores están ahí. Siempre.
La diferencia es si tienes arquitectura para detectarlos, entenderlos y corregirlos sistemáticamente... o estás volando a ciegas.
10-20 conversaciones de prueba cuidadosamente diseñadas
Casos de uso predefinidos y controlados
"¡Funciona! 95% de éxito en tests"
Demo impresionante para stakeholders
50-65% de tasa de éxito real
Usuarios reales hacen cosas que NUNCA anticipaste
Edge cases por todos lados
Sin arquitectura para detectar qué falla
Miles de conversaciones con usuarios impredecibles
Tiempo real: sin pause, sin "déjame revisar esto"
Consecuencias reales: dinero, reputación, compliance
Tiene que funcionar. Punto.
"Quiero reservar una mesa para 4 personas el viernes a las 8pm"
"Necesito una reserva para el 15 de marzo, somos 6"
"Mira, necesito una mesa pero no sé cuántos somos, entre 4 y 6, depende si viene mi cuñado..."
"Mesa pa dos el próximo martes tipo 9ish pero podemos llegar antes depende del tráfico"
[Ruido de fondo, música] "¿QUÉ? ¿MESA? SÍ, PARA MAÑANA, NO ESPERA..."
Un sistema real necesita manejar: ambigüedad, información incompleta, interrupciones y recuperarse de errores.
Esto no se resuelve con el "mejor prompt". Requiere arquitectura.
Los LLMs son probabilísticos. Dale los mismos datos dos veces, obtienes respuestas diferentes.
Imagina un sistema de aprobación de transacciones. Primera vez: "Aprobado, monto dentro de límite". Segunda vez: "Requiere revisión adicional". ¿Cuál es correcta? No lo sabes.
Sin validación determinística, confiar 100% en un LLM es ruleta rusa.
Hay un paper devastador: "Chain of Thought is Not Explainability". Conclusión: Lo que el modelo "dice que está haciendo" NO es necesariamente lo que está haciendo.
Mi experiencia real: Tenía un agente que "explicaba" cómo calificaba leads. Cambié el orden de factores en el prompt y obtuve conclusiones diferentes. Estaba generando explicaciones post-hoc que sonaban lógicas pero eran inventadas.
Aunque Gemini tiene 2 millones de tokens, más contexto no significa mejor resultado. Hay evidencia de que el performance decae después de ~128K tokens. El modelo se "pierde" en tanto contexto.
Mi experiencia: Mi agente con contexto masivo tuvo performance mediocre. Reduje contexto a lo estrictamente necesario y el performance subió 15%.
Los workflows predefinidos con "cajitas con flechas" fallan porque las tareas de negocio son indeterminísticas, no mecánicas.
Ejemplo: Cierre contable mensual.
En teoría: Recolectar facturas → Validar → Generar reporte → Enviar.
En la realidad: 3 facturas en formato incorrecto. 2 faltan completamente. 1 con montos que no cuadran. El proveedor cambió de razón social. Una factura duplicada con datos diferentes.
Tu workflow bonito: ¿Qué hacer ahora?
RAG (Retrieval Augmented Generation) es un concepto, no una solución única.
Los enfoques comunes de RAG fallan en:
Escalar es tener arquitectura que mantiene calidad a volumen.
Válido para:
Características:
Errores no tienen consecuencias graves, siempre hay humano que puede intervenir, no requiere certificación ni compliance, volumen bajo o controlado.
Necesario para:
Características:
Errores cuestan dinero/reputación/compliance, no siempre hay humano disponible inmediatamente, requiere certificación y documentación, alto volumen 24/7.
Después de meses en las trincheras, no estoy construyendo un agente más inteligente. Estoy construyendo una arquitectura KPU (Knowledge Processing Unit) para que los agentes funcionen en producción real.
Es un sistema de capas que separa claramente: Lo que el LLM hace bien (entender lenguaje natural, extraer intención). Lo que el código determinístico hace bien (validar, ejecutar reglas de negocio). Lo que los humanos deben supervisar (decisiones críticas, excepciones).
No es un "agente inteligente que lo hace todo". Es una arquitectura enterprise que combina IA probabilística con lógica determinística.
Metodología repetible para crear prompts. No artesanía, proceso.
Sistema de scoring 0-100. Score <75 = No va a producción. Sin excepciones.
El cambio más importante. Antes: "El agente no funciona bien". Ahora: "El 23% de fallos ocurren cuando el usuario dice fechas relativas. El agente las procesa incorrectamente".
Puedo CORREGIR el problema específico.
Todavía en construcción. Producción → Análisis → Optimización → Validación → Deploy gradual.
Cada prompt en Git. Rollback en <60 segundos. He hecho rollback 7 veces en 2 meses.
por agente
tasa de éxito en producción
de qué está fallando
por agente
tasa de éxito
de qué falla y por qué
y escalable
¿Está terminado? No.
¿Funciona perfecto? Para nada.
¿Tengo días frustrantes? Constantemente.
Pero la diferencia es abismal.
Construir sistemas enterprise:
Si alguien te vende "el sistema perfecto de IA", te está mintiendo.
La pregunta no es si tienes fallos. Es: ¿tienes arquitectura para detectarlos, entenderlos y corregirlos sistemáticamente?
¿Estás creando agentes en entornos controlados o estás construyendo sistemas para producción real?
Porque en 2025, esa diferencia lo cambia todo.
Impresionan en demos
Funcionan con usuarios reales
Son proyectos
Son productos escalables
Funcionan en condiciones ideales
Funcionan con variabilidad real
Yo estoy construyendo el sistema KPU.
Con fallos. Con depuración constante. Con días frustrantes.
Pero cada día más cerca de tener arquitectura que realmente funcione en producción enterprise.
Si estás en las trincheras construyendo sistemas reales (no demos bonitas), me encantaría conocer tu experiencia.
Qué fallos has encontrado. Qué has aprendido. Qué te frustra. Qué funciona.
Porque esto no se aprende en tutoriales de YouTube. Se aprende depurando en producción.
Sígueme para más contenido honesto sobre construir sistemas de IA que realmente funcionan (con fallos incluidos).
La próxima semana compartiré errores específicos de producción y cómo los depuré.
No es marketing. Es la realidad del choque entre lo que se promete y lo que realmente funciona.
Con Bernat Farrero e Ilya Zayats. Vale cada minuto si estás construyendo sistemas de IA para empresas reales.