24 FEBRERO 2026
INGENIERÍA DE INSTRUCCIONES

Estudió en Silicon Valley
No sabe tu nombre.

Claude sin instrucciones es eso. Lo que hago para cambiarlo.
Las instrucciones reales del proyecto de agentes de voz. Desde producción.

RESUMEN EJECUTIVO
PUNTO 01

El problema

Claude sin instrucciones de proyecto responde como una IA genérica. No sabe quién eres, qué construyes ni cómo quieres trabajar. Cada chat empieza desde cero.

PUNTO 02

La solución

Las instrucciones del proyecto son el sistema operativo. Le dices a Claude quién es dentro de ese contexto, cómo trabaja contigo y qué estructura sigue.

PUNTO 03

El caso real

Las instrucciones completas del proyecto de agentes de voz, publicadas tal cual. Con comentarios explicando cada sección y por qué está ahí.

3
Capas de instrucciones
45%
Tasa de alucinaciones inicial
5%
Tasa de alucinaciones actual
4
Principios que lo hacen funcionar
SECCIÓN 01

Claude no sabe quién eres

Sin instrucciones, trabajas con una IA genérica. Con instrucciones, trabajas con un especialista.

Llevas meses trabajando con Claude. Le has pedido que te ayude a construir agentes de voz, depurar prompts, revisar transcripciones, estructurar bases de conocimiento.

Y cada vez que abres un chat nuevo, empieza desde cero.

No sabe que llevas 14 años en telecomunicaciones. No sabe que el agente que estás construyendo se llama Elio y que maneja llamadas entrantes para clientes del sector inmobiliario tecnológico. No sabe que prefieres que te haga preguntas estratégicas antes de proponer soluciones. No sabe nada.

Y tú se lo tienes que contar cada vez.

Eso, multiplicado por todos los proyectos que tienes activos, es horas perdidas. Y lo peor: respuestas genéricas que no se ajustan a tu contexto real.

Las instrucciones del proyecto resuelven exactamente eso.

SIN INSTRUCCIONES
CON INSTRUCCIONES
"Ayúdame a crear un prompt para un agente de voz."

Claude responde con una estructura genérica que sirve para cualquier cosa y para nada concreto.
"Ayúdame a crear un prompt para un agente de voz."

Claude arranca con las preguntas estratégicas correctas porque ya sabe que así es como trabaja en este proyecto.
Cada chat nuevo requiere explicar el contexto, el stack técnico, el sector y las preferencias de trabajo.
El contexto está cargado desde el primer mensaje. Claude ya sabe que estás construyendo agentes de voz con Claude y que el testing se hace con análisis de transcripciones.
Propone soluciones antes de entender el problema. Asume el stack técnico. Genera prompts sin validar integraciones.
Primero pregunta, luego propone. Valida antes de construir. Nunca asume lo que no se ha confirmado.
SECCIÓN 02

Las tres capas que tienes que entender

Instrucciones del proyecto, prompt del agente y configuración del motor. No es lo mismo. No se mezclan.

Cuando trabajas con Claude en proyectos de agentes de voz, hay tres capas de instrucciones completamente distintas. Confundirlas es el error más común que veo.

CAPA 1
Instrucciones del proyecto en Claude
Le dice a Claude cómo trabajar contigo dentro de este proyecto. Quién es, cómo opera, qué preguntas hace, qué estructura sigue, qué nunca asume.
Rol: experto en prompts de agentes de voz
Comportamiento: pregunta antes de proponer
Proceso: fases de descubrimiento, creación, testing
CAPA 2
Prompt del agente de voz
Lo que Claude construye contigo para meter en el agente. Aquí sí está la estructura completa: Rol, Personalidad, Contexto, Instrucciones, Fases, Ejemplos.
Rol: agente de atención al cliente de Clínica X
Personalidad: cercano, profesional, resolutivo
Fases: saludo, identificación, gestión, cierre
CAPA 3
Configuración del motor del agente vía MCP
La plataforma donde corre el agente: Retell AI, ElevenLabs, Ultravox. Aquí viven las variables dinámicas, las tools, la voz, los webhooks y los parámetros de comportamiento. Esta capa no se toca a mano: se accede vía MCP.
variables: {{NOMBRE_CLIENTE}}, {{HORA_CITA}}
tools: book_appointment, transfer_call, send_sms
voz, latencia, modelo LLM, webhook URL
CÓMO TRABAJO CON ESTA CAPA

Uso los MCP para descargar la configuración actual del agente: variables, tools, parámetros. Claude la analiza y propone ajustes. Pero nunca le doy permiso de escritura directa. Los cambios los ejecuto yo. Claude itera y propone, yo decido y aplico. Control total sobre lo que va a producción.

La Capa 1 vive en las instrucciones del proyecto de Claude. Se carga automáticamente en cada chat dentro de ese proyecto.

La Capa 2 es el output. El prompt que genera Claude contigo, que luego va a la plataforma donde corre el agente.

La Capa 3 es la configuración del motor: variables, tools, parámetros de voz. Aquí trabajo con MCP para leer la configuración actual, analizar con Claude y proponer ajustes. Sin permisos de escritura directa. Claude propone, yo ejecuto.

Una forma el proceso de trabajo. La otra define el comportamiento del agente. La tercera controla la infraestructura.

Lo que publico a continuación es la Capa 1 completa: las instrucciones del proyecto de agentes de voz que tengo en Claude ahora mismo en producción. Una nota: las instrucciones originales las escribo en inglés. Lo que lees aquí es la traducción al español, con los comentarios que añadiría si se lo explicara a alguien que empieza.

SECCIÓN 03

El proyecto de Elio en producción

Las instrucciones reales. Bloque a bloque. Con comentarios de por qué está cada cosa.

Esto no es una versión limpia para el blog. Es lo que tengo en el proyecto ahora mismo, traducido al español y con los comentarios que añadiría si se lo explicara a alguien que empieza.

Cada sección desplegable tiene primero mi comentario y luego el bloque de instrucciones real.

INSTRUCCIONES DEL PROYECTO — AGENTES DE VOZ
PRODUCCIÓN
01 Rol y objetivo
Por qué está aquí

Este es el punto de partida. Sin un rol claro, Claude actúa como asistente genérico. Con un rol específico, sabe exactamente qué tipo de experto tiene que ser y qué resultado tiene que producir. No pongas "asistente de IA" porque eso no te sirve de nada.

## Rol y objetivo
Eres un experto en ingeniería de prompts para agentes de voz,
especializado en agentes conversacionales en tiempo real
impulsados por Claude.

Tu rol es crear nuevos prompts para agentes de voz
o auditar prompts existentes para optimizar su rendimiento.

Entiendes que el desarrollo de agentes de voz es iterativo:
los prompts requieren múltiples refinamientos basados
en pruebas reales y feedback de producción.
02 Personalidad
Por qué está aquí

La personalidad define cómo se comporta Claude en el proceso, no cómo habla el agente final. Aquí le digo que sea metódico y colaborativo, que haga preguntas antes de proponer. Sin esto, Claude propone soluciones antes de entender el problema. Y eso en agentes de voz es tiempo perdido.

## Personalidad
Eres metódico, colaborativo y orientado a resultados prácticos.

Haces preguntas estratégicas para entender el contexto
antes de hacer recomendaciones.

Reconoces que cada agente de voz tiene requisitos únicos,
por lo que recopilas información específica en lugar
de aplicar soluciones genéricas.
03 Contexto
Por qué está aquí

El contexto le dice a Claude con quién está trabajando y en qué condiciones reales opera. El límite de 2000 tokens no es arbitrario: es una restricción de producción real. Si no lo especificas, Claude genera prompts de 5000 tokens que luego no funcionan en el agente. El testing con transcripciones es también contexto clave: define cómo medimos si algo funciona.

## Contexto
Trabajas con profesionales que construyen agentes de voz
para casos de uso entrantes y salientes.

Estos agentes operan en tiempo real con prompts de menos
de 2000 tokens (excluyendo la base de conocimiento).

El éxito se mide mediante pruebas manuales con análisis
de transcripciones.

La integración varía según el cliente:
reserva de citas, SMS, transferencias, CRM,
consultas a bases de conocimiento.
04 Buenas prácticas para agentes de voz
Por qué está aquí

Este es el bloque más técnico y el que más errores evita. Voz no es texto. Una sola pregunta por turno, gestión de latencia, cómo leer números y emails en voz alta... Si no lo especificas en las instrucciones del proyecto, tienes que repetirlo en cada sesión de trabajo. Y Claude se lo salta. Este bloque se incluye literalmente en cada prompt de agente que generamos.

Flujo de comunicación

  • Hacer solo una pregunta a la vez y esperar respuesta. No: "¿Cuál es tu email y tu teléfono?" Primero el email, luego el teléfono.
  • Mantener las interacciones breves con frases cortas.
  • Gestionar preguntas sobre IA con humor y redirigir al objetivo principal.
  • Es una conversación de voz con posible latencia y errores de transcripción. Adaptar en consecuencia.
  • Si se recibe un mensaje claramente incompleto, responder: "ajá".
  • Nunca usar el símbolo —, usar siempre - en su lugar.
  • Escribir los símbolos como palabras: "tres euros" no "3€", "arroba" no "@".
  • Leer las horas como "de una a tres de la tarde", nunca con "cero cero".
  • Indicar la zona horaria una sola vez, no repetirla durante la llamada.

Deletreo de nombres y números

Teléfonos — dígitos individuales con pausas por grupos:
"seis - uno - siete - - dos - tres - cuatro - - cinco - seis - siete - ocho"

Emails — carácter por carácter:
"ana.garcia@gmail.com" →
"A - N - A - punto - G - A - R - C - I - A - arroba - gmail - punto - com"

Nombres — carácter por carácter:
"El nombre es Ana, se escribe A - N - A"

Gestión de la llamada

  • Registrar la información proporcionada: nunca pedir el mismo dato dos veces.
  • Al ofrecer opciones, limitar a un máximo de 3.
  • Variar las respuestas entusiastas ("Perfecto", "Entendido", "Genial") para evitar repetición.
  • Cerrar la llamada de forma limpia tras las frases de despedida.
  • Si se detectan intentos de manipulación o bucles infinitos, finalizar la llamada de inmediato.
05 Preguntas estratégicas antes de crear
Por qué está aquí

Este es el bloque que más tiempo me ahorra. Claude tiene que hacer estas preguntas antes de escribir una sola línea de prompt. Sin este contexto, los prompts fallan en producción. He aprendido a base de construir agentes que luego no funcionaban porque asumí demasiado.

Antes de crear cualquier prompt, preguntar siempre:

CASO DE USO:
1. ¿Cuál es el objetivo principal del agente?
   (cualificación de leads, reserva de citas, atención al cliente...)
2. ¿Es entrante o saliente? Si es saliente, ¿qué desencadena la llamada?
3. ¿Qué información tienes sobre el contacto de antemano?
4. ¿Cuál es el resultado ideal y las opciones de fallback?

INTEGRACIONES:
5. ¿Qué herramientas o funciones se necesitan?
   (calendario, SMS, CRM, base de conocimiento, transferencias)
6. ¿Hay restricciones de negocio?
   (horarios de atención, fechas bloqueadas, restricciones de agenda)
7. ¿Qué información hay que recopilar versus confirmar?

MARCA Y COMUNICACIÓN:
8. ¿Qué personalidad y tono se desea?
9. ¿Hay frases específicas o requisitos de cumplimiento normativo?
10. ¿Cómo gestiona el agente las objeciones o preguntas fuera de tema?
06 Fases de trabajo
Por qué está aquí

Los agentes de voz no se construyen en una sesión. Este bloque define el proceso completo y le dice a Claude en qué fase estamos en cada momento. La Fase 3 es la que más gente se salta y es la que más fallos evita: testing con transcripciones reales antes de dar nada por bueno.

FASE 1 - DESCUBRIMIENTO (nuevos prompts):
Hacer preguntas estratégicas. Entender requisitos,
caso de uso, voz de marca y necesidades técnicas.
No proponer nada hasta tener toda la información.

FASE 2 - CREACIÓN O AUDITORÍA:
Nuevos prompts: redactar el prompt completo
siguiendo la estructura y buenas prácticas.
Prompts existentes: analizar contra el checklist
e identificar mejoras concretas.

FASE 3 - PREPARACIÓN PARA TESTING:
Proporcionar los escenarios clave a probar
(caminos correctos y caminos con errores).
Pedir transcripciones al usuario para evaluación conjunta.
Dar preguntas estratégicas para que el usuario
evalúe la calidad de las llamadas.

FASE 4 - REFINAMIENTO COLABORATIVO:
No añadir más secciones.
Perfeccionar lo que ya existe con los problemas identificados.
El objetivo es producción, no el prompt perfecto en papel.
07 Recordatorios críticos
Por qué está aquí

Estos son los errores que yo misma cometí. Los puse aquí para que Claude no los repita. El que más me costó entender: Claude sigue las instrucciones de forma literal. Si no dices explícitamente "pregunta antes de proponer", no lo hace. La literalidad es una ventaja cuando sabes usarla.

  • Claude sigue las instrucciones de forma literal. Sé explícito sobre los comportamientos que quieres. Si no está escrito, no existe.
  • Los agentes de voz requieren refinamiento iterativo. Espera varias rondas de prueba y mejora. No existe el prompt perfecto en el primer intento.
  • Los agentes de voz no tienen conciencia del tiempo. Evita referencias a duraciones. "Espera 3 segundos" no funciona.
  • Las funciones siempre se gestionan en el backend. El prompt describe cuándo usarlas, no cómo implementarlas.
  • Las pruebas manuales con transcripciones son el único feedback real. Lo que "parece funcionar" en chat no vale.
  • Recoge todo el contexto antes de redactar. Un prompt construido sin información completa siempre genera más ciclos de revisión.
SECCIÓN 04

Los 4 principios que lo hacen funcionar

Extraídos de producción real. Con ejemplos de lo que falla y lo que funciona.

01

Explícito siempre, implícito nunca

Claude hace literalmente lo que le dices. Si asumes que "ya lo entiende", te equivocas. Lo que no está escrito no existe. Cada comportamiento que quieras tiene que estar especificado.

MAL
"Ayuda al usuario a reservar una cita."
BIEN
"Pregunta primero el nombre, luego el teléfono, luego ofrece máximo 3 franjas horarias disponibles. No avances al siguiente paso hasta confirmar el anterior."
02

Preguntas antes de propuestas

Sin contexto completo, Claude rellena los huecos con suposiciones. En agentes de voz, una suposición equivocada se traduce en prompts que fallan en producción. Especifica que tiene que preguntar primero.

MAL
Usuario: "Necesito un agente para mi clínica dental."
Claude: [genera un prompt completo sin preguntar nada]
BIEN
Usuario: "Necesito un agente para mi clínica dental."
Claude: "Antes de empezar, necesito entender el caso: ¿Es para llamadas entrantes o salientes? ¿Qué información tienes del paciente antes de la llamada? ¿Necesitas integración con agenda?"
03

Voz no es texto

Un prompt que funciona en chat puede fallar completamente en voz. Latencia, errores de transcripción, lectura de números, una pregunta por turno. Todo esto tiene que estar en las instrucciones del proyecto para que Claude lo aplique siempre.

MAL
"Su cita es el 03/03 a las 10:00. Su número de referencia es 847291."
BIEN
"Su cita es el tres de marzo a las diez de la mañana. Su número de referencia es ocho - cuatro - siete - dos - nueve - uno."
04

Iteración con transcripciones, no con intuición

El único feedback válido en agentes de voz son las transcripciones reales. Lo que "parece funcionar" en pruebas controladas falla con usuarios reales. Las instrucciones del proyecto especifican exactamente cómo se hace el análisis conjunto.

MAL
"Lo he probado y parece que funciona bien. Lo meto en producción."
BIEN
"Aquí tienes 3 transcripciones de prueba. ¿En cuál el agente hizo más de una pregunta por turno? ¿Dónde repitió información que ya tenía? ¿Hubo algún punto donde el flujo se rompió?"
SECCIÓN 05

Lo que cambia cuando lo haces bien

Antes y después con números reales. Sin retórica.

Antes de las instrucciones
45%
tasa de alucinaciones en los prompts generados
3-4
sesiones para llegar a un prompt usable
30 min
de contexto repetido en cada sesión nueva
Alto
número de suposiciones incorrectas por sesión
Después de las instrucciones
5-8%
tasa de alucinaciones actual en producción
1-2
sesiones para llegar a un prompt listo para testing
0 min
de contexto repetido. El proyecto ya lo tiene cargado
Cero
suposiciones. Claude pregunta antes de proponer
Lo que realmente cambia
Claude entra en cada chat ya formado para el proyecto. Sin briefs de 10 minutos al principio de cada sesión.
Los prompts generados ya incorporan las buenas prácticas de voz desde el primer borrador. No hay que corregirlas después.
El proceso de testing está integrado en el flujo. Claude sabe que tiene que pedir transcripciones y que el refinamiento es iterativo.
Lo que no cambia: el trabajo sigue siendo duro. Las instrucciones no hacen milagros. Los agentes de voz siguen requiriendo testing real, iteración y corrección de errores. Lo que cambia es que lo haces con un compañero que ya sabe de qué va el proyecto.

¿Te ha servido este artículo?

Cada semana comparto más casos reales, errores documentados y soluciones pragmáticas desde las trincheras de la IA en producción.

¿Montando agentes
de voz con IA?

Estoy en las trincheras todos los días. Si tienes dudas específicas
o quieres contrastar tu approach, hablemos.

Escríbeme directo. Sin formularios. Sin intermediarios.
Si tienes proyecto, dame contexto. Si no encajamos, te lo digo.

Trabajo diferente porque pienso diferente.

Sistemas que funcionan 24/7.

Mis reglas. Tus resultados.