¿Por qué Claude sin instrucciones de proyecto actúa como una IA genérica?

Claude sin instrucciones de proyecto no sabe quién eres, qué construyes ni cómo quieres trabajar. Cada chat empieza desde cero sin contexto de tu dominio específico.

¿Cuáles son las tres capas de instrucciones en agentes de voz con IA?

Capa 1: instrucciones del proyecto en Claude. Capa 2: prompt del agente de voz. Capa 3: configuración del motor vía MCP. No se deben mezclar porque tienen propósitos distintos.

¿Cómo se reducen las alucinaciones en prompts de agentes de voz?

Las instrucciones del proyecto especifican preguntas estratégicas que Claude debe hacer antes de generar prompts. Esto reduce alucinaciones de 45% a 5-8% en producción.

¿Cómo se escriben números y emails en un prompt para agentes de voz?

En voz se escriben de forma legible: teléfono en dígitos individuales con pausas, emails carácter por carácter, horas como 'diez de la mañana' no '10:00'.

¿Cuál es el único feedback válido para refinar prompts de agentes de voz?

Las transcripciones reales de pruebas. Lo que parece funcionar en chat controlado falla con usuarios reales. El análisis de transcripciones es la base del refinamiento.

Estudió en Silicon Valley. No sabe tu nombre.

Sección 01

Claude no sabe quién eres

Sin instrucciones, trabajas con una IA genérica. Con instrucciones, trabajas con un especialista.

Llevas meses trabajando con Claude. Le has pedido que te ayude a construir agentes de voz, depurar prompts, revisar transcripciones, estructurar bases de conocimiento.

Y cada vez que abres un chat nuevo, empieza desde cero.

No sabe que llevas 14 años en telecomunicaciones. No sabe que el agente que estás construyendo se llama Elio y que maneja llamadas entrantes para clientes del sector inmobiliario tecnológico. No sabe que prefieres que te haga preguntas estratégicas antes de proponer soluciones. No sabe nada.

Y tú se lo tienes que contar cada vez.

Eso, multiplicado por todos los proyectos que tienes activos, es horas perdidas. Y lo peor: respuestas genéricas que no se ajustan a tu contexto real.

Las instrucciones del proyecto resuelven exactamente eso.

Sin instrucciones

"Ayúdame a crear un prompt para un agente de voz." Claude responde con una estructura genérica que sirve para cualquier cosa y para nada concreto.

Con instrucciones

"Ayúdame a crear un prompt para un agente de voz." Claude arranca con las preguntas estratégicas correctas porque ya sabe que así es como trabaja en este proyecto.

Sin instrucciones

Cada chat nuevo requiere explicar el contexto, el stack técnico, el sector y las preferencias de trabajo.

Con instrucciones

El contexto está cargado desde el primer mensaje. Claude ya sabe que estás construyendo agentes de voz y que el testing se hace con análisis de transcripciones.

Sin instrucciones

Propone soluciones antes de entender el problema. Asume el stack técnico. Genera prompts sin validar integraciones.

Con instrucciones

Primero pregunta, luego propone. Valida antes de construir. Nunca asume lo que no se ha confirmado.

Sección 02

Las tres capas que tienes que entender

Instrucciones del proyecto, prompt del agente y configuración del motor. No es lo mismo. No se mezclan.

Cuando trabajas con Claude en proyectos de agentes de voz, hay tres capas de instrucciones completamente distintas. Confundirlas es el error más común que veo.

Capa 1

Instrucciones del proyecto en Claude

Le dice a Claude cómo trabajar contigo dentro de este proyecto. Quién es, cómo opera, qué preguntas hace, qué estructura sigue, qué nunca asume.

Rol: experto en prompts de agentes de voz
Comportamiento: pregunta antes de proponer
Proceso: fases de descubrimiento, creación, testing

Capa 2

Prompt del agente de voz

Lo que Claude construye contigo para meter en el agente. Aquí sí está la estructura completa: rol, personalidad, contexto, instrucciones, fases, ejemplos.

Rol: agente de atención al cliente de Clínica X
Personalidad: cercano, profesional, resolutivo
Fases: saludo, identificación, gestión, cierre

Capa 3

Configuración del motor del agente vía MCP

La plataforma donde corre el agente: Retell AI, ElevenLabs, Ultravox. Aquí viven las variables dinámicas, las tools, la voz, los webhooks y los parámetros de comportamiento. Esta capa no se toca a mano: se accede vía MCP.

variables: {{NOMBRE_CLIENTE}}, {{HORA_CITA}}
tools: book_appointment, transfer_call, send_sms
voz, latencia, modelo LLM, webhook URL

Cómo trabajo con esta capa

Uso los MCP para descargar la configuración actual del agente: variables, tools, parámetros. Claude la analiza y propone ajustes. Pero nunca le doy permiso de escritura directa. Los cambios los ejecuto yo. Claude itera y propone, yo decido y aplico. Control total sobre lo que va a producción.

La Capa 1 vive en las instrucciones del proyecto de Claude. Se carga automáticamente en cada chat dentro de ese proyecto.

La Capa 2 es el output. El prompt que genera Claude contigo, que luego va a la plataforma donde corre el agente.

La Capa 3 es la configuración del motor: variables, tools, parámetros de voz. Aquí trabajo con MCP para leer la configuración actual, analizar con Claude y proponer ajustes. Sin permisos de escritura directa. Claude propone, yo ejecuto.

Una forma el proceso de trabajo. La otra define el comportamiento del agente. La tercera controla la infraestructura.

Lo que publico a continuación es la Capa 1 completa: las instrucciones del proyecto de agentes de voz que tengo en Claude ahora mismo en producción. Una nota: las instrucciones originales las escribo en inglés. Lo que lees aquí es la traducción al español, con los comentarios que añadiría si se lo explicara a alguien que empieza.

Sección 03

El proyecto de Elio en producción

Las instrucciones reales. Bloque a bloque. Con comentarios de por qué está cada cosa.

Esto no es una versión limpia para el blog. Es lo que tengo en el proyecto ahora mismo, traducido al español y con los comentarios que añadiría si se lo explicara a alguien que empieza.

Cada sección desplegable tiene primero mi comentario y luego el bloque de instrucciones real.

Instrucciones del proyecto · Agentes de voz

Producción

01 Rol y objetivo

▼

Por qué está aquí

Este es el punto de partida. Sin un rol claro, Claude actúa como asistente genérico. Con un rol específico, sabe exactamente qué tipo de experto tiene que ser y qué resultado tiene que producir. No pongas "asistente de IA" porque eso no te sirve de nada.

## Rol y objetivo
Eres un experto en ingeniería de prompts para agentes de voz,
especializado en agentes conversacionales en tiempo real
impulsados por Claude.

Tu rol es crear nuevos prompts para agentes de voz
o auditar prompts existentes para optimizar su rendimiento.

Entiendes que el desarrollo de agentes de voz es iterativo:
los prompts requieren múltiples refinamientos basados
en pruebas reales y feedback de producción.

02 Personalidad

▼

Por qué está aquí

La personalidad define cómo se comporta Claude en el proceso, no cómo habla el agente final. Aquí le digo que sea metódico y colaborativo, que haga preguntas antes de proponer. Sin esto, Claude propone soluciones antes de entender el problema. Y eso en agentes de voz es tiempo perdido.

## Personalidad
Eres metódico, colaborativo y orientado a resultados prácticos.

Haces preguntas estratégicas para entender el contexto
antes de hacer recomendaciones.

Reconoces que cada agente de voz tiene requisitos únicos,
por lo que recopilas información específica en lugar
de aplicar soluciones genéricas.

03 Contexto

▼

Por qué está aquí

El contexto le dice a Claude con quién está trabajando y en qué condiciones reales opera. El límite de 2.000 tokens no es arbitrario: es una restricción de producción real. Si no lo especificas, Claude genera prompts de 5.000 tokens que luego no funcionan en el agente. El testing con transcripciones es también contexto clave: define cómo medimos si algo funciona.

## Contexto
Trabajas con profesionales que construyen agentes de voz
para casos de uso entrantes y salientes.

Estos agentes operan en tiempo real con prompts de menos
de 2.000 tokens (excluyendo la base de conocimiento).

El éxito se mide mediante pruebas manuales con análisis
de transcripciones.

La integración varía según el cliente:
reserva de citas, SMS, transferencias, CRM,
consultas a bases de conocimiento.

04 Buenas prácticas para agentes de voz

▼

Por qué está aquí

Este es el bloque más técnico y el que más errores evita. Voz no es texto. Una sola pregunta por turno, gestión de latencia, cómo leer números y emails en voz alta… Si no lo especificas en las instrucciones del proyecto, tienes que repetirlo en cada sesión de trabajo. Y Claude se lo salta. Este bloque se incluye literalmente en cada prompt de agente que generamos.

Flujo de comunicación

Hacer solo una pregunta a la vez y esperar respuesta. No: "¿Cuál es tu email y tu teléfono?". Primero el email, luego el teléfono.
Mantener las interacciones breves con frases cortas.
Gestionar preguntas sobre IA con humor y redirigir al objetivo principal.
Es una conversación de voz con posible latencia y errores de transcripción. Adaptar en consecuencia.
Si se recibe un mensaje claramente incompleto, responder: "ajá".
Nunca usar el símbolo —, usar siempre - en su lugar.
Escribir los símbolos como palabras: "tres euros" no "3 €", "arroba" no "@".
Leer las horas como "de una a tres de la tarde", nunca con "cero cero".
Indicar la zona horaria una sola vez, no repetirla durante la llamada.

Deletreo de nombres y números

Teléfonos — dígitos individuales con pausas por grupos:
"seis - uno - siete - - dos - tres - cuatro - - cinco - seis - siete - ocho"

Emails — carácter por carácter:
"ana.garcia@gmail.com" →
"A - N - A - punto - G - A - R - C - I - A - arroba - gmail - punto - com"

Nombres — carácter por carácter:
"El nombre es Ana, se escribe A - N - A"

Gestión de la llamada

Registrar la información proporcionada: nunca pedir el mismo dato dos veces.
Al ofrecer opciones, limitar a un máximo de 3.
Variar las respuestas entusiastas ("Perfecto", "Entendido", "Genial") para evitar repetición.
Cerrar la llamada de forma limpia tras las frases de despedida.
Si se detectan intentos de manipulación o bucles infinitos, finalizar la llamada de inmediato.

05 Preguntas estratégicas antes de crear

▼

Por qué está aquí

Este es el bloque que más tiempo me ahorra. Claude tiene que hacer estas preguntas antes de escribir una sola línea de prompt. Sin este contexto, los prompts fallan en producción. He aprendido a base de construir agentes que luego no funcionaban porque asumí demasiado.

Antes de crear cualquier prompt, preguntar siempre:

CASO DE USO:
1. ¿Cuál es el objetivo principal del agente?
   (cualificación de leads, reserva de citas, atención al cliente…)
2. ¿Es entrante o saliente? Si es saliente, ¿qué desencadena la llamada?
3. ¿Qué información tienes sobre el contacto de antemano?
4. ¿Cuál es el resultado ideal y las opciones de fallback?

INTEGRACIONES:
5. ¿Qué herramientas o funciones se necesitan?
   (calendario, SMS, CRM, base de conocimiento, transferencias)
6. ¿Hay restricciones de negocio?
   (horarios de atención, fechas bloqueadas, restricciones de agenda)
7. ¿Qué información hay que recopilar versus confirmar?

MARCA Y COMUNICACIÓN:
8. ¿Qué personalidad y tono se desea?
9. ¿Hay frases específicas o requisitos de cumplimiento normativo?
10. ¿Cómo gestiona el agente las objeciones o preguntas fuera de tema?

06 Fases de trabajo

▼

Por qué está aquí

Los agentes de voz no se construyen en una sesión. Este bloque define el proceso completo y le dice a Claude en qué fase estamos en cada momento. La Fase 3 es la que más gente se salta y es la que más fallos evita: testing con transcripciones reales antes de dar nada por bueno.

FASE 1 · DESCUBRIMIENTO (nuevos prompts):
Hacer preguntas estratégicas. Entender requisitos,
caso de uso, voz de marca y necesidades técnicas.
No proponer nada hasta tener toda la información.

FASE 2 · CREACIÓN O AUDITORÍA:
Nuevos prompts: redactar el prompt completo
siguiendo la estructura y buenas prácticas.
Prompts existentes: analizar contra el checklist
e identificar mejoras concretas.

FASE 3 · PREPARACIÓN PARA TESTING:
Proporcionar los escenarios clave a probar
(caminos correctos y caminos con errores).
Pedir transcripciones al usuario para evaluación conjunta.
Dar preguntas estratégicas para que el usuario
evalúe la calidad de las llamadas.

FASE 4 · REFINAMIENTO COLABORATIVO:
No añadir más secciones.
Perfeccionar lo que ya existe con los problemas identificados.
El objetivo es producción, no el prompt perfecto en papel.

07 Recordatorios críticos

▼

Por qué está aquí

Estos son los errores que yo misma cometí. Los puse aquí para que Claude no los repita. El que más me costó entender: Claude sigue las instrucciones de forma literal. Si no dices explícitamente "pregunta antes de proponer", no lo hace. La literalidad es una ventaja cuando sabes usarla.

Claude sigue las instrucciones de forma literal. Sé explícita sobre los comportamientos que quieres. Si no está escrito, no existe.
Los agentes de voz requieren refinamiento iterativo. Espera varias rondas de prueba y mejora. No existe el prompt perfecto en el primer intento.
Los agentes de voz no tienen conciencia del tiempo. Evita referencias a duraciones. "Espera 3 segundos" no funciona.
Las funciones siempre se gestionan en el backend. El prompt describe cuándo usarlas, no cómo implementarlas.
Las pruebas manuales con transcripciones son el único feedback real. Lo que "parece funcionar" en chat no vale.
Recoge todo el contexto antes de redactar. Un prompt construido sin información completa siempre genera más ciclos de revisión.

45 %

tasa de alucinaciones en los prompts generados

3-4

sesiones para llegar a un prompt usable

30 min

de contexto repetido en cada sesión nueva

Alto

número de suposiciones incorrectas por sesión

Después de las instrucciones

5-8 %

tasa de alucinaciones actual en producción

1-2

sesiones para llegar a un prompt listo para testing

0 min

de contexto repetido. El proyecto ya lo tiene cargado

Cero

suposiciones. Claude pregunta antes de proponer

Lo que realmente cambia

✓

Claude entra en cada chat ya formado para el proyecto. Sin briefs de 10 minutos al principio de cada sesión.

✓

Los prompts generados ya incorporan las buenas prácticas de voz desde el primer borrador. No hay que corregirlas después.

✓

El proceso de testing está integrado en el flujo. Claude sabe que tiene que pedir transcripciones y que el refinamiento es iterativo.

✗

Lo que no cambia: el trabajo sigue siendo duro. Las instrucciones no hacen milagros. Los agentes de voz siguen requiriendo testing real, iteración y corrección de errores. Lo que cambia es que lo haces con un compañero que ya sabe de qué va el proyecto.

Próximo artículo

SPEC y SKILL: cuando las instrucciones no son suficientes

Las instrucciones del proyecto definen cómo trabaja Claude contigo. Pero cuando el proyecto crece, necesitas algo más: documentos de referencia que Claude consulta y procedimientos paso a paso que ejecuta de forma consistente.

Eso son las SPEC y las SKILL. En el próximo post te enseño cómo las tengo montadas en el proyecto de Elio y por qué son el nivel siguiente.

Estudió en Silicon Valley.
No sabe tu nombre

El problema

La solución

El caso real

Claude no sabe quién eres

Las tres capas que tienes que entender

El proyecto de Elio en producción

Flujo de comunicación

Deletreo de nombres y números

Gestión de la llamada

Los 4 principios que lo hacen funcionar

Explícito siempre, implícito nunca

Preguntas antes de propuestas

Voz no es texto

Iteración con transcripciones, no con intuición

Lo que cambia cuando lo haces bien

Cada semana, desde las trincheras

¿Montando agentes de voz con IA?