RAGBuilder
Sistema de generación de Knowledge Bases
Sistema operativo
SONIA IA & MILI PÉREZ

RAGBuilder

Convierte webs, vídeos, documentos y grabaciones en bases de conocimiento perfectas para agentes de voz.

Cómo funciona
Ingesta múltiple
Web, YouTube, PDF, DOC y grabaciones de audio en un solo pipeline.
Voice-optimized
Output específico para agentes de voz. Sin tablas, sin símbolos, chunks de 20 segundos.
Modular
KB separada en módulos temáticos. Actualiza precios sin regenerar todo el sistema.
Estado de implementación
Prototipo v1.0 — Pendiente de backend
Implementado en este prototipo
UI completa del pipeline
Flujo de 3 pasos con animaciones y estado
Selector de fuentes y tipo KB
Voice Agent vs Chatbot — 5 tipos de fuente
Visor de módulos Markdown
Copiar y descargar cada módulo .md
Detección de gaps
Sección de conocimiento faltante
Estadísticas de KB
Módulos, chunks, palabras y gaps
Historial en sidebar
KBs generadas visibles en sesión
Pendiente — Conexiones API (n8n)
Firecrawl API — Scraping web
firecrawl.dev
Nodo HTTP POST en n8n → api.firecrawl.dev/v1/crawl · Credencial: firecrawl_api_key · Header Auth Bearer · limit: 50 páginas
YouTube Data API v3 — Transcripciones
console.cloud.google.com
Nodo HTTP GET → googleapis.com/youtube/v3/captions · Credencial: youtube_api_key · Requiere proyecto Google Cloud
OpenAI Whisper API — Transcripción de audio
platform.openai.com
Nodo HTTP POST multipart → api.openai.com/v1/audio/transcriptions · Credencial: openai_api_key · Modelo: whisper-1 · Idioma: es
Anthropic Claude API — Estructuración con IA
console.anthropic.com
Nodo HTTP POST → api.anthropic.com/v1/messages · Credencial: anthropic_api_key · Header: x-api-key · Modelo: claude-opus-4-5 · max_tokens: 8192
Google Drive — Almacenamiento de módulos .md
console.cloud.google.com
Nodo Google Drive en n8n · Credencial: google_drive_oauth · OAuth2 scope: drive.file · Crea carpeta kb-[cliente]/ con los 7 archivos .md
Pendiente — Funcionalidades frontend
Upload real de archivos
Input file → binario → n8n webhook
Llamada real al webhook n8n
POST /webhook/ragbuilder con payload completo
Polling de estado del workflow
El frontend consulta progreso real cada 2s
Persistencia de historial
Google Sheets o DB con KBs anteriores
Edición inline de módulos
Editar chunks directamente en el visor
Export directo a Retell AI / Ultravoz
Subida automática via API a la plataforma destino
Nota para implementación — Sonia IA
El workflow de n8n recibe un webhook POST en /webhook/ragbuilder con el JSON de configuración del cliente. Procesa en paralelo las ramas activas (web, youtube, docs, audio), merge el output limpio y lo envía a Claude API con el prompt maestro. El resultado se parsea en 7 archivos .md y se guarda en Google Drive en kb-[cliente]/. Arquitectura completa documentada en RAGBuilder Arquitectura v1.0.docx.
01 — Configuración

Nueva Knowledge Base

Define el cliente, selecciona las fuentes y configura los parámetros de ingesta.

Paso 1 Datos del cliente
Paso 2 Tipo de Knowledge Base
Voice Agent
Sin tablas · Chunks <20s · Lenguaje conversacional
Chatbot / GPT
Markdown · Tablas · Formato visual completo
Paso 3 Fuentes de información Selecciona una o más
Web corporativa
Páginas de producto, servicios, about
Centro de ayuda
Artículos de soporte, FAQs, guías
Canal YouTube
Transcripciones automáticas de vídeos
Documentos
PDF, DOC, tarifas, contratos
Grabaciones de audio
Llamadas .mp3 / .wav / .m4a
Paso 4 Parámetros de las fuentes
Web corporativa
Prototipo — simulación de pipeline

La integración real con Firecrawl, YouTube API y Whisper se implementa en n8n. Este prototipo simula el proceso completo.

02 — Procesamiento

Pipeline en ejecución

Procesando: —

Módulo 01
Scraping web — Firecrawl
En espera...
Módulo 02
YouTube — Transcripciones
En espera...
Módulo 03
Parser — Documentos
En espera...
Módulo 04
Whisper — Transcripción de audio
En espera...
Motor central
Limpieza y normalización
En espera...
Claude API
Estructuración con IA — Voice-optimization
En espera...
Output
Generación de módulos Markdown
En espera...
03 — Knowledge Base

Knowledge Base — netelip

7 módulos generados · Voice Agent · Español  Demo — datos simulados

7
Módulos
84
Chunks
6.2k
Palabras
3
Gaps
01_producto_servicios.md
⬡ Datos simulados
Selecciona un módulo para ver su contenido.

Gaps de conocimiento detectados

Copiado al portapapeles