Glosario
¿Qué es Generación Aumentada por Recuperación?
También conocido como: RAG
La Generación Aumentada por Recuperación (RAG) es una técnica que fundamenta un modelo de lenguaje grande en sus propios datos. En el momento de la consulta, un paso de recuperación encuentra los documentos (o fragmentos de documentos) más relevantes de un corpus que usted controla —típicamente utilizando una base de datos vectorial— y los incluye en la instrucción del LLM. Esto reduce drásticamente las alucinaciones y permite que el modelo responda preguntas sobre contenido que el modelo base nunca ha visto, sin el costo de reentrenamiento.
Cómo funciona RAG
Un sistema RAG tiene tres fases: indexación, recuperación y generación. Durante la indexación, sus documentos se dividen en fragmentos (párrafos, secciones o ventanas deslizantes de texto), cada fragmento se convierte en un embedding vectorial, y los vectores se almacenan en una base de datos vectorial (Pinecone, Weaviate, pgvector, Chroma).
En el momento de la consulta, la pregunta del usuario también se convierte en un vector. La base de datos vectorial encuentra los fragmentos cuyos vectores son más cercanos al vector de consulta —similitud semántica, no coincidencia de palabras clave. Esos fragmentos se incorporan a la instrucción del LLM como contexto.
Durante la generación, se le pide al LLM que responda la pregunta utilizando los fragmentos recuperados. Un sistema bien ajustado también instruye al modelo para que cite las fuentes o diga "No lo sé" si los fragmentos no contienen la respuesta.
Por qué RAG es importante
RAG aborda dos de las mayores limitaciones prácticas de los LLM: datos de entrenamiento obsoletos (los LLM solo saben lo que estaba en su conjunto de entrenamiento) y alucinación (los LLM fabrican información plausible cuando no están seguros). Al recuperar contenido fresco y autorizado en el momento de la consulta e instruir al modelo para que base las respuestas en ese contenido, RAG produce respuestas actuales y rastreables.
Para los bufetes de abogados específicamente, RAG es útil para: buscar expedientes de casos específicos del bufete, sacar a la luz precedentes de asuntos pasados del propio bufete, responder preguntas de las personas que llaman sobre políticas específicas del bufete (honorarios, idiomas hablados, horario de oficina) y asegurar que un agente de IA cite el texto de marketing real del bufete en lugar de inventar afirmaciones.
RAG y agentes de voz con IA
En los agentes de voz, RAG es lo que permite al agente responder preguntas de las personas que llaman utilizando información específica del bufete. "¿Qué idiomas hablan?" "¿Cuáles son sus horarios de oficina?" "¿Manejan casos de compensación laboral en Florida?" —estas son consultas RAG contra los propios documentos y configuración del bufete. La alternativa —codificar todo esto en la instrucción del sistema— no escala más allá de unos pocos hechos.
Cuándo RAG es la herramienta equivocada
RAG es excesivo para tareas donde la respuesta es estructurada y exacta (como "¿cuál es el saldo de la cuenta del usuario?" —eso es una consulta a la base de datos). También es imperfecto para tareas altamente conversacionales donde el LLM necesita un amplio conocimiento del mundo que no estaría en su corpus. Los sistemas modernos a menudo combinan RAG (para hechos específicos del bufete) con el conocimiento base del LLM (para conocimiento general del mundo), permitiendo que el modelo use lo que sea apropiado en cada turno.