Glosario
¿Qué es Base de datos vectorial?
También conocido como: almacén de vectores, base de datos de embeddings
Una base de datos vectorial es un almacén de datos especializado optimizado para la búsqueda de similitud sobre vectores de alta dimensión —típicamente los vectores de embedding producidos por modelos de lenguaje. A diferencia de una base de datos tradicional que encuentra filas que coinciden con valores exactos, una base de datos vectorial devuelve las filas cuyos vectores almacenados son matemáticamente más cercanos a un vector de consulta. Esta es la primitiva subyacente que hace que la generación aumentada por recuperación (RAG), la búsqueda semántica y los sistemas de recomendación funcionen a escala de producción.
Por qué las bases de datos vectoriales son diferentes
Las bases de datos relacionales tradicionales sobresalen en coincidencias exactas y consultas de rango —encontrar el cliente con id=123, encontrar pedidos entre dos fechas. Las bases de datos vectoriales resuelven un problema diferente: dado un vector de consulta, encontrar los N vectores almacenados más cercanos mediante alguna métrica de distancia (similitud coseno, producto escalar, distancia euclidiana). Hacer esto de manera eficiente sobre millones de vectores de alta dimensión requiere estructuras de indexación especializadas (HNSW, IVF, ScaNN) que las bases de datos tradicionales no implementan bien.
Los "vectores" en sí mismos suelen ser embeddings —matrices numéricas de longitud fija producidas por un modelo de lenguaje a partir de texto, imágenes o audio. Dos fragmentos de texto con significado similar producen embeddings que están cerca en el espacio vectorial. La base de datos vectorial almacena esos embeddings y encuentra otros similares en el momento de la consulta.
Bases de datos vectoriales comunes
El panorama de las bases de datos vectoriales tiene varios actores importantes. Pinecone es la oferta gestionada más utilizada y la más común para las primeras implementaciones. Weaviate es de código abierto con un fuerte filtrado y búsqueda híbrida. Qdrant es de código abierto con una API amigable para desarrolladores. pgvector es una extensión de PostgreSQL que le permite realizar búsquedas vectoriales en su base de datos Postgres existente —útil cuando no desea una pieza de infraestructura separada. Chroma es una opción más ligera para desarrollo y pequeñas implementaciones. La elección depende de la escala, las preferencias de infraestructura y si está realizando una búsqueda vectorial pura o híbrida (vector + palabra clave + filtrado de metadatos).
Bases de datos vectoriales en el contexto de la admisión legal con IA
Para los bufetes de abogados que utilizan agentes de voz con IA o chatbots, las bases de datos vectoriales suelen contener contenido de referencia específico del bufete: preguntas frecuentes del área de práctica, árboles de decisión de admisión, resúmenes de asuntos anteriores y documentación de reglas éticas. Cuando el agente necesita basar una respuesta en hechos específicos del bufete ("¿qué idiomas habla el bufete?"), incrusta la pregunta, consulta la base de datos vectorial, recupera los fragmentos más relevantes y los incluye en la instrucción del LLM. Sin una base de datos vectorial, el agente tiene que codificar todos los hechos del bufete en la instrucción del sistema (no escala) o alucinar.