Bases de datos vectoriales sin hype: qué hacen y cuándo las necesitas

La base de datos vectorial se volvió moda de la noche a la mañana. Esto es lo que hacen, el problema que resuelven y las señales de si la necesitas.

tools2026-05-19 14:20 KST·Editor jefe·7 min

"Base de datos vectorial" pasó de jerga oscura a casilla obligatoria en cosa de un año, lo cual suele ser señal de que hay más gente diciendo las palabras que entendiéndolas. La tecnología es genuinamente útil, pero el hype ocultó una verdad simple: una base de datos vectorial resuelve un problema específico, y muchos proyectos que recurren a una no tienen en realidad ese problema. Esta es una explicación llana de qué hacen estos sistemas, por qué existen y cómo saber si necesitas siquiera una dedicada.

El problema que resuelven: significado, no palabras clave

Las bases de datos y los buscadores tradicionales coinciden por tokens exactos. Busca "coche" y obtienes documentos que contienen "coche", no documentos sobre automóviles, vehículos o sedanes. Eso está bien para muchas tareas e inútil para otras. Si quieres encontrar cosas por su significado en lugar de por las palabras literales, la coincidencia exacta se desmorona, porque el lenguaje expresa la misma idea en incontables formas superficiales.

La solución es representar el significado de forma numérica. Un modelo convierte cada fragmento de texto —una frase, un párrafo, un documento— en una lista de números llamada embedding, situada de modo que las cosas con significado similar caigan cerca unas de otras en un espacio de muchas dimensiones. "Coche" y "automóvil" acaban juntos aunque no compartan letras. Buscar se convierte en un problema de geometría: encontrar los puntos almacenados más cercanos al punto que representa tu consulta.

Qué es realmente un embedding

Un embedding es la salida de un modelo entrenado para que la similitud semántica se convierta en proximidad espacial. No necesitas entender las matemáticas para usarlo; necesitas entender la consecuencia. Cada elemento se convierte en un vector de números de longitud fija, y "cuán similares son estas dos cosas" se convierte en "cuán cerca están estos dos vectores". Ese único movimiento —convertir el significado en distancia— es el cimiento sobre el que descansa todo lo demás.

Algo crucial: el modelo de embeddings y la base de datos son cuestiones separadas. El modelo produce los vectores; la base de datos los almacena y encuentra rápidamente los cercanos. Puedes cambiar uno sin el otro, aunque volver a generar los embeddings de una colección grande al cambiar de modelo es trabajo real. Mantener distintos estos dos roles en la cabeza evita la mayor parte de la confusión en torno a este tema.

También ayuda saber lo que un embedding no es. No es un resumen que puedas leer, no es una copia comprimida del texto, ni algo que puedas revertir hasta las palabras originales por inspección. Es una coordenada —una posición en un espacio que el modelo aprendió— cuyo único significado es relativo a otras coordenadas producidas por el mismo modelo. Los vectores de dos modelos distintos no son comparables, por eso cambiar de modelo significa volver a generar todos los embeddings. Aférrate a eso y el resto del tema deja de ser misterioso.

Por qué "encontrar los vectores más cercanos" es difícil a escala

Encontrar los puntos más cercanos suena trivial, y para una colección pequeña lo es: comparas tu consulta con cada vector almacenado y te quedas con el más cercano. El problema es que este enfoque de fuerza bruta crece linealmente con tus datos. Con un puñado de elementos es instantáneo; con millones, comparar contra cada uno en cada consulta se vuelve demasiado lento.

Esta es la verdadera razón por la que existen las bases de datos vectoriales especializadas. Implementan la búsqueda del vecino más cercano aproximado: una indexación astuta que encuentra vectores que están casi con certeza entre los más cercanos sin comprobarlos todos. La parte "aproximada" es el trato. Aceptas una pequeñísima probabilidad de no encontrar la coincidencia realmente más cercana a cambio de resultados órdenes de magnitud más rápidos. Para la búsqueda semántica, ese trato casi siempre vale la pena, porque "muy cerca" es tan bueno como "lo más cerca" cuando los significados son difusos de todos modos.

La conexión con RAG y las aplicaciones de IA

La búsqueda vectorial explotó en popularidad junto a los grandes modelos de lenguaje, y el vínculo es la generación aumentada por recuperación (RAG). Cuando quieres que un modelo responda usando tus propios documentos, no puedes meterlo todo en el prompt. En su lugar generas los embeddings de tus documentos, almacenas los vectores, generas el embedding de la pregunta del usuario y recuperas el puñado de fragmentos semánticamente más relevantes para entregárselos al modelo como contexto. El modelo entonces responde anclado en esos pasajes.

Por eso todo tutorial de RAG incluye un almacén de vectores. Pero fíjate en lo que la base de datos vectorial hace y no hace: es la capa de recuperación, la parte que encuentra texto relevante rápido. No entiende tu pregunta ni escribe la respuesta; eso lo hace el modelo de lenguaje. Mantener clara esta frontera evita que culpes a la base de datos de lo que en realidad es un problema de calidad de recuperación o de prompting, y viceversa.

Cuándo no necesitas una dedicada

Aquí está la parte que el hype se salta. Una base de datos vectorial separada y especializada se justifica cuando tienes una colección grande y necesitas búsqueda semántica rápida a escala. Por debajo de ese umbral, las opciones más simples suelen servirte mejor. Para colecciones modestas, la comparación por fuerza bruta en código simple es lo bastante rápida y mucho más sencilla de operar. No hay nada de malo en calcular la similitud directamente cuando los datos son pequeños.

Y lo que es más importante, muchas bases de datos de propósito general ahora admiten la búsqueda vectorial como una función. Si ya operas una base de datos relacional, añadirle capacidad vectorial puede suponer mucha menos carga operativa que levantar y mantener un segundo sistema especializado. La opción honesta por defecto es añadir búsqueda vectorial a la base de datos que ya tienes, y graduarte a un sistema dedicado solo cuando la escala o las funciones especializadas realmente lo exijan. Adoptar una nueva pieza de infraestructura debería ser respuesta a una restricción real, no un reflejo.

Las partes que deciden la calidad en silencio

Si construyes búsqueda semántica, la base de datos rara vez es donde vive o muere la calidad. Dos decisiones aguas arriba importan más. La primera es el modelo de embeddings: distintos modelos capturan el significado de forma distinta, y uno afinado para tu tipo de texto e idioma superará a uno genérico sin importar cómo almacenes los vectores. La segunda es el chunking —cómo divides los documentos antes de generar los embeddings—. Los fragmentos demasiado grandes diluyen el significado; los demasiado pequeños pierden contexto. Equivócate aquí y ninguna base de datos podrá salvarte.

Un tercer factor, fácil de olvidar, es que la búsqueda semántica no siempre es mejor que la búsqueda por palabras clave. Para consultas sobre identificadores, códigos o nombres exactos, la coincidencia literal gana. Muchos sistemas potentes combinan ambas —palabras clave y semántica— en lugar de tratar los vectores como un reemplazo. Recurrir a los vectores no significa abandonar las técnicas de búsqueda que ya funcionan; los mejores resultados suelen venir de usar ambas juntas.

También está la cuestión de qué almacenas junto a cada vector. Los sistemas reales rara vez buscan vectores de forma aislada: también filtran por metadatos, devolviendo solo resultados de un usuario, rango de fechas o tipo de documento dado. Una capa vectorial que no puede filtrar de forma eficiente fuerza soluciones torpes, así que si tu caso de uso necesita tanto coincidencia por significado como filtrado estructurado, sopesa esa capacidad con tanto peso como la velocidad de búsqueda en bruto. La coincidencia semántica más limpia es inútil si pertenece a un documento que el usuario no tiene permiso para ver.

En resumen

Una base de datos vectorial hace una cosa bien: encuentra los elementos cuyo significado está más cerca de una consulta, rápido, incluso en colecciones grandes. Esa capacidad es genuinamente potente y sustenta la búsqueda semántica y RAG. Pero es un componente, no un ingrediente mágico: el modelo de embeddings y tu estrategia de chunking deciden la calidad, y a muchos proyectos les sirve mejor añadir búsqueda vectorial a una base de datos existente, o una simple comparación por fuerza bruta, que adoptar un sistema especializado. Entiende primero el problema; recurre a la herramienta dedicada solo cuando la escala te obligue.

#vector-database#embeddings#semantic-search#rag

Fuentes primarias

PostgreSQL documentation Hugging Face documentation