RAG, la búsqueda semántica y las recomendaciones — el trabajador silencioso que está detrás de todos ellos es el embedding (vector). En una frase, es "una técnica para convertir el significado de las palabras en una secuencia de números". Poco vistoso, pero es la base de la búsqueda y del aprovechamiento del conocimiento en la era de la IA.

Este artículo explica, para principiantes, qué es un embedding, por qué puede medir el significado, para qué se usa, cómo elegir un modelo y qué son las bases de datos vectoriales y cómo empezar.

EMBEDDING · CONVERTIR EL SIGNIFICADO EN NÚMEROS

Cuanto más cercano el significado, más cercano el vector

— la base de la búsqueda, RAG, la clasificación y las recomendaciones

🔢

Convertir el significado en números

Convierte el texto en una "secuencia de números" con la que una máquina puede trabajar.

📍

Cerca = similar

Las palabras con significado cercano ocupan posiciones cercanas en el espacio.

🔎

Buscar por significado

Encuentra cosas por "cercanía de significado", no por coincidencia exacta de palabras.

1. ¿Qué es un embedding (vector)?

Un embedding es el "significado" de un texto (o de una imagen, etc.) convertido en una secuencia de números: un vector. Por ejemplo, la palabra "perro" se sustituye por una lista de cientos a miles de números como [0.21, -0.78, 0.34, ...]. Para un humano parecen números sin sentido, pero esta secuencia es un conjunto de "coordenadas del significado".

Imagina un "mapa del significado". Igual que las ciudades cercanas en un mapa están geográficamente próximas, en el espacio de embeddings las palabras con significado cercano se colocan unas junto a otras. "Perro" y "cachorro" están cerca; "perro" y "coche" están lejos. Poder calcular esta "distancia" es justamente el quid de la cuestión.

💡 En una línea: un embedding = "una técnica que convierte el significado de las palabras en coordenadas numéricas". Una computadora no puede entender directamente el significado del texto, pero una vez que es números puede calcular la "cercanía de significado".

2. Por qué la "cercanía" mide el significado

Los embeddings se construyen aprendiendo, a partir de enormes cantidades de texto, "qué palabras tienden a usarse juntas". Como resultado, las palabras usadas en contextos similares obtienen números similares. La cercanía de dos vectores se puede cuantificar con medidas como la similitud del coseno (cosine similarity), donde más cerca de 1 significa "más similar en significado".

Cercanía de significado con "perro" (ilustrativo)

perro ↔ cachorromuy cerca
perro ↔ gatocerca (animal)
perro ↔ cochelejos

※ Ilustración conceptual. En un ejemplo famoso, las relaciones de significado aparecen como aritmética de vectores: "rey − hombre + mujer ≈ reina".

Un vector real está formado por cientos a miles de números (dimensiones), y esa enorme cantidad expresa innumerables facetas del significado — "¿es un animal?", "¿un vehículo?", "¿grande o pequeño?" — poco a poco. Más dimensiones capturan matices más finos, pero los costos de almacenamiento y cómputo aumentan en consecuencia.

Así, aun cuando los caracteres no coinciden, una máquina puede juzgar "si el significado es cercano". Ese es el mecanismo real detrás de tratar "IA" e "inteligencia artificial" como lo mismo, o de encontrar un documento redactado como "pasos para cancelar y obtener un reembolso" a partir de una pregunta como "quiero recuperar mi dinero".

3. ¿Para qué se usa? (RAG, búsqueda semántica)

Los embeddings rara vez se usan por sí solos: sustentan diversas funciones construidas sobre la "cercanía de significado". Estos son los usos principales.

RAG (generación aumentada por recuperación)

Encuentra documentos cercanos en significado a la pregunta y se los entrega a la IA como fundamento. El corazón de RAG.

Búsqueda semántica

Busca por significado, no por coincidencia de palabras clave. Se encuentra aunque esté redactado de otra forma.

Clasificación y deduplicación

Ordena consultas automáticamente y encuentra documentos similares o duplicados.

Recomendaciones

Muestra "productos o artículos similares a este" por cercanía de significado.

En particular, RAG no puede existir sin embeddings. Un sistema que busca en documentos internos y hace que la IA responda funciona vectorizando los documentos de antemano. Más allá del texto, también se están extendiendo los embeddings multimodales, que colocan imágenes y audio en el mismo espacio.

4. Cómo elegir un modelo de embedding

Los embeddings los produce un "modelo de embedding" dedicado. Hay, a grandes rasgos, dos opciones.

Tipo API (fácil, sin GPU)

OpenAI (text-embedding-3), Cohere, Google Gemini, Voyage y otros. Solo hay que llamar a la API: no se necesita infraestructura. La forma fácil de empezar.

Tipo open source (gratis, autoalojado)

BGE-M3, Nomic Embed, Qwen3 y otros. De uso gratuito, pero necesitas un entorno para ejecutarlo. Bueno para la privacidad y el costo.

💡 Matryoshka: algunos modelos más nuevos te permiten reducir el número de dimensiones a posteriori. Por ejemplo, reducir de 3.072 dimensiones a 1.024 conserva, según se reporta, alrededor del 95% de la calidad, recortando el costo de almacenamiento y de búsqueda a aproximadamente un tercio. Útil para equilibrar costo y precisión.

※ Los nombres de modelos y las cifras se citan de diversas guías y publicaciones (a junio de 2026). El mejor modelo varía según el idioma, el caso de uso y el presupuesto, así que la forma segura es probar y elegir.

5. Bases de datos vectoriales y cómo empezar

Los embeddings que creas se guardan en una base de datos vectorial (vector DB). Es una base de datos especializada en encontrar rápidamente "los más cercanos a la pregunta" entre enormes cantidades de vectores; algunos ejemplos son Pinecone, Weaviate, Qdrant, Chroma y pgvector. Esto se convierte en el "motor de búsqueda" de la búsqueda semántica y de RAG.

Empezar es sencillo.

  • ① Elige un modelo de embedding: un tipo API (por ejemplo, text-embedding-3-small de OpenAI) es fácil para comenzar.
  • ② Vectoriza y guarda los documentos: convierte tus documentos en vectores con el modelo y mételos en la base de datos vectorial.
  • ③ Vectoriza la pregunta y busca: vectoriza la pregunta con el mismo modelo y extrae los documentos más cercanos.

Estos tres pasos son exactamente la base de implementar RAG. Mide y mejora la precisión de la búsqueda que construyas con las evaluaciones de IA (evals).

Resumen

Tres ideas clave sobre los embeddings.

  • Qué es: una técnica que convierte el "significado" de las palabras en una secuencia de números (un vector). Cuanto más cercano el significado, más cercano el vector.
  • Su papel: la base de RAG, la búsqueda semántica, la clasificación, la deduplicación y las recomendaciones. Permite trabajar por "significado", no por coincidencia exacta de palabras.
  • Cómo empezar: comienza fácilmente con un modelo de tipo API. Guarda en una base de datos vectorial y busca. Ajusta el costo con Matryoshka.

Los embeddings son el primer paso para construir búsqueda y aprovechamiento del conocimiento con IA. Empieza vectorizando dos frases con un modelo de embedding y calculando su cercanía. Lee RAG y cómo funcionan los LLM junto con este artículo para tener la imagen completa.

Para mejorar aún más la precisión de la búsqueda por embeddings, el siguiente paso es el «reranking». Lee qué es el reranking para reordenar los candidatos por relevancia y elevar la precisión de RAG.

Preguntas frecuentes

P. ¿Cuál es la diferencia entre un embedding y un LLM?

R. Tienen papeles distintos. Un LLM es un modelo que genera texto; un modelo de embedding es un modelo que convierte el significado en números. En RAG cooperan: el embedding encuentra los documentos relevantes y el LLM convierte el resultado en prosa.

P. ¿Más dimensiones siempre es mejor?

R. No necesariamente. Más dimensiones aumentan la capacidad expresiva, pero también el costo de almacenamiento y de búsqueda. Con un modelo compatible con Matryoshka puedes recortar dimensiones manteniendo la calidad casi intacta, lo que facilita equilibrar costo y precisión.

P. ¿Es gratis usarlo?

R. Los modelos de embedding open source (como BGE-M3) son gratuitos. Los de tipo API suelen cobrar una pequeña tarifa, pero los embeddings son mucho más baratos que la generación. Se recomienda empezar con un plan gratuito o con un conjunto de datos pequeño.

P. ¿Necesito una base de datos vectorial?

R. Para cantidades pequeñas puedes buscar con cálculo sencillo, pero a medida que crecen los documentos, una base de datos vectorial dedicada se vuelve práctica. Las opciones van desde unas fáciles como Chroma hasta complementos como pgvector para una base de datos existente, así que puedes elegir según la escala.