
Índice del artículo
¿Qué son los embeddings?
Los embeddings son una forma de representar datos (por lo general texto, como palabras o frases) mediante vectores numéricos.
En el contexto del lenguaje, un embedding convierte el lenguaje humano en una serie de números, de tal manera que estos números capturan el significado de las palabras .
En otras palabras, los embeddings son una representación matemática de las palabras donde a cada palabra le corresponde un punto en un cierto espacio multidimensional.
Esta representación vectorial refleja las relaciones semánticas y contextuales entre las palabras, permitiendo que el ordenador “entienda” mejor qué palabras están relacionadas en cuanto a significado.
Por ejemplo, en un buen sistema de embeddings, las palabras sinónimas o estrechamente relacionadas tendrán representaciones vectoriales similares, mientras que palabras sin relación de significado tendrán vectores muy distintos.
Dicho de forma simple, un vector es como una lista de coordenadas (números) que podemos imaginar como un punto en un espacio geométrico. Para las palabras, ese “espacio” no es el espacio físico usual de 3 dimensiones, sino un espacio matemático de posiblemente decenas o cientos de dimensiones. Aunque no podamos visualizar fácilmente un espacio de, digamos, 100 dimensiones, el ordenador puede trabajarlo sin problema. Lo importante es que en ese espacio, palabras con significados parecidos aparecen cerca unas de otras, mientras que palabras con significados muy diferentes estarán lejos.
Este principio es la esencia de los embeddings: convierte el significado y el contexto de las palabras en una estructura que las máquinas pueden comparar numéricamente.
Fundamentos matemáticos
Matemáticamente, cada palabra (o unidad de información) se representa como un vector en un espacio multidimensional.
Podemos imaginar, para simplificar, un espacio de dos o tres dimensiones donde cada palabra es un punto. En realidad se usan muchas más dimensiones (por ejemplo, 100 o 300 números por palabra) para captar matices de significado.
La posición de cada punto (vector) se determina durante un proceso de aprendizaje automático: el sistema analiza enormes colecciones de texto y ajusta los números de los vectores de modo que palabras que aparecen en contextos similares terminen ubicadas en posiciones cercanas.
Así, el modelo aprende que “gato” y “perro”, por ejemplo, suelen aparecer en contextos relacionados con mascotas, y por ello sus vectores acaban siendo parecidos, mientras que “gato” y “mesa” no guardan relación y sus vectores quedan muy alejados .
En la figura se ilustra de forma conceptual un espacio de embeddings simplificado a tres dimensiones: cada punto representa una palabra y su ubicación viene dada por su vector numérico.

Vemos que las palabras de temática similar tienden a agruparse: los puntos azules corresponden a términos relacionados con animales (“Cat”, “Dog”, “Pet”, “Animal”), los cuales aparecen muy próximos entre sí; por otro lado, los puntos rojos representan palabras de la categoría de vehículos (“Car”, “Vehicle”) y forman un grupo separado, alejado del grupo de animales . La cercanía de dos puntos en este espacio refleja su similitud semántica: por ejemplo, “Cat” y “Dog” están cerca porque ambos son animales domésticos, mientras que “Cat” y “Car” aparecen muy distantes ya que sus significados no guardan relación.
Esta geometría muestra cómo los embeddings capturan las relaciones de significado, colocando palabras relacionadas más cerca y palabras diferentes más lejos.
Gracias a esta propiedad, podemos cuantificar la similitud de significado entre dos palabras (o textos) calculando la distancia o el ángulo entre sus vectores.
Cómo se calcula la similitud entre palabras o textos
Una medida muy común es la similitud del coseno, que se basa en el ángulo entre dos vectores en el espacio multidimensional.
Imaginemos dos vectores como flechas que parten del origen hacia los puntos que representan dos palabras. Si ambas flechas apuntan casi en la misma dirección (ángulo pequeño entre ellas), significa que los vectores son muy similares; esto corresponde a un coseno del ángulo cercano a 1, indicando que las palabras tienen un significado muy relacionado . Por el contrario, si las “flechas” forman un ángulo grande (casi perpendicular, ~90°), el coseno será cercano a 0, señalando que los términos no tienen prácticamente nada en común semánticamente.
En términos numéricos, coseno = 1 indica vectores idénticos, 0 indica que no hay relación, y -1 indicaría que apuntan en direcciones opuestas. En la práctica, para lenguaje natural raramente se ve -1 exacto, pero valores negativos podrían sugerir que una palabra es usada en contextos opuestos a la otra.
En resumen, convertir palabras a vectores nos permite aplicar conceptos matemáticos sencillos (distancias, ángulos) para medir similitudes de significado de forma objetiva.
Los embeddings también preservan la relación entre términos, no solo el significado
Otra ventaja interesante de los embeddings es que no solo ubican palabras similares juntas, sino que también preservan relaciones aritméticas entre conceptos.
Por ejemplo, en cierto modelo famoso de embeddings se observó la analogía “rey” – “hombre” + “mujer” ≈ “reina”. Si tomamos el vector de “rey”, le restamos el de “hombre” y sumamos el de “mujer”, obtenemos un vector muy cercano al de “reina”.
En términos de significado, la operación captura que «rey es a hombre lo que reina es a mujer», mostrando que el modelo aprendió el concepto de género gramatical y la relación de realeza de forma puramente matemática. Del mismo modo, “rey” y “reina” acaban cerca en el espacio vectorial (ambos son monarcas), mientras que “rey” y “mesa” quedan muy alejados, pues no comparten significado alguno.
Estos ejemplos ilustran cómo los embeddings codifican patrones y relaciones latentes del lenguaje y permiten desvelar analogías semánticas con operaciones matemáticas sencillas.
Embeddings en motores de búsqueda como Google
En los motores de búsqueda modernos, como Google, los embeddings juegan un papel clave para determinar la relevancia semántica entre lo que el usuario consulta y el contenido de las páginas web.
Su capacidad para transformar significado y relaciones entre textos en un sistema cuantificable, convierte a esta tecnología en la palanca más importante para analizar semánticamente la web y devolver al usuario el texto más significativo, el que mejor responde a su intención de búsqueda.
De las keywords al análisis semántico
Tradicionalmente, los buscadores se basaban sobre todo en hacer coincidir palabras clave exactas entre la consulta y la página.
Por ejemplo, si buscabas “clima Madrid hoy”, el motor trataba de encontrar páginas donde aparecieran esas tres palabras. El problema de un enfoque literal así es que puede pasar por alto sinónimos, contextos o la intención real del usuario.
Aquí es donde los embeddings aportan una mejora revolucionaria: permiten que el buscador vaya más allá de las palabras exactas y entienda el significado de la consulta para compararlo con el significado del contenido de las páginas.
¿Cómo lo hace Google exactamente?
Google emplea modelos de IA muy avanzados (por ejemplo BERT y, sobre todo, RankEmbed) para convertir tanto tu consulta como cada página de su índice en vectores numéricos que resumen su significado.
Cuando escribes una búsqueda, tu frase se transforma en un embedding; lo mismo sucede (de forma anticipada) con el texto de todas las páginas web.
Paso 1 – Crear los vectores
- Cada palabra y su contexto se codifican como una lista de números.
- Las páginas quedan representadas por vectores que reflejan sus temas principales.
- Así, “celular” y “móvil” terminan muy cerca en ese espacio porque significan lo mismo.
Paso 2 – Comparar vectores
Aquí es donde entra la novedad revelada en el juicio antimonopolio contra Google (2023-2025):
- Google no mide la similitud con el ángulo (coseno) entre los vectores, sino con el producto punto — dot product.
- El dot product consiste, literalmente, en multiplicar los números de ambos vectores uno a uno y sumar los resultados.
- Si el total es grande, la página y la consulta “apuntan” en la misma dirección y el vector de la página tiene “mucha fuerza” (magnitud alta).
- Así, Google tiene en cuenta tanto la orientación semántica como la intensidad del vector, premiando contenidos que además de ser relevantes aportan señales de confianza o popularidad (magnitud).
Ejemplo sencillo
Consulta: “cómo arreglar mi celular”
Página candidata: tutorial “cómo reparar tu móvil”
Los vectores comparten dirección (hablan del mismo tema) y, si el tutorial es completo y popular, su vector será largo. El dot product resultará alto, por lo que Google considerará muy relevante la página aunque no coincidan las palabras exactas.
¿Por qué eligieron el dot product?
- Velocidad: evita dividir entre la longitud de cada vector, algo crítico cuando hay que comparar millones de páginas en milisegundos.
- Más señales: la longitud del vector sirve para reflejar “confianza” (por ejemplo, páginas con más enlaces o mejor autoridad).
- Eficiencia a escala: RankEmbed es “extremadamente rápido” para consultas frecuentes; el coseno hubiera añadido cálculo extra sin ganar precisión en esos casos.
Paso 3 – Elegir los mejores resultados
Tras calcular el dot product entre la consulta y miles de páginas candidatas, Google ordena de mayor a menor puntuación y pasa solo las mejores a etapas más costosas (por ejemplo DeepRank). Esto explica por qué:
- Puede entender sinónimos (“celular” ≈ “móvil”) aunque las palabras no coincidan.
- Puede desambiguar términos polisémicos (“jaguar” animal vs. coche) usando el contexto del vector.
- Acepta preguntas en lenguaje natural (“¿Qué pasó en el mundo hoy?”) y las traduce a la intención correcta (mostrar noticias recientes).
De la densidad de keywords a la relevancia vectorial: la nueva palanca de crecimiento orgánico
Los buscadores ya no miran cuántas veces repites una palabra; ahora miden si tu página “suena” como la idea que busca la gente. Esto trae tres cambios clave:
- Organiza tu sitio por temas, no por keywords
Agrupa artículos que hablen del mismo asunto y enlázalos entre sí. Así, el buscador “ve” un bloque claro sobre ese tema y lo entiende mejor. - La fuerza del contenido también cuenta
Google compara “dirección” (de qué hablas) y “tamaño” del vector (qué tan completo y confiable es). Cuanta más calidad, enlaces y buenas reseñas tenga tu página, más “grande” será su número y más fácil aparecerá arriba. - Prueba y mide con vectores
Con herramientas de embeddings (OpenAI, BigQuery, etc.) puedes:- Detectar páginas que dicen casi lo mismo y evitar que compitan entre sí.
- Descubrir huecos de contenido donde aún no eres relevante.
- Probar cambios y ver si sube el clic o las reservas para ajustar tu estrategia.