Los modelos de lenguaje de gran tamaño (LLM) han evolucionado rápidamente, y Mercury – desarrollado por Inception Labs – representa un nuevo enfoque prometedor. Denominado Mercury Scale Diffusion LLM, este modelo introduce la técnica de difusión en el terreno del lenguaje, alejándose de la generación secuencial tradicional. A continuación, vemos la arquitectura y enfoque técnico de Mercury, lo comparamos con otros LLM destacados lanzados en 2025, analizamos su eficiencia y costos, evaluamos su rendimiento en benchmarks y aplicaciones industriales, y resumimos sus ventajas y desventajas frente a los modelos clásicos.

Arquitectura y enfoque técnico de Mercury (Diffusion LLM)
Mercury es uno de los primeros LLM comerciales basados en modelos de difusión para texto, también llamados dLLM (diffusion Large Language Model). A diferencia de los LLM tradicionales de tipo transformer, que generan texto palabra por palabra (token por token) de izquierda a derecha, Mercury emplea un proceso iterativo de difusión de texto. En términos simples, comienza con una representación “ruidosa” o parcialmente enmascarada de la salida completa deseada y luego la refina gradualmente en paralelo en todos los tokens hasta obtener una respuesta coherente
Este enfoque coarse-to-fine (de borrador a detalle) se inspira en la técnica de difusión usada en imágenes (como Stable Diffusion) y permite a Mercury producir la respuesta completa de una sola vez en lugar de generarla secuencialmente token a token – readmultiplex.com
En la práctica, el proceso podría funcionar así: el modelo inicia con toda la secuencia de respuesta llena de tokens en blanco o ruido, y a través de una serie de pasos de desenmascarado/denoising va prediciendo y corrigiendo palabras en toda la oración simultáneamente. Tras un número fijo de iteraciones (mucho menor que la cantidad de tokens, a diferencia de los modelos autoregresivos), el resultado es un texto final coherente. Este procedimiento permite aprovechar mejor el paralelismo de las GPU, ya que modifica múltiples palabras a la vez en cada paso, a diferencia del método secuencial tradicional.
Desde el punto de vista técnico, Mercury todavía emplea redes neuronales profundas (transformers u otras variantes adaptadas) entrenadas para esta tarea de denoising textual. Un desafío importante de este enfoque es mantener la cohesión gramatical y el sentido mientras se actualizan todos los tokens en paralelo; Inception Labs afirma haber resuelto estos retos en el diseño de Mercury
El resultado es un modelo capaz de generar texto con mayor rapidez sin sacrificar la calidad lingüística. De hecho, los primeros reportes independientes indican que Mercury alcanza velocidades superiores a 1.000 tokens por segundo en una GPU NVIDIA H100, una cifra muy por encima de lo típico en modelos transformadores clásicos (readmultiplex.com).
Comparación con otros modelos de lenguaje destacados de 2025
El año 2025 ha visto emerger varios LLM notables de las principales compañías de IA, cada uno empujando los límites en distintos frentes. Entre los más destacados se encuentran OpenAI GPT-4.5, Google Gemini 2.0, Anthropic Claude 3.5/3.7 y los modelos abiertos de Meta como LLaMA 3. Todos estos continúan la tradición de arquitectura transformer autoregresiva, es decir, predicen tokens secuencialmente uno tras otro basándose en el contexto previo
Por ejemplo, OpenAI lanzó GPT-4.5 como una mejora incremental sobre GPT-4, presumiblemente con mejor rendimiento en tareas complejas y quizá mayores ventanas de contexto, pero manteniendo el método secuencial. Google, por su parte, presentó Gemini 2.0, un modelo de nueva generación con capacidades multimodales (capaz de procesar texto, imágenes y audio) y orientado a agentes inteligentes; no obstante, su generación de texto sigue un esquema palabra por palabra
Anthropic también avanzó su serie Claude hasta versiones 3.5 e incluso Claude 3.7 “Sonnet”, enfocándose en amplios contextos y alineación con instrucciones, pero igualmente basadas en predicción autoregresiva
En el ecosistema de código abierto, Meta continuó la saga de LLaMA con LLaMA 3, buscando modelos más eficientes en parámetros y entrenamiento accesible, y startups como DeepSeek en China ganaron popularidad ofreciendo LLM de bajo costo que competían sorprendentemente bien en benchmarks
El enfoque no autoregresivo de Mercury
Frente a este panorama, Mercury se distingue por su enfoque no autoregresivo. Mientras GPT-4.5, Gemini 2.0 o Claude 3.7 siguen generando las respuestas token a token de manera lineal, Mercury produce toda la respuesta en paralelo mediante difusión (pymnts.com). Esto le confiere una ventaja notable en velocidad y plantea una comparación interesante: en tareas donde los modelos tradicionales podrían tardar varios segundos para largas respuestas, Mercury promete entregarlas en una fracción de ese tiempo. Por ejemplo, OpenAI GPT-4 (y su sucesor 4.5) suele estar limitado a decenas o pocos cientos de tokens por segundo debido a su tamaño y procesamiento secuencial, mientras Mercury ha demostrado alcanzar del orden de 1000+ tokens/segundo bajo hardware similar.
En pruebas iniciales, el primer producto de Inception Labs – Mercury Coder – mostró rendimientos competitivos en calidad con modelos líderes especializados, superando a GPT-4o Mini de OpenAI y a Claude 3.5 Haiku de Anthropic en tareas de generación de código, pero con una velocidad hasta 10 veces mayor (aimresearch.co). Incluso versiones más pequeñas de Mercury (“small” o “mini”) lograron igualar el desempeño de modelos comparables y de código abierto como LLaMA 3.1 de 8.000 millones de parámetros, manteniendo el ritmo de 1000 tokens/s.
Es importante señalar que cada modelo de 2025 tiene sus fortalezas: GPT-4.5 y Claude 3.x son reconocidos por su comprensión de lenguaje natural y capacidad de razonamiento complejo; Gemini 2.0 aporta integración multimodal y herramientas avanzadas; LLaMA 3 enfatiza accesibilidad y personalización por la comunidad. Mercury llega como un “outsider” tecnológico que busca competir principalmente en velocidad y eficiencia, ofreciendo un rendimiento de calidad cercano al de estos referentes pero con un costo computacional significativamente menor. Esta diferenciación lo convierte en un modelo a observar, ya que aborda uno de los puntos críticos de los LLM actuales: la latencia y costo por consulta.
Eficiencia, escalabilidad y costos computacionales
Uno de los mayores aportes de Mercury es su eficiencia en la generación de texto. Gracias a la paralelización del proceso de inferencia mediante difusión, Mercury puede aprovechar al máximo la capacidad de las GPUs modernas. Según Inception Labs, su enfoque logra que el modelo utilice las GPU de forma mucho más eficiente que los LLM tradicionales
En la práctica, esto se traduce no solo en mayor velocidad sino también en menores costos de cómputo: si un modelo tradicional emplea 1 segundo de GPU para generar cierta respuesta, Mercury podría hacerlo en 0,1 segundos, reduciendo diez veces el tiempo (y por tanto el coste) necesario. De hecho, reportes indican que Mercury podría reducir el costo de inferencia en un orden de magnitud; un análisis comparativo sugiere un costo aproximado de $0.015 por millón de tokens generado con Mercury, frente a alrededor de $0.15 por millón de tokens en un modelo autoregresivo optimizado como GPT-4o. Esta dramática disminución abre la puerta a escalas de uso antes prohibitivas, permitiendo desplegar aplicaciones lingüísticas a gran escala con un presupuesto mucho más bajo.
En términos de escalabilidad, Mercury presenta características interesantes. Debido a que su tiempo de generación crece de forma sub-lineal con la longitud de la salida (ya que incrementar la longitud añade algunos tokens extra a refinar, pero el número de pasos de difusión puede permanecer fijo o crecer más lentamente), manejar salidas largas resulta más viable. En otras palabras, la penalización por generar textos extensos es mucho menor que en un LLM clásico, donde cada token adicional suma un paso completo de cómputo. Esto significa que Mercury puede ofrecer respuestas largas o código extenso prácticamente en tiempo real, algo difícil de lograr con GPT-4/Claude sin clusters especializados. Además, la naturaleza algorítmica de la mejora de Mercury implica que conforme avance el hardware (GPUs más potentes) sus ventajas se acumularán aún más, ya que no está limitada por cuellos de botella secuenciales (aimresearch.co). Inception Labs destaca que sus mejoras provienen del algoritmo en sí y no de requerir chips especiales, lo que facilita escalar en cualquier infraestructura GPU estándar.
Dicho esto, es posible que Mercury requiera más memoria durante la inferencia al procesar la secuencia completa simultáneamente (almacenando representaciones de todos los tokens a la vez), aunque este detalle no ha sido profundamente discutido en fuentes públicas. En entrenamiento, su método de difusión también implica optimizar un proceso iterativo distinto al de los transformers tradicionales, pero los fundadores señalan que al ser capaz de procesar datos más rápidamente, incluso el entrenamiento podría beneficiarse en tiempo total. En general, Mercury apunta a un salto en eficiencia computacional en comparación con sus pares de 2025, lo que se refleja en menor latencia por consulta y costos de operación sustancialmente reducidos.
Rendimiento en benchmarks y aplicaciones en la industria
La llegada de Mercury ha venido acompañada de resultados prometedores en benchmarks específicos, particularmente en el dominio de la programación. Su primera versión, Mercury Coder, está optimizada para generación de código y fue evaluada frente a otros modelos en pruebas de autocompletado y resolución de desafíos de programación. En el benchmark Copilot Arena – una plataforma que compara asistentes de código en tiempo real dentro de VSCode – Mercury obtuvo el primer lugar en velocidad de generación y el segundo lugar en calidad de las soluciones, superando a modelos como OpenAI GPT-4o y el experimental Google Gemini-1.5 Flash en desempeño general (pymnts.com).
Esto significa que los desarrolladores vieron a Mercury generar respuestas de código válidas en menos tiempo, manteniendo una calidad comparable a la de los mejores sistemas. En estándares de código comunes, la versión “small” de Mercury Coder alcanzó calidad similar a GPT-4o Mini (un GPT-4 optimizado) y la versión “mini” logró superar a un modelo abierto de referencia (LLaMA 3.1 de 8B). Estos resultados validan que, pese a su novedosa arquitectura, Mercury puede “mantenerse por sí solo” frente a LLM de primer nivel en tareas especializadas.
En cuanto a tareas de lenguaje general (como conversación, redacción creativa, preguntas y respuestas), aún se están conociendo las capacidades de Mercury. Hasta la fecha, la mayor parte de datos públicos se centra en su rendimiento en código, mientras que sus habilidades en redacción larga o interpretación de instrucciones complejas no han sido extensamente publicadas. Analistas señalan que Mercury aún debe demostrar si puede igualar la profundidad y fineza de modelos como GPT-4 o Claude en aplicaciones más nuanceadas, como elaboración de ensayos, comprensión contextual muy profunda o razonamiento de varios pasos (aimresearch.co). Es decir, si bien se ha probado que el modelo puede generar texto correcto rápidamente, queda abierta la pregunta de si su calidad se mantiene al abordar tareas lingüísticas complejas o creativas al nivel de los mejores modelos clásicos.
A pesar de ello, varias industrias ya muestran interés en aplicar Mercury dada su propuesta de valor. Inception Labs ha ofrecido Mercury a clientes empresariales tanto vía API en la nube como mediante implementaciones on-premise (locales). Esto es relevante para sectores que manejan datos sensibles y requieren mantener los modelos internamente. Empresas Fortune 100 habrían comenzado a integrar Mercury en sus flujos de trabajo (por ejemplo, para asistencia en programación, soporte al cliente automatizado o generación de documentos).
En el ámbito del desarrollo de software, Mercury Coder podría integrarse en IDEs y plataformas de coding para proporcionar autocompletado casi instantáneo, lo que incrementa la productividad de los ingenieros. Otros usos potenciales incluyen chatbots corporativos que pueden atender clientes con respuestas más rápidas, servicios de resumen de textos extensos en tiempo real, o generación de contenido donde la rapidez es crucial. La viabilidad de nuevas aplicaciones también aumenta: por ejemplo, en interfaces conversacionales de voz o realidad virtual, un LLM capaz de responder en milisegundos mejora la experiencia significativamente en comparación con una respuesta con varios segundos de retraso. En resumen, los benchmarks iniciales posicionan a Mercury como un modelo competitivo en calidad y líder en rapidez, lo que motiva a diversas industrias a explorar su adopción.
Ventajas y desventajas de Mercury frente a modelos clásicos
Como todo nuevo paradigma, Mercury conlleva fortalezas y posibles debilidades en comparación con los enfoques tradicionales:
Ventajas potenciales:
- Velocidad de inferencia y baja latencia: Es, sin duda, la mayor ventaja de Mercury. Puede generar texto completo muy rápidamente (orden de 5x a 10x más veloz que los modelos líderes del momento), lo que permite respuestas casi instantáneas incluso para salidas largas. Esto mejora la experiencia de usuario y habilita casos de uso en tiempo real anteriormente impracticables.
- Eficiencia y costo: Al hacer un uso más eficiente del hardware, Mercury reduce significativamente el costo por cada token generado. La posibilidad de operar a una décima parte del costo de un GPT-4 equivalente hace que escalar servicios basados en LLM sea mucho más económico, democratizando el acceso a modelos avanzados.
- Mejor razonamiento iterativo: Dado que Mercury refina la respuesta en múltiples pasos, en teoría puede corregir errores en el camino y ajustar la coherencia del texto durante la generación. Esto podría llevar a respuestas más consistentes y lógicas, ya que el modelo tiene la oportunidad de “pensar” sobre el borrador antes de finalizar (dev.to). En ciertos problemas, esta revisión interna puede mejorar la calidad final respecto a un modelo que se compromete con cada palabra sin vuelta atrás.
- Control y estructuración: El enfoque de difusión brinda más control sobre la salida. Por ejemplo, es más sencillo imponer estructura (formato deseado, palabras obligatorias) o integrar indicaciones intermedias. Similar a cómo en difusión de imágenes se puede guiar el resultado, en texto esto podría traducirse en mejor cumplimiento de instrucciones formales, formateo específico o llamadas a funciones estructuradas de manera más confiable.
- Potencial multmodal y unificación: Al compartir la misma filosofía que los modelos difusores en imágenes, audio y vídeo, existe la posibilidad de que Mercury evolucione hacia un sistema unificado capaz de manejar múltiples modalidades de forma nativadev.to. Inception Labs ha insinuado futuros desarrollos en los que un mismo modelo difusor pueda generar texto, código, imágenes e incluso controlar robots, compartiendo conocimiento entre dominios. Esto abre la puerta a IA multimodal integradas con ventajas de coherencia entre distintas formas de datos.
Desventajas y desafíos:
- Tecnología novedosa y no probada del todo: Mercury es pionero en su clase. Aunque los resultados iniciales son impresionantes, aún existe incertidumbre sobre su desempeño en el amplio espectro de tareas lingüísticas. Modelos clásicos como GPT-4 han sido probados exhaustivamente en multitud de escenarios; Mercury todavía debe demostrar su equivalencia en tareas generales, creatividad literaria, comprensión contextual profunda, etc. Por ahora, su superioridad se ha visto sobre todo en velocidad más que en sacar nueva mejor puntuación en benchmarks de calidad pura.
- Posibles debilidades en calidad o coherencia: Si bien Inception Labs afirma que Mercury mantiene alta calidad, es posible que la generación paralela conlleve nuevos tipos de errores o incoherencias que no vemos en modelos secuenciales. Expertos como Andrej Karpathy han señalado que un LLM de difusión podría tener “fortalezas y debilidades únicas” diferentes a las de los transformers tradicionalespymnts.com. Por ejemplo, podría fallar en detalles de continuidad narrativa o consistencia fina en ciertos casos, dado que no construye la oración paso a paso. Identificar y refinar estas posibles limitaciones será clave.
- Complejidad de entrenamiento y ajuste: Entrenar un modelo difusor de lenguaje es complejo. Requiere adaptar técnicas de difusión (que operan en espacios continuos) a un espacio discreto de tokens, además de un cuidadoso equilibrio para que el modelo converja hacia salidas válidas y no se quede en un bucle de refinamiento. Es una frontera de investigación reciente, por lo que puede demandar más experimentación y fine-tuning que las arquitecturas establecidas. Asimismo, incorporar alineación con preferencias humanas (por ejemplo, técnicas tipo RLHF usadas en GPT) podría requerir enfoques nuevos en Mercury.
- Compatibilidad y ecosistema: Los LLM clásicos cuentan con un amplio ecosistema de herramientas optimizadas (desde aceleradores específicos hasta bibliotecas de inferencia eficientes). Mercury, al ser distinto, podría necesitar desarrollo de nuevas herramientas y no aprovechar de inmediato todas las optimizaciones existentes. Por ejemplo, técnicas de quantization o de uso de memorias KV en transformers no aplican directamente aquí. Las empresas deberán evaluar el esfuerzo de integración.
- Escalabilidad en modelos gigantes: Aunque Mercury escala bien en cuanto a longitud de salida, no está claro cómo escala al aumentar drásticamente el número de parámetros o la complejidad del modelo en sí. Podría haber desafíos para llevar el enfoque difusor a tamaños de modelo tan grandes como GPT-4 (con cientos de miles de millones de parámetros) sin perder las ventajas de velocidad o sin requerir recursos de entrenamiento exorbitantes. El equilibrio entre tamaño del modelo, número de pasos de difusión y calidad alcanzable aún está en exploración.
En resumen, Mercury ofrece ventajas disruptivas en rendimiento y costo, pero aún debe consolidarse demostrando que puede igualar a los modelos clásicos en todos los aspectos de calidad. Su enfoque de difusión representa una desviación audaz del estándar transformer, lo que significa que puede inaugurar una nueva generación de LLMs con distintas fortalezas, a la vez que enfrenta retos únicos por su novedad.
El camino alternativo de Mercury
El Mercury Scale Diffusion LLM de Inception Labs se perfila como una innovación importante en el panorama de los modelos de lenguaje en 2025. En un campo dominado por transformers gigantescos que generan texto paso a paso, Mercury propone un camino alternativo: generar y refinar todo el contenido en paralelo mediante difusión. Hemos visto que su arquitectura le permite velocidades sin precedentes, y en comparativas con otros modelos punteros de 2025 destaca por su eficiencia computacional y costo reducido. Mercury ya ha demostrado un fuerte rendimiento en tareas de generación de código, y promete extender sus aplicaciones a chatbots, contenido textual extenso y más, con potencial integración multimodal en el horizonte. Sus ventajas en rapidez y control son claras, aunque también enfrenta desafíos para alcanzar la maestría lingüística de los LLM clásicos en todos los terrenos.
La aparición de Mercury sugiere que la industria podría estar entrando en una nueva fase donde convivirán distintas aproximaciones a los LLM. Si sus resultados continúan siendo positivos en entornos de producción, Mercury y los modelos por difusión podrían volverse parte central de las soluciones de IA, complementando o incluso sustituyendo en parte a los transformers tradicionales
En última instancia, la competencia entre enfoques –difusión vs. autoregresivo– beneficiará al campo de la IA generativa, impulsando avances en eficiencia, escalabilidad y capacidades que repercutirán en mejores herramientas y aplicaciones para todos – aimresearch.co