DiffusionGemma cambia la forma de generar texto y NVIDIA lo lleva al PC local

Nota de Prensa

Google DeepMind ha lanzado DiffusionGemma, un modelo experimental abierto que intenta romper con una de las bases más asentadas de los grandes modelos de lenguaje: la generación secuencial de texto. En lugar de producir una respuesta token a token, como hacen la mayoría de LLM actuales, este nuevo modelo trabaja con bloques completos y puede refinar hasta 256 tokens en paralelo. NVIDIA ha optimizado DiffusionGemma para ejecutarlo con mayor velocidad en GPUs GeForce RTX, estaciones RTX PRO y sistemas DGX Spark, con el objetivo de acelerar la IA local en equipos personales y profesionales.

El movimiento es relevante porque la IA generativa no solo avanza hacia modelos más grandes. También busca modelos más rápidos, más eficientes y más cercanos al usuario. La ejecución local puede reducir latencia, mejorar privacidad, evitar el coste por token de las APIs externas y permitir que desarrolladores, investigadores o empresas prueben asistentes y agentes sin depender siempre de la nube.

Del texto token a token a la generación por bloques

La mayoría de modelos de lenguaje actuales son autoregresivos. Esto significa que generan una respuesta en orden, una pieza de texto después de otra. Cada token depende del anterior, y esa dependencia secuencial limita la velocidad. Es la razón por la que muchas interfaces de IA parecen ir escribiendo poco a poco, como si alguien estuviera tecleando al otro lado.

DiffusionGemma adopta una lógica diferente. Inspirado en los modelos de difusión que se utilizan en generación de imágenes, parte de una representación con ruido y la va refinando hasta construir texto coherente. En vez de esperar al siguiente token, el modelo trabaja sobre bloques de hasta 256 tokens en paralelo. La idea no es solo acelerar la salida, sino cambiar el tipo de carga computacional.

NVIDIA lo resume de forma técnica: la generación autoregresiva suele estar limitada por memoria, porque el modelo pasa gran parte del tiempo moviendo datos. La difusión de bloques desplaza más trabajo hacia cómputo paralelo, que es precisamente donde las GPUs modernas destacan. Los Tensor Cores y el ecosistema CUDA permiten aprovechar mejor esa estructura desde el primer día.

DiffusionGemma está construido sobre Gemma 4, una arquitectura mixture-of-experts de 26.000 millones de parámetros que activa 3.800 millones por paso. Sobre esa base, Google DeepMind incorpora una cabeza de difusión para generar texto por bloques. Es un enfoque experimental, pero apunta a una posible vía para modelos de baja latencia en usos individuales.

Característica	DiffusionGemma
Laboratorio	Google DeepMind
Arquitectura base	Gemma 4
Tamaño total	26.000 millones de parámetros
Parámetros activos por paso	3.800 millones
Tipo de generación	Difusión de texto por bloques
Tokens por paso	Hasta 256
Licencia	Apache 2.0
Soporte inicial	Hugging Face Transformers, vLLM y Unsloth
Despliegue	Local, workstation, DGX Spark y cloud

NVIDIA empuja la IA local de baja latencia

La optimización de NVIDIA busca convertir DiffusionGemma en una herramienta práctica para generación de texto rápida en local. La compañía afirma que el modelo alcanza hasta 1.000 tokens por segundo en una GPU NVIDIA H100 Tensor Core, 800 tokens por segundo en DGX Station y 150 tokens por segundo en DGX Spark. En escenarios de un solo usuario, NVIDIA habla de una mejora de hasta cuatro veces frente a un modelo autoregresivo equivalente.

Estas cifras deben entenderse dentro del contexto del anuncio y de los entornos de prueba, pero señalan una dirección clara: hacer que la IA local responda con suficiente velocidad para agentes, asistentes, programación, investigación y flujos interactivos. En estos usos, la latencia no es un detalle. Si el modelo tarda demasiado, rompe el ritmo de trabajo.

DiffusionGemma se podrá ejecutar en equipos con GeForce RTX mediante Hugging Face Transformers, y NVIDIA adelanta que el soporte en llama.cpp llegará próximamente. Para cargas de mayor rendimiento, vLLM ofrece soporte desde el primer día. Para adaptación del modelo a tareas concretas, el ajuste fino estará disponible mediante Unsloth y NVIDIA NeMo.

Plataforma	Enfoque anunciado
NVIDIA H100	Hasta 1.000 tokens por segundo
DGX Station	Hasta 800 tokens por segundo y 748 GB de memoria coherente
DGX Spark	150 tokens por segundo y 128 GB de memoria unificada
RTX PRO 6000	Flujos profesionales con generación local de baja latencia
GeForce RTX	Ejecución local para usuarios avanzados y desarrolladores
Hugging Face Transformers	Prueba y prototipado desde el primer día
vLLM	Servicio de inferencia de mayor rendimiento
Unsloth y NeMo	Fine-tuning y adaptación a dominios concretos

El papel de DGX Spark es especialmente interesante. NVIDIA lo presenta como un superordenador personal de IA, basado en el GB10 Grace Blackwell Superchip y con 128 GB de memoria unificada. Su objetivo es acercar prototipado, ajuste fino y agentes locales a equipos que no quieren depender de un clúster remoto para cada experimento.

Qué aporta frente a los LLM tradicionales

La gran promesa de DiffusionGemma está en la velocidad percibida. Un asistente que puede generar bloques completos con baja latencia puede sentirse menos como una conversación lenta y más como una herramienta inmediata. Esto es útil en entornos donde el usuario itera constantemente: escribir código, revisar documentación, generar borradores, probar ideas, analizar logs o construir agentes que planifican y ejecutan pasos.

También puede tener valor en flujos agénticos. Un agente de IA no solo responde una pregunta. Lee contexto, decide una acción, consulta herramientas, revisa resultados y vuelve a actuar. Si cada paso tarda demasiado, el sistema completo se vuelve pesado. Reducir la latencia por generación puede mejorar la experiencia y permitir más ciclos de razonamiento o acción en menos tiempo.

Aun así, el modelo deberá demostrar su calidad en tareas reales. Generar texto rápido no basta si las respuestas pierden precisión, coherencia o capacidad de seguir instrucciones. Los modelos autoregresivos han sido optimizados durante años y siguen siendo la referencia para muchas cargas de razonamiento, programación, redacción y análisis. DiffusionGemma abre una línea alternativa, pero no sustituye automáticamente a los modelos dominantes.

Su licencia Apache 2.0 sí le da una ventaja clara para desarrolladores y empresas que quieran experimentar. Los pesos abiertos bajo una licencia permisiva facilitan pruebas, integración en productos, investigación y despliegue sin las mismas restricciones de modelos cerrados. En un mercado donde muchas organizaciones buscan reducir dependencia de APIs propietarias, ese detalle importa.

La IA local gana peso frente a la nube

El lanzamiento encaja con una tendencia mayor: la vuelta de parte de la IA al dispositivo. Los grandes modelos seguirán ejecutándose en centros de datos, porque muchas tareas requieren escalas de cómputo enormes. Pero no todo necesita ir a la nube. Asistentes personales, modelos especializados, agentes de desarrollo, generación rápida de texto, análisis privado y prototipos pueden beneficiarse de la ejecución local.

La ventaja no es solo técnica. La IA local puede ayudar a proteger datos sensibles, evitar latencia de red, controlar costes variables y permitir uso sin conexión en determinados escenarios. Para empresas, esto puede ser útil en entornos con información confidencial o con requisitos de soberanía. Para desarrolladores, ofrece libertad para probar modelos sin preocuparse por cada token generado.

NVIDIA tiene un incentivo claro para empujar esta dirección. Su base instalada de GPUs RTX es enorme y muchos usuarios ya cuentan con hardware capaz de ejecutar modelos locales. Si el ecosistema de modelos abiertos crece y mejora, las GPUs de consumo y estaciones profesionales pueden convertirse en una plataforma natural para IA personal y de desarrollo.

Google DeepMind, por su parte, gana presencia en el mundo open model con una arquitectura diferente y una apuesta experimental. Gemma ya era una vía para modelos abiertos dentro del ecosistema de Google. DiffusionGemma añade una variante orientada a velocidad y generación paralela.

Una pieza más en la diversificación de modelos

La IA generativa está dejando de ser una carrera lineal por el modelo más grande. Ahora aparecen varias direcciones al mismo tiempo: modelos más pequeños y especializados, arquitecturas mixture-of-experts, modelos multimodales, razonamiento, agentes, inferencia local, cuantización, difusión de texto y aceleración específica por hardware.

DiffusionGemma encaja en esa diversificación. No pretende resolver todos los casos de uso, pero puede abrir un camino para aplicaciones donde la respuesta rápida es más importante que exprimir hasta el último punto de un benchmark general. Si la calidad acompaña, los modelos de difusión de texto podrían tener un espacio propio junto a los autoregresivos.

Para el sector tecnológico, la lectura es clara. La próxima etapa de la IA no dependerá solo de más centros de datos y más GPUs en la nube. También habrá competencia por llevar modelos útiles al escritorio, a la estación de trabajo y al hardware local. La combinación de pesos abiertos, baja latencia y aceleración en GPUs de consumo puede ser una de las vías para ampliar el uso real de la IA más allá de las grandes plataformas.

Google DeepMind pone el modelo. NVIDIA pone la aceleración y el ecosistema de ejecución. El resultado es un experimento que conviene seguir, porque apunta a una pregunta importante: qué parte de la inteligencia artificial del futuro vivirá en la nube y qué parte acabará funcionando directamente en el equipo del usuario.

Preguntas frecuentes

¿Qué es DiffusionGemma?

DiffusionGemma es un modelo experimental abierto de Google DeepMind que genera texto mediante difusión, refinando bloques de hasta 256 tokens en paralelo.

¿Por qué NVIDIA lo ha optimizado?

Porque su arquitectura aprovecha bien el cómputo paralelo de las GPUs. NVIDIA busca acelerar su ejecución en GeForce RTX, RTX PRO, DGX Spark, DGX Station y GPUs de centro de datos.

¿Qué ventaja tiene frente a un modelo autoregresivo?

Puede reducir la latencia al generar texto por bloques en lugar de token a token. Según NVIDIA, puede ser hasta cuatro veces más rápido en ciertos escenarios de un solo usuario.

¿Para qué sirve ejecutarlo en local?

La ejecución local permite menor latencia, más privacidad, control de costes y prototipos sin depender siempre de una API en la nube.