NVIDIA lleva DiffusionGemma a RTX y DGX con inferencia local hasta 4 veces más rápida

NVIDIA lleva DiffusionGemma a RTX y DGX con inferencia local hasta 4 veces más rápida

NVIDIA ha anunciado soporte completo para DiffusionGemma, el nuevo modelo abierto de Google DeepMind diseñado para acelerar la generación de texto mediante una arquitectura de difusión. El modelo llega con compatibilidad para GeForce RTX, plataformas RTX PRO y sistemas DGX, desde PCs locales hasta estaciones de IA de alto rendimiento.

La clave está en que DiffusionGemma no genera texto palabra a palabra como un modelo autoregresivo clásico. En su lugar, puede trabajar con bloques de hasta 256 tokens por paso, reduciendo latencia y mejorando la velocidad en inferencia local. El salto no está solo en el modelo, sino en cómo NVIDIA lo integra en su ecosistema CUDA.

DiffusionGemma cambia el enfoque de generación de texto

DiffusionGemma está construido sobre Gemma 4, con una arquitectura de 25,2B parámetros y un diseño mixture-of-experts que activa solo 3,8B parámetros por paso. Esta decisión busca equilibrar capacidad del modelo, velocidad de inferencia y eficiencia cuando se ejecuta en hardware local.

La diferencia frente a un modelo tradicional está en el proceso. La generación paralela permite avanzar sobre más tokens al mismo tiempo, algo especialmente importante cuando un único usuario espera respuestas rápidas sin depender de la nube. NVIDIA habla de una mejora de hasta 4 veces frente a modelos autoregresivos equivalentes.

El modelo también admite contextos de hasta 256K tokens y formatos de precisión BF16 y NVFP4. Esa combinación apunta claramente a hardware moderno con aceleración específica. No es solo un modelo abierto, sino una pieza diseñada para aprovechar Tensor Cores, CUDA y grandes bloques de memoria.

RTX y DGX reciben soporte desde el primer día

NVIDIA ofrecerá soporte desde el primer día en GeForce RTX, RTX PRO y sistemas DGX. El despliegue incluye compatibilidad con Hugging Face Transformers, vLLM y Unsloth, además de soporte previsto en llama.cpp para GPUs GeForce RTX.

Este punto reduce mucho la fricción de entrada. Los desarrolladores no tendrían que esperar integraciones externas ni ajustar manualmente el modelo para cada plataforma, ya que NVIDIA busca ofrecer una ruta directa para probar DiffusionGemma en equipos locales compatibles desde el primer día.

La compañía también insiste en el valor de ejecutarlo sin nube. La inferencia local elimina costes por token, reduce dependencia de servidores externos y facilita flujos de trabajo privados, algo cada vez más relevante para desarrolladores, investigadores, creadores y empresas que no quieren enviar datos sensibles fuera del equipo.

DGX Spark lleva la IA local a un formato más accesible

En DGX Spark, el modelo puede ejecutarse sobre el NVIDIA GB10 Grace Blackwell Superchip, con 128 GB de memoria unificada y hasta 1 PFLOP de cómputo FP4. Es una configuración pensada para prototipado, agentes autónomos, investigación local y ajuste fino sin depender de infraestructura remota.

Este formato tiene una lectura interesante. NVIDIA quiere que ciertos flujos de IA avanzada salgan del centro de datos y lleguen al escritorio, pero sin perder una pila de software preparada. DiffusionGemma encaja en esa idea porque promete velocidad, ejecución local y compatibilidad directa con herramientas ya utilizadas por desarrolladores.

DGX Station apunta a cargas mucho más grandes

El salto mayor llega con DGX Station, equipada con GB300 Grace Blackwell Ultra Superchip, 748 GB de memoria coherente y hasta 20 PFLOPS FP4. NVIDIA habla de hasta 800 tokens por segundo en esta plataforma, una cifra orientada a generación de texto de baja latencia y bucles agénticos.

La compañía también menciona cifras de 1.000 tokens por segundo con GPUs H100 Tensor Core en sistemas DGX. El mensaje es claro: NVIDIA quiere asociar DiffusionGemma con inferencia local de alta velocidad, desde equipos personales de IA hasta estaciones de trabajo capaces de mover modelos mucho más ambiciosos.

RTX PRO busca cubrir estaciones de trabajo profesionales

Las plataformas RTX PRO 6000 se sitúan como opción para desarrolladores, investigadores y profesionales que necesitan inferencia local con baja latencia. No hablamos de un producto doméstico cualquiera, sino de estaciones preparadas para agentes locales, generación rápida y flujos de IA dentro de entornos profesionales.

En este segmento, la memoria y la estabilidad importan tanto como el rendimiento bruto. Ejecutar generación rápida en local puede acelerar prototipos, automatizaciones y ciclos de prueba, especialmente cuando el usuario necesita iterar sin depender constantemente de una API externa o de límites de coste por token.

El soporte en GeForce RTX también será relevante, aunque dependerá de la GPU concreta y de la memoria disponible. NVIDIA menciona que usuarios con una RTX 5090 podrán probar DiffusionGemma desde el primer momento. La experiencia final dependerá de VRAM, precisión elegida y tamaño real del flujo de trabajo.

Un modelo abierto que refuerza el ecosistema CUDA

DiffusionGemma se publica bajo licencia Apache 2.0, lo que facilita adopción, pruebas y despliegues comerciales. Ese detalle no es menor. Un modelo abierto con soporte optimizado en RTX y DGX puede acelerar mucho más la adopción que una solución cerrada limitada a la nube.

Para NVIDIA, el movimiento también tiene una lectura estratégica. Cada nuevo modelo abierto optimizado para su hardware refuerza CUDA, Tensor Cores y su pila de software. La compañía no solo vende GPUs, también intenta que los modelos más recientes funcionen mejor y antes dentro de su ecosistema.

La velocidad local será el gran argumento

La lectura final es clara: DiffusionGemma intenta resolver uno de los grandes puntos débiles de la generación local de texto: la latencia percibida por el usuario. Si su arquitectura de difusión mantiene calidad suficiente, la mejora de velocidad puede ser muy atractiva para asistentes, agentes y flujos profesionales.

NVIDIA gana porque coloca sus plataformas RTX y DGX como destino natural para ejecutar el modelo desde el primer día. Google DeepMind gana alcance en hardware local. El usuario obtiene una opción abierta que promete más velocidad, menos dependencia de la nube y generación sin coste por token.

Vía: Wccftech

Sobre el autor