NVIDIA Blackwell domina MLPerf Training 6.0 con GB300 NVL72 y entrenamientos a escala de 8.192 GPU

NVIDIA Blackwell domina MLPerf Training 6.0 con GB300 NVL72 y entrenamientos a escala de 8.192 GPU

NVIDIA vuelve a situarse en cabeza dentro de MLPerf Training 6.0, la nueva ronda de benchmarks de entrenamiento publicada por MLCommons. La plataforma Blackwell ha marcado los mejores tiempos en las pruebas clave, con sistemas GB200 NVL72 y GB300 NVL72. El resultado refuerza la ventaja de NVIDIA en entrenamiento de IA a gran escala.

La edición 6.0 añade dos pruebas relevantes basadas en modelos Mixture-of-Experts, DeepSeek-V3 671B y GPT-OSS 20B. MLPerf empieza a reflejar mejor el giro real del sector hacia modelos dispersos, donde no todos los parámetros se activan en cada token y la eficiencia del sistema completo pesa más que la fuerza bruta.

Blackwell cubre todos los benchmarks de la suite

NVIDIA asegura haber logrado el menor tiempo de entrenamiento en todos los benchmarks de MLPerf Training 6.0 y, además, fue la única plataforma con resultados en las siete pruebas. La cobertura completa importa porque mide versatilidad, no solo rendimiento en una tarea favorable.

Los tiempos máximos publicados dejan cifras muy agresivas: 2,02 minutos en DeepSeek-V3 671B, 7,43 minutos en GPT-OSS 20B, 7,07 minutos en Llama 3.1 405B, 0,40 minutos en Llama 2 70B LoRA, 4,46 minutos en Llama 3.1 8B, 17,1 minutos en FLUX.1 y 0,67 minutos en DLRM-dcnv2. La lectura es clara: Blackwell domina tanto lenguaje como imagen y recomendación.

El dato más llamativo no siempre es la victoria, sino la ausencia de rivales en varias pruebas. En los nuevos benchmarks MoE, algunos competidores no presentaron resultados comparables. Esa falta de submissions deja a NVIDIA con una ventaja pública muy difícil de matizar, al menos dentro de esta ronda oficial.

DeepSeek-V3 y GPT-OSS 20B cambian el tipo de prueba

La incorporación de DeepSeek-V3 671B resulta importante porque introduce un modelo MoE de gran escala, con 671B parámetros totales y solo una fracción activa por token. El benchmark ya no mide únicamente modelos densos tradicionales, sino arquitecturas más próximas a los sistemas modernos de IA generativa.

GPT-OSS 20B cubre el otro extremo: una prueba MoE más accesible, pensada para configuraciones menores y con 21B parámetros totales. Esto amplía el valor de MLPerf porque no todo el mercado entrena modelos gigantes. La suite empieza a medir tanto despliegues masivos como escenarios de entrada más realistas.

Para NVIDIA, esta combinación favorece su narrativa de plataforma completa. Blackwell no solo escala en clústeres enormes, también mantiene resultados fuertes en configuraciones más modestas. El mensaje técnico es que el rendimiento depende de GPU, red, software y precisión numérica trabajando como un único sistema.

GB300 NVL72 mejora a GB200 con más densidad de IA

NVIDIA destaca que GB300 NVL72 puede ser hasta 1,6 veces más rápido que GB200 NVL72 a la misma escala dentro de MLPerf Training v6.0. Parte de esa mejora viene de una mayor densidad de cómputo IA y del uso de NVFP4. La evolución no se limita al silicio de GPU, también depende de optimización de precisión y software.

Este punto resulta clave porque Blackwell ya había mejorado desde su lanzamiento mediante ajustes de software. La plataforma sigue ganando rendimiento sin cambiar necesariamente toda la infraestructura física. NVIDIA está convirtiendo la optimización continua en una ventaja competitiva, especialmente en centros de datos donde cada minuto de entrenamiento cuesta dinero.

En pruebas como FLUX.1, la diferencia frente a configuraciones AMD es muy visible en los datos publicados. Un sistema GB300 de 512 GPU completa la prueba en 17,11 minutos, frente a 74,43 minutos para una configuración MI300X de 512 aceleradores. La brecha muestra que la escala por sí sola no basta si el ecosistema no acompaña.

La escala de 8.192 GPU muestra el valor del sistema completo

La ronda también deja una cifra especialmente relevante: entrenamiento a escala de 8.192 GPU en plataformas Blackwell. Microsoft Azure logró ejecutar Llama 3.1 405B sobre sistemas GB200 NVL72 y alcanzar el objetivo de calidad en 7,07 minutos. El resultado demuestra que la red y la coordinación entre racks pesan tanto como cada acelerador individual.

CoreWeave, por su parte, aparece asociado al mejor tiempo en DeepSeek-V3 671B, con 2,02 minutos a escala de 8.192 GPU usando GB300 NVL72 y red Spectrum-X Ethernet. La combinación de Blackwell Ultra y redes de alto rendimiento refuerza el concepto de fábrica de IA, donde el clúster funciona como una sola máquina.

Esto explica por qué NVIDIA insiste tanto en NVL72, NVLink, Spectrum-X y la integración de sistemas. La IA moderna no se acelera solo añadiendo más GPU. El rendimiento real depende de mover datos, sincronizar nodos y mantener la eficiencia de entrenamiento a escalas extremas.

NVIDIA Blackwell domina MLPerf Training 6.0 con GB300 NVL72 y entrenamientos a escala de 8.192 GPU

AMD aparece en algunas pruebas, pero sin romper la ventaja

La comparación frente a AMD Instinct deja una imagen desigual. En Llama 2 70B LoRA, configuraciones MI355X y MI350X aparecen en la tabla, pero quedan por detrás de sistemas GB300 y GB200 incluso con números de aceleradores similares. NVIDIA mantiene ventaja no solo por hardware, sino por madurez del ecosistema de entrenamiento.

En Llama 3.1 8B, la diferencia también es amplia: GB200 con 1.024 GPU marca 4,459 minutos, mientras MI350X con 16 aceleradores queda en 58,629 minutos dentro de sus respectivas escalas. La comparación no siempre es directa por tamaño de sistema, pero el patrón se repite. Blackwell logra empujar la curva tanto en rendimiento por configuración como en escalado.

El punto delicado para AMD no es solo perder pruebas, sino no aparecer en algunas de las nuevas cargas MoE de mayor visibilidad. MLPerf no representa todo el mercado, pero sí influye en percepción técnica. La ausencia de resultados en pruebas clave deja a NVIDIA con el relato público del liderazgo casi sin oposición.

MLPerf confirma que la ventaja ya no está solo en la GPU

La lectura final va más allá de unos tiempos de benchmark. NVIDIA está usando Blackwell, NVL72, redes de alto rendimiento y software optimizado para defender una plataforma completa de entrenamiento de IA. La ventaja competitiva se desplaza desde el acelerador aislado hacia el diseño integral del centro de datos.

Con Vera Rubin en el horizonte, estos resultados también funcionan como transición. Blackwell mantiene liderazgo mientras NVIDIA prepara su siguiente salto generacional. El reto para la competencia será presentar resultados comparables en modelos MoE, escalas enormes y entornos realmente reproducibles, no solo en fichas técnicas.

MLPerf Training 6.0 deja una conclusión incómoda para el resto del sector: NVIDIA no solo gana en varias pruebas, sino que en algunas compite prácticamente sola. Mientras los rivales no igualen ecosistema, red y software, Blackwell seguirá marcando el ritmo del entrenamiento IA a gran escala.

Vía: Wccftech

Sobre el autor