NVIDIA Blackwell Ultra arrasa en MLPerf v5.1 con récords de inferencia IA

NVIDIA Blackwell Ultra arrasa en MLPerf v5.1 con récords de inferencia IA

NVIDIA ha vuelto a dejar huella en la industria con su arquitectura Blackwell Ultra, presentada en el sistema GB300 NVL72 rack-scale, que ha establecido nuevos récords en MLPerf Inference v5.1. Menos de medio año después de su debut en el GTC, este sistema ha conseguido hasta 1,4x más rendimiento de inferencia en DeepSeek-R1 frente al anterior GB200 NVL72 basado en Blackwell.

Blackwell Ultra: potencia en memoria y cómputo

La arquitectura Blackwell Ultra eleva el listón con 1,5x más potencia de cómputo NVFP4 y 2x más aceleración en capas de atención respecto a Blackwell. Cada GPU integra hasta 288 GB de memoria HBM3e, lo que la convierte en una plataforma ideal para cargas de trabajo de inferencia a gran escala.

NVIDIA Blackwell Ultra arrasa en MLPerf v5.1 con récords de inferencia IA

Además de DeepSeek-R1, NVIDIA marcó récords en todos los nuevos benchmarks de centros de datos incluidos en MLPerf v5.1, como Llama 3.1 405B Interactive, Llama 3.1 8B y Whisper, manteniendo el liderazgo per-GPU en todas las pruebas anteriores.

Optimización con NVFP4 y TensorRT

Uno de los pilares del éxito de esta generación es el formato NVFP4, desarrollado por NVIDIA para mejorar la precisión frente a otros formatos FP4 y ofrecer resultados comparables a precisiones superiores.

El uso de NVIDIA TensorRT Model Optimizer junto al framework TensorRT-LLM permitió cuantizar modelos como DeepSeek-R1, Llama 3.1 405B, Llama 2 70B y Llama 3.1 8B en NVFP4, garantizando un rendimiento superior sin comprometer la precisión.

NVIDIA Blackwell Ultra arrasa en MLPerf v5.1 con récords de inferencia IA

Disaggregated serving: clave en Llama 405B

La inferencia en modelos de lenguaje a gran escala combina dos fases: el procesamiento de contexto y la generación de tokens. Con la técnica de disaggregated serving, NVIDIA optimizó cada etapa por separado, logrando un aumento cercano al 50% de rendimiento por GPU en Llama 3.1 405B Interactive frente a servidores tradicionales DGX B200.

En esta ronda, la compañía también estrenó el uso del framework NVIDIA Dynamo, ampliando su ecosistema de software para inferencia.

NVIDIA Blackwell Ultra arrasa en MLPerf v5.1 con récords de inferencia IA

Un ecosistema con soporte masivo

Los resultados no solo corresponden a NVIDIA: gigantes como Azure, Dell, HPE, Lenovo, Oracle, Supermicro y otros partners también enviaron benchmarks con plataformas Blackwell y Hopper. Esta colaboración demuestra la solidez del ecosistema NVIDIA AI, disponible tanto en proveedores cloud como en fabricantes de servidores.

Con estas mejoras, NVIDIA refuerza su posición como líder en inferencia IA, ofreciendo menor TCO, mayor retorno de inversión y la capacidad de desplegar aplicaciones avanzadas en entornos empresariales y de investigación.

Vía: TechPowerUp

Sobre el autor