NVIDIA Vera Rubin redefine los racks de IA con NVLink 6, refrigeración líquida modular y memoria HBM4

NVIDIA Vera Rubin redefine los racks de IA con NVLink 6, refrigeración líquida modular y memoria HBM4

NVIDIA ya tiene en plena producción su próxima generación de infraestructura de IA, Vera Rubin, una arquitectura diseñada para redefinir el rendimiento de los racks destinados a computación acelerada. La compañía ha mostrado nuevos detalles técnicos sobre cómo evolucionan el nodo de cómputo, la interconexión NVLink y los sistemas de refrigeración líquida modular, elementos que forman un sistema completamente integrado orientado a cargas de trabajo de IA a escala hyperscaler.

Según explicó Dion Harris, Senior Director of Infrastructure de NVIDIA, Vera Rubin representa uno de los sistemas de inteligencia artificial más complejos jamás desarrollados, ya que combina procesamiento acelerado, memoria de ultra alto ancho de banda y redes de interconexión de baja latencia dentro de un único diseño de rack optimizado para centros de datos modernos.

Vera Rubin SuperChip y nueva arquitectura con memoria HBM4

El núcleo del sistema es el Vera Rubin SuperChip, que integra la nueva GPU Rubin junto a la CPU Vera, formando un nodo de cómputo altamente cohesionado diseñado para acelerar modelos de IA avanzados. NVIDIA confirma que el salto de rendimiento procede en gran medida de la integración directa de memoria HBM4 en el silicio de GPU, acompañada por módulos SOCAMM dedicados que optimizan el movimiento de datos dentro del sistema.

Gracias a esta arquitectura, el rack alcanza un ancho de banda de memoria de hasta 1,2 TB/s, una cifra crítica para reducir cuellos de botella en entrenamiento de modelos multimodales, inferencia a gran escala y procesamiento paralelo intensivo. Esta mejora permite mantener un flujo constante de datos entre CPU, GPU y memoria, algo esencial en sistemas de IA modernos donde el movimiento de datos resulta tan importante como la potencia de cálculo.

Además, la integración estrecha entre componentes convierte al SuperChip en una unidad diseñada específicamente para maximizar la eficiencia energética y la densidad computacional dentro del rack NVL72.

Refrigeración líquida modular para racks de nueva generación

Otro salto importante llega en el apartado térmico, donde NVIDIA introduce un sistema de refrigeración líquida modular capaz de cubrir directamente los elementos críticos del SuperChip mediante cold plates dedicadas para GPU y CPU. Este diseño permite gestionar cargas térmicas mucho más elevadas manteniendo estabilidad operativa continua.

La compañía sostiene que esta implementación facilitará la transición de los hyperscalers hacia infraestructuras líquidas, ya que el enfoque modular mejora la eficiencia térmica del rack completo al mismo tiempo que reduce el consumo hídrico frente a soluciones anteriores. En centros de datos actuales, donde la eficiencia energética y la sostenibilidad son factores prioritarios, esta optimización representa un cambio estructural relevante.

El sistema también simplifica el mantenimiento y la escalabilidad del rack, permitiendo reemplazos modulares de componentes sin necesidad de rediseñar la infraestructura completa del sistema.

NVLink 6 Spine y conectividad extrema de 260 TB/s por rack

La conectividad interna recibe una evolución significativa con NVLink de sexta generación, conocido como NVLink 6 Spine, un tejido de interconexión diseñado para proporcionar hasta 260 TB/s de ancho de banda agregado por rack NVL72.

Según NVIDIA, esta nueva generación introduce un diseño altamente modular capaz de ofrecer mantenimiento sin interrupciones (zero-downtime) y servicios avanzados de RAS a nivel de rack, mejorando la disponibilidad en entornos críticos de IA. Este avance permite escalar sistemas sin sacrificar estabilidad ni rendimiento, algo fundamental en despliegues masivos de entrenamiento e inferencia.

El nuevo NVLink Spine transforma el rack en una única unidad lógica de computación distribuida, reduciendo latencias internas y aumentando la eficiencia del paralelismo entre aceleradores.

Menor coste de inferencia y mayor eficiencia frente a Blackwell GB200

Aunque se espera un incremento de precio respecto a generaciones anteriores, NVIDIA afirma que Vera Rubin introduce mejoras sustanciales en eficiencia operativa. La arquitectura permitiría una reducción de hasta 10 veces en el coste por token de inferencia, además de requerir cuatro veces menos GPU para entrenar modelos MoE en comparación con la plataforma Blackwell GB200.

Este enfoque refuerza la estrategia defendida por la compañía, donde una mayor inversión inicial en infraestructura se traduce en una reducción significativa del coste total de propiedad (TCO) a largo plazo. En entornos hyperscaler, donde el consumo energético y la eficiencia por token son métricas clave, estas mejoras pueden redefinir la economía operativa de la IA.

En conjunto, Vera Rubin representa una evolución hacia racks completamente optimizados para IA, donde computación, memoria, interconexión y refrigeración funcionan como un sistema unificado diseñado para maximizar rendimiento, escalabilidad y eficiencia energética en centros de datos de próxima generación.

Vía: Wccftech

Sobre el autor