NVIDIA Blackwell revienta la eficiencia: Los costes por token caen un 10x respecto a Hopper

NVIDIA Blackwell revienta la eficiencia: Los costes por token caen un 10x respecto a Hopper

NVIDIA ha vuelto a dar un golpe sobre la mesa en el sector de la IA. Con la arquitectura Blackwell ya en pleno despliegue, la compañía de Santa Clara ha confirmado un hito brutal en la eficiencia de inferencia: han logrado reducir los costes de generación de tokens hasta en 10 veces en comparación con la anterior generación, Hopper.

Este salto masivo no es solo potencia bruta, sino el resultado de lo que Jensen Huang denomina «Extreme Codesign». La clave reside en la implementación del sistema GB200 NVL72, que utiliza una configuración de 72 chips interconectados y nada menos que 30 TB de memoria compartida ultra rápida.

Puntos clave de la optimización de Blackwell:

  • Paralelismo de expertos: El sistema permite dividir y distribuir los lotes de tokens de forma mucho más eficiente entre las GPUs.

  • Reducción de latencia: Proveedores de inferencia como Baseten y Together AI ya reportan latencias mínimas con un coste operativo drásticamente inferior.

  • Eficiencia energética: No solo es más barato por token, sino que la arquitectura está diseñada para maximizar el throughput sin disparar el consumo linealmente.

Aunque el hardware es impresionante por sí solo, NVIDIA subraya que la optimización del stack de software y la infraestructura compartida es lo que realmente permite que Blackwell sea hoy por hoy la opción imbatible para modelos de lenguaje masivos. El futuro parece pasar por Vera Rubin, pero por ahora, Blackwell ha dejado a Hopper como una opción de «segunda línea» en términos de rentabilidad.

Vía: Wccftech

Sobre el autor