FuriosaAI y Broadcom preparan un acelerador de IA de 2 nm con memoria HBM4/E para inferencia a gran escala

FuriosaAI y Broadcom han anunciado una colaboración para desarrollar un nuevo acelerador de IA de tercera generación, diseñado alrededor de una arquitectura de chiplets de 2 nm y memoria HBM4/E. La plataforma apunta directamente al mercado de inferencia de IA, donde el movimiento de datos empieza a ser tan crítico como la potencia bruta.

El diseño sucederá a la actual plataforma RNGD de segunda generación, fabricada en 5 nm de TSMC y ya en producción masiva. Frente a ese modelo, basado en una tarjeta PCIe de 180W, la próxima generación busca escalar hacia clústeres de IA masivos con más ancho de banda, mayor densidad de tokens y mejor eficiencia por vatio.

Una arquitectura de chiplets de 2 nm pensada para inferencia

El nuevo acelerador de FuriosaAI utilizará un die de cómputo avanzado de 2 nm, acompañado por memoria HBM4/E y encapsulado avanzado desarrollado junto a Broadcom. La idea es integrar varios bloques de silicio dentro de un único sistema de alto rendimiento, orientado a cargas reales de inferencia y modelos agentic AI.

El enfoque resulta importante porque el mercado de IA está cambiando rápido. Entrenar modelos sigue siendo crítico, pero la demanda crece con fuerza en inferencia, post-training sampling y generación constante de tokens. Ahí, la capacidad para mover datos con baja latencia puede pesar más que sumar núcleos de forma convencional.

FuriosaAI plantea esta generación como una respuesta a esa presión. Su arquitectura quiere priorizar ancho de banda, eficiencia y densidad de tokens, en lugar de depender únicamente del modelo clásico de GPU con gestión masiva de hilos. Es una apuesta arriesgada, pero coherente con la evolución de los centros de datos de IA.

HBM4/E y hasta 12 pilas de memoria en el diseño mostrado

El avance más llamativo está en el uso de memoria HBM4/E, un estándar clave para próximas generaciones de aceleradores de IA. En la imagen preliminar del chip aparecen 12 ubicaciones de memoria HBM4/E, dos grandes chiplets de cómputo de 2 nm y dos controladores de entrada/salida.

Si FuriosaAI utiliza módulos 12-Hi de 36 GB por pila, la configuración podría alcanzar hasta 432 GB de memoria HBM dentro del paquete. Esa cifra sería especialmente relevante para modelos grandes, inferencia con mucho contexto y sistemas donde la capacidad de memoria condiciona directamente el rendimiento por nodo.

La elección de HBM4/E también tiene una lectura clara. La compañía no está diseñando un acelerador genérico, sino una plataforma donde el ancho de banda de memoria es el centro del producto. Para cargas de IA modernas, alimentar el cómputo sin cuellos de botella resulta imprescindible para sostener rendimiento real.

Broadcom aporta encapsulado, Ethernet y PCIe

La colaboración con Broadcom va más allá del encapsulado. FuriosaAI aprovechará sus capacidades de interconexión Ethernet y propiedad intelectual PCIe, dos piezas fundamentales para construir sistemas de IA a escala de rack. En estos entornos, el chip aislado importa menos que la comunicación eficiente entre aceleradores, servidores y redes internas.

Este punto diferencia la propuesta frente a soluciones más centradas en el componente individual. El objetivo es crear una plataforma capaz de integrarse en clústeres de IA de gran escala, donde la latencia, el ancho de banda entre nodos y la coherencia del sistema pueden limitar el rendimiento antes que el propio silicio de aceleración.

Broadcom también aporta experiencia en infraestructura, algo especialmente útil si FuriosaAI quiere competir en despliegues empresariales. Para centros de datos, no basta con tener un chip rápido: hacen falta red, software, empaquetado, escalabilidad y una ruta clara hacia sistemas completos.

Más tokens por vatio frente al modelo GPU tradicional

FuriosaAI asegura que su enfoque puede ofrecer mayor rendimiento por vatio y más densidad de tokens que diseños de GPU muy eficientes. La afirmación se apoya en una arquitectura centrada en movimiento de datos de alto ancho de banda, evitando parte de la complejidad asociada a la gestión de hilos en GPU convencionales.

Esta idea tiene sentido en inferencia, donde muchas cargas no siempre aprovechan igual la estructura generalista de una GPU. Si el acelerador puede mover datos con más eficiencia, mantener latencias controladas y ejecutar modelos con menos sobrecoste, podría resultar atractivo para proveedores centrados en servicios de IA a gran escala.

La clave estará en comprobarlo fuera de las promesas iniciales. NVIDIA domina este mercado no solo por hardware, sino por software, ecosistema, herramientas y disponibilidad. FuriosaAI necesita demostrar que su propuesta aporta ventajas reales en despliegues de producción, no solo en métricas teóricas.

Una pila de software orientada a PyTorch y control fino del hardware

La compañía también destaca su pila de software, con un SDK capaz de mapear código PyTorch de alto nivel directamente al silicio mediante un compilador general. Este punto resulta esencial, porque ningún acelerador de IA puede prosperar si obliga a los desarrolladores a reescribir demasiado sus modelos o flujos existentes.

Para quienes necesiten más control, FuriosaAI ofrece una Virtual ISA con un modelo declarativo de programación. La promesa es permitir un control más directo del hardware sin entrar en la complejidad no determinista típica de la programación GPU tradicional, algo que podría atraer a equipos técnicos que buscan latencia predecible y rendimiento ajustado.

Este apartado será tan importante como el propio chip. En IA, la adopción depende mucho de herramientas, compatibilidad y facilidad de despliegue. Si FuriosaAI logra unir PyTorch, compilador, control de bajo nivel y buen rendimiento real, tendrá más opciones de entrar en clientes que ya operan cargas críticas de inferencia.

Muestreo previsto para la primera mitad de 2028

El acelerador de tercera generación de FuriosaAI tiene previsto comenzar su fase de muestreo durante la primera mitad de 2028. Es un calendario todavía lejano, pero coherente para un diseño que combina nodo de 2 nm, memoria HBM4/E, chiplets avanzados y escalado para centros de datos de nueva generación.

La ventana también indica que la compañía mira más allá del ciclo actual de aceleradores. Para 2028, la inferencia debería tener aún más peso económico, con modelos agentic AI, asistentes persistentes y servicios de generación funcionando de forma continua. Ahí, soluciones centradas en tokens por vatio y ancho de banda por rack pueden ganar relevancia.

En conjunto, la alianza entre FuriosaAI y Broadcom apunta a una pieza muy ambiciosa para el mercado de IA. No será una amenaza inmediata para las GPU dominantes, pero sí refleja una tendencia clara: la próxima batalla de aceleradores no se librará solo en FLOPS, sino en memoria, red, eficiencia y software de despliegue.

Vía: Wccftech

Hardware

Noticia

Tecnología

FuriosaAI y Broadcom preparan un acelerador de IA de 2 nm con memoria HBM4/E para inferencia a gran escala

Una arquitectura de chiplets de 2 nm pensada para inferencia

HBM4/E y hasta 12 pilas de memoria en el diseño mostrado

Broadcom aporta encapsulado, Ethernet y PCIe

Más tokens por vatio frente al modelo GPU tradicional

Una pila de software orientada a PyTorch y control fino del hardware

Muestreo previsto para la primera mitad de 2028

Sobre el autor

Reviews más recientes

Una arquitectura de chiplets de 2 nm pensada para inferencia

HBM4/E y hasta 12 pilas de memoria en el diseño mostrado

Broadcom aporta encapsulado, Ethernet y PCIe

Más tokens por vatio frente al modelo GPU tradicional

Una pila de software orientada a PyTorch y control fino del hardware

Muestreo previsto para la primera mitad de 2028

Sobre el autor

Entradas relacionadas

Varta solicita la insolvencia tras perder el contrato de baterías para los AirPods

TSMC Fab 20 habría alcanzado 20.000 obleas mensuales mediante el proceso de 2 nm

Qualcomm subiría el precio de sus chips, Snapdragon 8 Elite Gen 6 quedaría entre los afectados

Reviews más recientes