NVIDIA lanza Nemotron 3 Super con arquitectura Mamba-MoE y hasta 1 millón de tokens de contexto

La expansión de la inteligencia artificial no solo está impulsando el desarrollo de aceleradores de IA y centros de datos, también está acelerando la evolución de los modelos de lenguaje abiertos. En este contexto, NVIDIA ha presentado Nemotron 3 Super, una nueva generación dentro de su familia de LLM open source Nemotron, diseñada para mejorar el rendimiento en aplicaciones basadas en agentes de IA y cargas de trabajo de inferencia a gran escala.

Con este lanzamiento, la compañía refuerza su estrategia de cubrir toda la pila tecnológica de la IA, desde el silicio de GPU hasta el desarrollo de modelos de lenguaje avanzados. El objetivo es ofrecer una alternativa competitiva dentro del ecosistema de modelos abiertos frente a iniciativas procedentes de otros laboratorios de investigación, especialmente en Asia.

Arquitectura híbrida Mamba-MoE orientada a eficiencia y razonamiento

Uno de los elementos clave de Nemotron 3 Super es su arquitectura híbrida Mamba-MoE, que combina varias técnicas para mejorar la eficiencia durante la inferencia. En este enfoque, las capas Mamba utilizan un modelo basado en State Space Models (SSM) para procesar información de forma lineal, lo que permite manejar grandes volúmenes de contexto sin acumular datos irrelevantes.

Esta arquitectura se combina con capas Transformer, responsables de tareas de razonamiento más complejas. El resultado es un diseño híbrido que busca equilibrar eficiencia de memoria, rendimiento computacional y capacidad de razonamiento, algo especialmente relevante en sistemas de agentes de IA que deben analizar grandes cantidades de información.

El modelo también utiliza un esquema Mixture of Experts (MoE) que activa únicamente 12.000 millones de parámetros de los 120.000 millones totales durante la inferencia. Este enfoque permite reducir significativamente el consumo de recursos manteniendo un alto nivel de precisión.

Ventana de contexto de 1 millón de tokens

Otro de los avances más destacados del nuevo modelo es su ventana de contexto de 1 millón de tokens, una capacidad notablemente superior a la de muchos modelos actuales. En sistemas basados en agentes de IA, una ventana de contexto amplia resulta fundamental para mantener coherencia cuando el modelo debe analizar documentos extensos o ejecutar procesos complejos de múltiples pasos.

En la práctica, una mayor ventana de contexto permite que el modelo mantenga información relevante durante más tiempo, algo clave en aplicaciones como análisis documental, automatización de procesos o asistentes inteligentes avanzados.

Mejoras en inferencia y eficiencia computacional

El modelo también incorpora varias optimizaciones orientadas a mejorar la velocidad de inferencia. Una de ellas es Latent MoE, una técnica que activa cuatro expertos especializados al coste de uno para generar el siguiente token, lo que mejora la precisión sin incrementar de forma significativa la carga computacional.

Otra innovación relevante es Multi-Token Prediction, que permite predecir varios tokens de forma simultánea en lugar de hacerlo de manera secuencial. Según NVIDIA, este método puede acelerar la inferencia hasta tres veces frente a técnicas convencionales.

Las capas Mamba también contribuyen a mejorar el rendimiento general del modelo, proporcionando hasta cuatro veces más eficiencia en memoria y cálculo en determinados escenarios.

Resultados destacados en pruebas para agentes de IA

Para evaluar el rendimiento del modelo, NVIDIA utilizó PinchBench, una suite de pruebas diseñada específicamente para medir el comportamiento de sistemas de IA basados en agentes. En este conjunto de pruebas, Nemotron 3 Super obtuvo una puntuación de 85,6%, superando a modelos como Opus 4.5, Kimi 2.5 y GPT-OSS 120B.

Un aspecto especialmente relevante es que este rendimiento puede alcanzarse con requisitos de hardware relativamente contenidos, ya que algunos escenarios permiten ejecutar el modelo utilizando una sola GPU. Esto facilita el despliegue de sistemas avanzados de agentes de IA sin necesidad de grandes infraestructuras de cálculo.

Los agentes de IA marcan la próxima etapa del sector

El lanzamiento de Nemotron 3 Super refleja una tendencia clara en el sector: la evolución hacia sistemas de agentes de IA capaces de ejecutar tareas complejas de forma autónoma. Estos modelos no solo generan texto, sino que también pueden interactuar con herramientas externas, analizar información y tomar decisiones en función del contexto disponible.

A medida que la arquitectura de los modelos continúa evolucionando y mejora la eficiencia computacional, el despliegue de este tipo de sistemas será cada vez más viable tanto en centros de datos como en entornos más cercanos al edge computing.

Vía: Wccftech

Hardware

Noticia

Tecnología

NVIDIA lanza Nemotron 3 Super con arquitectura Mamba-MoE y hasta 1 millón de tokens de contexto

Arquitectura híbrida Mamba-MoE orientada a eficiencia y razonamiento

Ventana de contexto de 1 millón de tokens

Mejoras en inferencia y eficiencia computacional

Resultados destacados en pruebas para agentes de IA

Los agentes de IA marcan la próxima etapa del sector

Sobre el autor

Reviews más recientes

Arquitectura híbrida Mamba-MoE orientada a eficiencia y razonamiento

Ventana de contexto de 1 millón de tokens

Mejoras en inferencia y eficiencia computacional

Resultados destacados en pruebas para agentes de IA

Los agentes de IA marcan la próxima etapa del sector

Sobre el autor

Entradas relacionadas

PS6 Handheld superaría a Xbox Series S en rasterización y ray tracing con Zen 6 y RDNA 5

Raspberry Pi sube precios por el coste de la memoria LPDDR4 y lanza un nuevo modelo de 3 GB

Windows 11 corrige errores críticos de actualización con KB5086672 tras retirar KB5079391

Reviews más recientes