Zyphra entrena el modelo ZAYA1 en GPUs AMD Instinct MI300X con resultados superiores en IA

Zyphra entrena el modelo ZAYA1 en GPUs AMD Instinct MI300X con resultados superiores en IA

Zyphra ha alcanzado un hito relevante en el ámbito de la inteligencia artificial a gran escala, tras completar con éxito el entrenamiento del modelo fundacional ZAYA1, un sistema Mixture-of-Experts (MoE) desarrollado íntegramente sobre la plataforma AMD Instinct MI300X y el entorno de red AMD Pensando. Este avance, descrito en un informe técnico publicado por la propia compañía, demuestra la viabilidad de la infraestructura de AMD para cargas de trabajo de IA generativa y razonamiento multimodal a gran escala.

El proyecto utilizó la pila de software abierta AMD ROCm, clave para coordinar los componentes de hardware y optimizar la distribución de datos durante el entrenamiento.

ZAYA1: eficiencia y rendimiento en entrenamiento masivo

El modelo ZAYA1-Base cuenta con 8.300 millones de parámetros totales, de los cuales 760 millones están activos simultáneamente. Pese a esa estructura modular, alcanza o supera el rendimiento de modelos de referencia como Qwen3-4B (Alibaba), Gemma3-12B (Google), Llama-3-8B (Meta) u OLMoE, en tareas de razonamiento lógico, matemáticas y programación.

El uso de las GPU AMD Instinct MI300X, con 192 GB de memoria HBM3, permitió evitar técnicas costosas de partición de tensores o expertos, simplificando la arquitectura y mejorando la eficiencia del flujo de datos. Zyphra asegura que las optimizaciones de entrada/salida distribuidas lograron velocidades de guardado de modelo hasta diez veces superiores, mejorando la fiabilidad del entrenamiento en entornos con miles de nodos.

Colaboración técnica entre AMD, Zyphra e IBM

El desarrollo del clúster de entrenamiento se realizó en colaboración con AMD e IBM, integrando GPU MI300X con la infraestructura de red de alto rendimiento y almacenamiento de IBM Cloud. Esta arquitectura conjunta permitió escalar el entrenamiento del modelo sin comprometer la coherencia entre expertos activos, una limitación habitual en los sistemas Mixture-of-Experts de gran tamaño.

La sinergia entre el hardware de AMD y la capa de orquestación distribuida optimizada por Zyphra se tradujo en un rendimiento sostenido por vatio competitivo frente a soluciones basadas en NVIDIA Hopper, destacando el rendimiento-precio favorable de las plataformas AMD Instinct en entornos empresariales.

Eficiencia energética y filosofía de co-diseño

Desde su fundación, Zyphra ha centrado su desarrollo en la eficiencia energética y computacional como eje de diseño. El modelo ZAYA1 refleja esa filosofía mediante una co-optimización entre arquitectura, silicio y software, donde la elección del hardware se ajusta a las necesidades reales de inferencia y escalado.

El resultado muestra que los chips AMD Instinct MI300X y la conectividad Pensando Networking pueden sostener entrenamientos de modelos de nueva generación con costes energéticos y de infraestructura significativamente menores, fortaleciendo la posición de AMD dentro del sector de IA y computación acelerada.

Zyphra entrena el modelo ZAYA1 en GPUs AMD Instinct MI300X con resultados superiores en IA

Un paso más hacia modelos multimodales avanzados

La compañía planea continuar esta línea de trabajo en colaboración con AMD e IBM, centrando los próximos desarrollos en modelos fundacionales multimodales de gran tamaño, orientados a comprensión contextual avanzada. Los resultados del entrenamiento de ZAYA1 validan la madurez de la plataforma AMD ROCm y abren la puerta a nuevas configuraciones de IA distribuida para investigación y servicios en la nube.

Vía: TechPowerUp

Sobre el autor