Cuál es la novedad: El superordenador Aurora del Laboratorio Nacional de Argonne ya está totalmente equipado con los 10.624 blades de cálculo, que cuentan con 63.744 procesadores Intel® Data Center GPU Max Series y 21.248 procesadores Intel Xeon CPU Max Series.
«Aurora es la primera implantación de la GPU de la serie Max de Intel, el mayor sistema basado en la CPU Xeon Max y el mayor clúster de GPU del mundo. Estamos orgullosos de formar parte de este sistema histórico y entusiasmados por la IA, la ciencia y la ingeniería revolucionarias que Aurora hará posibles», asegura Jeff McVeigh, Intel corporate vice president and general manager of the Super Compute Group
Qué es Aurora: El superordenador Aurora, fruto de la colaboración entre Intel, Hewlett Packard Enterprise (HPE, por sus siglas) y el Departamento de Energía (DOE, por sus siglas en inglés), está diseñado para liberar el potencial de los tres pilares de la informática de altas prestaciones (HPC, por sus siglas en inglés): simulaciones, análisis de datos e inteligencia artificial a una escala extremadamente grande. El sistema incorpora más de 1.024 nodos de almacenamiento (utilizando DAOS, el almacenamiento de objetos asíncrono distribuido de Intel) que proporcionan 220 terabytes de capacidad a 31TBs de ancho de banda total y aprovecha el tejido de alto rendimiento HPE Slingshot. A finales de este año, se espera que Aurora sea el primer superordenador del mundo en alcanzar un rendimiento máximo teórico de más de 2 exaflops (un exaflop son 1018 o mil millones de millones de operaciones por segundo) cuando entre en la lista TOP500.
Aurora aprovechará toda la potencia de la familia de GPU y CPU de la serie Intel Max. Diseñadas para satisfacer las demandas de las cargas de trabajo dinámicas y emergentes de HPC e IA, los primeros resultados con las GPU de la serie Max demuestran un rendimiento líder en cargas de trabajo de ciencia e ingeniería del mundo real, mostrando hasta 2 veces el rendimiento de las GPU AMD MI250X en OpenMC, y un escalado casi lineal hasta cientos de nodos. Por su parte, la CPU Intel Xeon de la serie Max impulsa una ventaja de rendimiento del 40% sobre la competencia en muchas cargas de trabajo de HPC del mundo real, como el modelado de sistemas terrestres, la energía y la fabricación.
Por qué es importante: Los investigadores se enfrentan a retos monumentales que exigen tecnologías informáticas avanzadas a gran escala, desde la lucha contra el cambio climático hasta la búsqueda de curas para enfermedades mortales. Aurora está preparada para responder a las necesidades de las comunidades de HPC e IA, proporcionando las herramientas necesarias para ampliar los límites de la exploración científica.
«Mientras trabajamos en las pruebas de aceptación, vamos a utilizar Aurora para entrenar algunos modelos de IA generativa de código abierto a gran escala para la ciencia. Aurora, con más de 60.000 GPU Intel Max, un sistema de E/S muy rápido y un sistema de almacenamiento masivo totalmente de estado sólido, presenta el entorno perfecto para entrenar estos modelos», asegura Rick Stevens, Argonne National Laboratory associate laboratory director
Cómo funciona: En el corazón de este sistema de última generación se encuentran los elegantes blades rectangulares de Aurora, que albergan procesadores, memoria, redes y tecnologías de refrigeración. Cada blade consta de dos CPU Intel Xeon Max Series y seis GPU Intel Max Series. La familia de productos Xeon Max Series ya está demostrando un gran rendimiento en Sunspot, el banco de pruebas y sistema de desarrollo con la misma arquitectura que Aurora.
Los desarrolladores están utilizando las herramientas oneAPI y AI para acelerar las cargas de trabajo de HPC y AI y mejorar la portabilidad del código a través de múltiples arquitecturas.
La instalación de estos blades ha sido una operación delicada, ya que cada blade de 70 libras ha requerido maquinaria especializada para integrarse verticalmente en los racks de Aurora, del tamaño de un frigorífico. Los 166 bastidores del sistema albergan 64 blades cada uno y se extienden en ocho filas, ocupando un espacio equivalente al de dos canchas de baloncesto profesional en el centro de datos del ALCF.
Los investigadores del programa Aurora Early Science Program (ESP) del ALCF y del proyecto Exascale Computing del DOE migrarán su trabajo del banco de pruebas Sunspot al Aurora completamente instalado. Esta transición les permitirá escalar sus aplicaciones en el sistema completo. Los primeros usuarios someterán el superordenador a pruebas de estrés e identificarán posibles fallos que deban resolverse antes de su despliegue. Esto incluye los esfuerzos para desarrollar modelos generativos de IA para la ciencia, anunciados recientemente en la conferencia ISC’23.