Con el protocolo CXL, Panmnesia expande la memoria de la GPU con tarjetas DRAM o incluso unidades SSD

Con el protocolo CXL, Panmnesia expande la memoria de la GPU con tarjetas DRAM o incluso unidades SSD

Panmnesia, una start-up surcoreana, ha presentado una interesante solución para resolver las limitaciones de memoria de las GPUs actuales. Han desarrollado una IP Compute Express Link (CXL) de baja latencia que podría contribuir a expandir la memoria de la GPU mediante una tarjeta externa.

Con el protocolo CXL, Panmnesia expande la memoria de la GPU con tarjetas DRAM o incluso unidades SSD

En la actualidad, las aplicaciones de IA y HPC aceleradas en la GPU se ven limitadas por la cantidad de memoria integrada en las GPUs. Teniendo en cuenta que el tamaño de los datos crece a un ritmo de 3 veces al año, las redes de GPU deben seguir haciéndose más grandes solo para que quepa la aplicación en la memoria local, lo que beneficia la latencia y la generación de tokens.

Para resolver este problema, Panmnesia propone hacer uso del protocolo CXL para ampliar la capacidad de memoria de la GPU mediante DRAM conectada a PCIe o incluso unidades SSD. Para ello, la compañía ha sorteado importantes obstáculos técnicos, como la ausencia de un tejido lógico CXL en las GPUs y las limitaciones de los sistemas de memoria virtual unificada (UVM) existentes.

Con el protocolo CXL, Panmnesia expande la memoria de la GPU con tarjetas DRAM o incluso unidades SSD

La base de la solución propuesta por Panmnesia consiste en un complejo root compatible con la norma CXL 3.1, dotado de múltiples puertos root y un puente host que incorpora un descodificador HDM (host-managed device memory). Gracias a este sofisticado sistema, el subsistema de memoria de la GPU pasa a tratar la memoria conectada al PCIe como memoria nativa del sistema. Las pruebas realizadas han arrojado resultados sorprendentes.

CXL-Opt, la solución CXL de Panmnesia, ha conseguido una latencia de ida y vuelta de dos dígitos de nanosegundo, batiendo con creces a UVM y a anteriores prototipos de CXL. Asimismo, en las pruebas de ejecución del núcleo de la GPU, CXL-Opt mostró tiempos de ejecución hasta 3,22 veces más rápidos que UVM. En el caso de los antiguos extensores de memoria CXL, la latencia de ida y vuelta rondaba los 250 nanosegundos, mientras que CXL-Opt podía alcanzar menos de 80 nanosegundos.

El problema, al igual que con CXL, suele ser que los pools de memoria suman latencia y el rendimiento se deteriora, al tiempo que estos extensores de CXL tienden a incrementar también el modelo de costes. Panmnesia CXL-Opt, sin embargo, podría encontrar un caso de uso, y queda por ver si alguien lo adopta en su infraestructura. En las imágenes adjuntas se muestran algunos benchmarks de Panmnesia, así como la arquitectura del CXL-Opt.

Vía: TechPowerUp

Sobre el autor