
Un nuevo bug de virtualización afecta a las tarjetas gráficas de consumo y profesionales de NVIDIA más potentes del momento: la GeForce RTX 5090 y la RTX 6000 PRO de la gama ProViz. El problema ha sido detectado por la empresa CloudRift, dedicada a construir infraestructuras de GPU cloud para desarrolladores de IA, y ya está generando preocupación en la comunidad técnica.
El fallo: GPU bloqueada tras uso intensivo
Según reporta CloudRift, el error aparece tras días o semanas de uso constante en máquinas virtuales, momento en el que las tarjetas quedan totalmente congeladas e inoperativas. Lo más llamativo es que la incidencia no afecta a otras GPUs de NVIDIA: modelos como la H100, la nueva B200 de la familia Blackwell o incluso la anterior RTX 4090 funcionan sin problemas en el mismo entorno.
Esto apunta a que el fallo está limitado a las gamas de consumo (RTX 5090) y profesional ProViz (RTX 6000 PRO), lo que complica su uso en servidores de virtualización avanzados.
Origen técnico del problema
El error surge durante el proceso de PCIe Function-Level Reset (FLR), una operación rutinaria en entornos de virtualización con KVM y VFIO. Cuando una GPU es reasignada a una máquina virtual y posteriormente liberada, debería reactivarse sin inconvenientes.
Sin embargo, en las RTX 5090 y RTX 6000 PRO, tras ejecutar el FLR, la tarjeta no vuelve a estar operativa. El kernel detecta la situación y emite el mensaje: “not ready 65535ms after FLR; giving up”.
En otras palabras, la única causa del fallo es la GPU en sí misma. Ante la magnitud del problema, CloudRift ha llegado a ofrecer una recompensa de 1.000 dólares a quien logre resolver el bug.
Mitigaciones actuales y espera de parche
El fallo no es aislado: usuarios en foros como Level1Techs también han reportado incidencias similares. NVIDIA ha reconocido el problema y ha propuesto como mitigación temporal instalar el kernel parcheado de Proxmox con el comando:
No obstante, esta solución es parcial y no elimina la vulnerabilidad por completo. Se espera que el arreglo definitivo llegue en forma de actualización de drivers o incluso del kernel de Linux, combinando ambos enfoques para restaurar la estabilidad de estas GPUs en entornos virtualizados.
Vía: TechPowerUp