Intel Labs, en colaboración con Blockade Labs, ha presentado Latent Diffusion Model for 3D (LDM3D por sus siglas en inglés), un modelo de difusión novedoso que utiliza IA generativa para crear contenidos visuales en 3D. LMD3D es el primer modelo del sector que genera un mapa de profundidad mediante el proceso de difusión para crear imágenes 3D con vistas de 360 grados que resultan vívidas e inmersivas. Este tiene el potencial de revolucionar la creación de contenidos, las aplicaciones metaversales y las experiencias digitales, transformando una amplia gama de sectores, desde el entretenimiento y los videojuegos hasta la arquitectura y el diseño.
«La IA generativa pretende aumentar y mejorar la creatividad humana y ahorrar tiempo. Sin embargo, la mayoría de los modelos actuales se limitan a generar imágenes en 2D y muy pocos pueden generar imágenes en 3D a partir de mensajes de texto. A diferencia de los modelos existentes de difusión latente estable, LDM3D permite a los usuarios generar una imagen y un mapa de profundidad a partir de un texto determinado utilizando casi el mismo número de parámetros. Proporciona una profundidad relativa más precisa para cada píxel de una imagen en comparación con los métodos estándar de posprocesamiento para la estimación de la profundidad y ahorra a los desarrolladores un tiempo considerable en el desarrollo de escenas», asegura Vasudev Lal, AI/ML research scientist de Intel Labs.
Por qué es importante: Los ecosistemas cerrados limitan la escala, y, además, el compromiso de Intel con la verdadera democratización de la IA permitirá un acceso más amplio a los beneficios de esta a través de un ecosistema abierto. Un área que ha experimentado avances significativos en los últimos años es el campo de la visión por ordenador, especialmente en la IA generativa. Sin embargo, muchos de los modelos avanzados de IA generativa actuales se limitan a generar únicamente imágenes 2D. A diferencia de los modelos de difusión existentes, que generalmente solo generan imágenes 2D RGB a partir de mensajes de texto, LDM3D permite a los usuarios generar tanto una imagen como un mapa de profundidad a partir de un mensaje de texto determinado. Por tanto, utilizando casi el mismo número de parámetros que la difusión latente estable, LDM3D proporciona una profundidad relativa más precisa para cada píxel de una imagen en comparación con los métodos estándar de posprocesamiento para la estimación de la profundidad.
Esta investigación podría revolucionar la forma en que interactuamos con los contenidos digitales al permitir a los usuarios experimentar sus indicaciones de texto de formas antes inconcebibles. Las imágenes y mapas de profundidad generados por LDM3D permiten a los usuarios convertir la descripción textual de una playa tropical tranquila, un rascacielos moderno o un universo de ciencia ficción en una detallada panorámica de 360 grados. Esta capacidad de captar información de profundidad puede mejorar instantáneamente el realismo y la inmersión generales, lo que permite aplicaciones innovadoras para sectores que van desde el entretenimiento y los juegos hasta el diseño de interiores y los listados inmobiliarios, así como museos virtuales y experiencias inmersivas de realidad virtual (RV).
Cómo funciona: LDM3D se entrenó en un conjunto de datos construido a partir de un subconjunto de 10.000 muestras de la base de datos LAION-400M, que contiene más de 400 millones de pares imagen-capítulo. El equipo utilizó el modelo de estimación de gran profundidad Dense Prediction Transformer (DPT, por sus siglas) para anotar el corpus de entrenamiento. El modelo DPT-large proporciona una profundidad relativa muy precisa para cada píxel de una imagen. El conjunto de datos LAION-400M se ha creado con fines de investigación para que los científicos y otras comunidades interesadas puedan probar el modelo de entrenamiento a mayor escala.
El modelo LDM3D se entrena en un superordenador Intel AI equipado con procesadores Intel Xeon y aceleradores Intel Habana Gaudi AI que combinan la imagen RGB generada y el mapa de profundidad para generar vistas de 360 grados, logrando así experiencias inmersivas.
Para demostrar el potencial de LDM3D, los investigadores de Intel y Blockade desarrollaron DepthFusion, una aplicación que aprovecha las fotos RGB 2D estándar y los mapas de profundidad para crear experiencias inmersivas e interactivas con vistas de 360 grados. DepthFusion utiliza TouchDesigner, un lenguaje de programación visual basado en nodos para contenidos multimedia interactivos en tiempo real, para convertir indicaciones de texto en experiencias digitales interactivas e inmersivas. El modelo LDM3D es un único modelo para crear tanto una imagen RGB como su mapa de profundidad, lo que supone un ahorro de memoria y una mejora de la latencia.
Próximos pasos: La introducción de LDM3D y DepthFusion allana el camino para nuevos avances en la IA generativa multivista y la visión por ordenador. Intel seguirá explorando el uso de la IA generativa para aumentar las capacidades humanas y construir un sólido ecosistema de investigación y desarrollo de IA de código abierto que democratice el acceso a esta tecnología. Siguiendo con el firme apoyo de Intel a un ecosistema abierto en IA, LDM3D presenta un código abierto a través de HuggingFace. Esto permitirá a los investigadores y profesionales de la IA mejorar aún más este sistema y perfeccionarlo para aplicaciones personalizadas.
Contexto: La investigación de Intel se presentará en la Conferencia IEEE/CVF sobre Visión por Ordenador y Reconocimiento de Patrones (CVPR por sus siglas) que se celebrará del 18 al 22 de junio.