El iPhone 17 Pro logra ejecutar un LLM de 400B gracias al proyecto Flash-MoE

La computación en dispositivos móviles acaba de alcanzar un hito que parecía físicamente imposible. Un vídeo reciente ha demostrado que el iPhone 17 Pro es capaz de ejecutar un modelo de lenguaje extenso (LLM) de 400.000 millones de parámetros, una tarea que normalmente requeriría hardware de servidor con al menos 200 GB de memoria RAM. Aunque la ejecución dista mucho de ser fluida, el simple hecho de que el chip A19 Pro (o su equivalente en esta generación) pueda procesar tal cantidad de datos abre un nuevo paradigma en la IA on-device.

Este logro se ha conseguido mediante el proyecto de código abierto Flash-MoE, que utiliza técnicas de optimización extremas para saltarse las limitaciones físicas del terminal. El iPhone 17 Pro cuenta únicamente con 12 GB de RAM LPDDR5X, una cifra ridícula para las exigencias de un modelo 400B incluso en sus versiones más comprimidas o cuantizadas. Sin embargo, la clave reside en cómo se gestionan los recursos del sistema para que el SoC de Apple no colapse durante la generación de texto.

La magia del Mixture of Experts y el streaming desde el SSD

Para obrar este milagro, los desarrolladores han recurrido a la arquitectura MoE (Mixture of Experts). En lugar de activar los 400B de parámetros simultáneamente, este sistema solo utiliza una pequeña fracción de los «expertos» del modelo para generar cada palabra. Además, al no poder cargar el LLM completo en la memoria volátil, Flash-MoE realiza un streaming directo desde el almacenamiento SSD del dispositivo hacia la GPU. Esto permite que los datos fluyan según se necesitan, aunque el peaje a pagar en términos de velocidad sea drástico.

Running 400B model on iPhone!
0.6 t/s
Credit @danveloper @alexintosh @danpacary @anemll pic.twitter.com/LZCLqsvSUP

— Anemll (@anemll) March 23, 2026

Rendimiento real: privacidad total a cambio de una lentitud extrema

Como era de esperar, la velocidad de respuesta es el gran cuello de botella de este experimento. El terminal apenas alcanza los 0,6 tokens por segundo, lo que se traduce en una palabra cada dos segundos aproximadamente. Es una cifra desesperante para un uso cotidiano, pero fascinante desde el punto de vista analítico. Estamos viendo un smartphone procesar una IA de nivel empresarial sin necesidad de conexión a internet, garantizando una privacidad del 100% al no enviar datos a la nube, aunque esto suponga un castigo térmico y un consumo de batería masivo.

Esta demostración técnica deja claro que la barrera entre el hardware de escritorio y el móvil se está difuminando gracias al software inteligente. Si bien hoy es una curiosidad técnica lenta, con futuras optimizaciones en el ancho de banda del almacenamiento flash y una mayor eficiencia en los núcleos Neural Engine, correr modelos de gran escala en el bolsillo dejará de ser una utopía. Es el primer paso hacia una asistencia inteligente realmente potente que no dependa de servidores externos ni de suscripciones mensuales.

Vía: TechPowerUp

Noticia

SmartPhones

Tecnología

El iPhone 17 Pro logra ejecutar un LLM de 400B gracias al proyecto Flash-MoE

La magia del Mixture of Experts y el streaming desde el SSD

Rendimiento real: privacidad total a cambio de una lentitud extrema

Sobre el autor

Reviews más recientes

La magia del Mixture of Experts y el streaming desde el SSD

Rendimiento real: privacidad total a cambio de una lentitud extrema

Sobre el autor

Entradas relacionadas

AOC Agon Pro AGP346UCSD: monitor ultrawide QD-OLED de 34 pulgadas con 360 Hz y panel Tandem OLED

Dell lanza el Pro Micro Thin Client Q9M1260 con refrigeración pasiva y CPUs Twin Lake de bajo consumo

TurboQuant no frena el superciclo de la memoria: la escasez seguirá pese a la caída puntual de precios DDR

Reviews más recientes