La computación en dispositivos móviles acaba de alcanzar un hito que parecía físicamente imposible. Un vídeo reciente ha demostrado que el iPhone 17 Pro es capaz de ejecutar un modelo de lenguaje extenso (LLM) de 400.000 millones de parámetros, una tarea que normalmente requeriría hardware de servidor con al menos 200 GB de memoria RAM. Aunque la ejecución dista mucho de ser fluida, el simple hecho de que el chip A19 Pro (o su equivalente en esta generación) pueda procesar tal cantidad de datos abre un nuevo paradigma en la IA on-device.
Este logro se ha conseguido mediante el proyecto de código abierto Flash-MoE, que utiliza técnicas de optimización extremas para saltarse las limitaciones físicas del terminal. El iPhone 17 Pro cuenta únicamente con 12 GB de RAM LPDDR5X, una cifra ridícula para las exigencias de un modelo 400B incluso en sus versiones más comprimidas o cuantizadas. Sin embargo, la clave reside en cómo se gestionan los recursos del sistema para que el SoC de Apple no colapse durante la generación de texto.
La magia del Mixture of Experts y el streaming desde el SSD
Para obrar este milagro, los desarrolladores han recurrido a la arquitectura MoE (Mixture of Experts). En lugar de activar los 400B de parámetros simultáneamente, este sistema solo utiliza una pequeña fracción de los «expertos» del modelo para generar cada palabra. Además, al no poder cargar el LLM completo en la memoria volátil, Flash-MoE realiza un streaming directo desde el almacenamiento SSD del dispositivo hacia la GPU. Esto permite que los datos fluyan según se necesitan, aunque el peaje a pagar en términos de velocidad sea drástico.
Running 400B model on iPhone!
0.6 t/s
Credit @danveloper @alexintosh @danpacary @anemll pic.twitter.com/LZCLqsvSUP— Anemll (@anemll) March 23, 2026
Rendimiento real: privacidad total a cambio de una lentitud extrema
Como era de esperar, la velocidad de respuesta es el gran cuello de botella de este experimento. El terminal apenas alcanza los 0,6 tokens por segundo, lo que se traduce en una palabra cada dos segundos aproximadamente. Es una cifra desesperante para un uso cotidiano, pero fascinante desde el punto de vista analítico. Estamos viendo un smartphone procesar una IA de nivel empresarial sin necesidad de conexión a internet, garantizando una privacidad del 100% al no enviar datos a la nube, aunque esto suponga un castigo térmico y un consumo de batería masivo.
Esta demostración técnica deja claro que la barrera entre el hardware de escritorio y el móvil se está difuminando gracias al software inteligente. Si bien hoy es una curiosidad técnica lenta, con futuras optimizaciones en el ancho de banda del almacenamiento flash y una mayor eficiencia en los núcleos Neural Engine, correr modelos de gran escala en el bolsillo dejará de ser una utopía. Es el primer paso hacia una asistencia inteligente realmente potente que no dependa de servidores externos ni de suscripciones mensuales.
Vía: TechPowerUp










