Etched ha salido oficialmente del modo sigiloso con sus Frontier Inference Clusters, una plataforma diseñada para ejecutar modelos frontier de IA con más eficiencia. La compañía combina chips, racks, software, fabricación avanzada y memoria a escala de clúster, atacando tanto prefill como decode.
La startup asegura contar con más de 400 ingenieros procedentes de NVIDIA, Google, Broadcom, TSMC, SK Hynix y otras firmas clave. El anuncio llega con silicio A0 validándose en TSMC N4P, 800 millones de dólares captados y más de 1.000 millones de dólares en demanda de clientes de IA.
Etched quiere atacar la inferencia desde el rack completo
La propuesta de Etched no se limita a lanzar un acelerador aislado. La compañía está codiseñando chips, paquetes, PCBs, cold plates, interconexiones, racks y software, porque la inferencia frontier ya no depende solo del rendimiento de un único procesador.
Ese enfoque tiene sentido en modelos MoE de billones de parámetros, contextos largos y cargas agénticas. El cuello de botella se reparte entre cómputo, memoria, latencia, red, energía y refrigeración, así que optimizar solo FLOPs ya no basta para mejorar coste por token.
El primer hito real es el tapeout de su silicio A0 en TSMC N4P, completado a principios de año. No es producción masiva, pero tener primer silicio funcionando cambia la lectura frente a muchas startups de IA que solo muestran promesas, simulaciones o diapositivas.
LVI promete más rendimiento sostenido con menos voltaje
La primera pieza técnica es Low-Voltage Inference (LVI), una arquitectura pensada para cargas de alto throughput. Etched asegura que sus bloques matemáticos pueden funcionar a menos de la mitad del voltaje de la mayoría de chips de IA, reduciendo consumo y calor.
La idea ataca un problema muy real en aceleradores actuales. Muchos chips alcanzan picos de FLOPs muy altos, pero al aumentar consumo reducen frecuencia por límites térmicos, dejando el rendimiento sostenido bastante por debajo de la cifra máxima anunciada.
Según Etched, su procesador VLI puede ejecutar MoE dispersos de billones de parámetros al 80% de los FLOPs pico sin thermal throttling. Ese dato es clave porque en inferencia comercial no importa solo el pico, sino cuántos tokens por segundo mantiene el rack durante horas.
Si esa cifra se confirma en despliegues reales, el impacto puede ser importante. Mantener más rendimiento útil por vatio reduce coste operativo, densidad de centro de datos y presión de refrigeración, tres variables críticas cuando los clientes compran capacidad de inferencia a gran escala.
CSM mezcla HBM y SRAM para bajar latencia
La segunda pieza es Cluster-Scale Memory (CSM), diseñada para cargas de baja latencia. Etched parte de un problema conocido: la SRAM ofrece latencia muy baja, pero no escala bien en capacidad ni en throughput de FLOPs, mientras HBM aporta más ancho de banda y memoria.
La solución propuesta combina HBM y SRAM en un pool de memoria compartido a escala de clúster, manteniendo interconexión de alto ancho de banda. El objetivo es reducir latencia sin renunciar a capacidad, algo especialmente importante en decode, contextos largos y agentes que reutilizan mucha información.
Este punto es relevante porque la inferencia moderna se está volviendo muy dependiente de memoria. KV cache, contexto largo, subagentes y recuperación de información pueden convertir la memoria en el límite real, incluso cuando el chip tiene potencia de cálculo suficiente sobre el papel.
La batalla ya no es solo entrenamiento, es inferencia rentable
Etched apunta directamente a prefill y decode, las dos fases críticas en la ejecución de modelos grandes. Prefill procesa el contexto de entrada, mientras decode genera tokens nuevos, y cada fase exige un equilibrio distinto entre cómputo, memoria, latencia y ancho de banda.
Este enfoque encaja con el giro del mercado. La IA generativa ya no solo necesita entrenar modelos gigantes, sino servir millones de peticiones con coste, latencia y consumo controlados, especialmente cuando aparecen flujos agénticos, herramientas externas y conversaciones de contexto largo.
Ahí es donde una arquitectura especializada puede tener sentido frente a GPUs generalistas. Si Etched consigue mejorar coste por token en modelos frontier concretos, puede vender eficiencia donde NVIDIA vende flexibilidad, aunque esa especialización también limita el tipo de cargas que puede cubrir.
Un centro de datos de 2 MW dentro de sus oficinas
Etched afirma estar escalando producción a gran velocidad y ya ha construido un centro de datos de 2 MW en sus propias oficinas. Ese detalle no es solo llamativo: permite validar racks completos, refrigeración, consumo, software y comportamiento sostenido en condiciones cercanas a producción.
La compañía también ha abierto una fábrica en Taiwán para ingeniería 24/7, una decisión lógica si trabaja con cadena de suministro avanzada. Tener presencia cerca de socios de fabricación, empaquetado y validación puede acelerar iteraciones, especialmente cuando el producto depende de chips, placas y refrigeración a medida.
El respaldo financiero también es fuerte. Los 800 millones de dólares captados en cuatro rondas no anunciadas, incluyendo inversión estratégica de VentureTech Alliance, dan margen para ejecutar una hoja de ruta cara. En hardware de IA, cada tapeout, rack y validación consume enormes recursos.
La demanda supera los 1.000 millones de dólares
Etched habla de más de 1.000 millones de dólares en demanda de clientes de IA, una cifra enorme para una startup que acaba de salir del modo sigiloso. El dato sugiere interés real, pero demanda no equivale automáticamente a ingresos reconocidos ni a despliegue masivo garantizado.
El reto ahora será convertir pruebas tempranas en hardware desplegado. Validar rendimiento, fiabilidad, yields, software, suministro y soporte a escala de cliente es mucho más difícil que demostrar silicio A0, especialmente en infraestructuras que compiten contra plataformas NVIDIA muy maduras.
También queda la pregunta del ecosistema. Los clientes de IA no compran solo chips, compran compiladores, librerías, integración con frameworks, monitorización, herramientas y rutas de despliegue, así que Etched tendrá que demostrar que su pila completa está a la altura del hardware.
Una apuesta agresiva contra el dominio de NVIDIA
La lectura final es que Etched quiere competir donde más duele: inferencia frontier a gran escala. LVI, CSM, TSMC N4P, racks completos y memoria híbrida forman una propuesta diseñada para tokens por segundo, latencia y eficiencia, no para ser otra GPU genérica.
Eso puede darle una oportunidad si el mercado premia aceleradores especializados. NVIDIA domina por ecosistema, disponibilidad y versatilidad, pero la explosión de inferencia abre huecos para arquitecturas que reduzcan coste operativo en cargas concretas y muy repetidas.
Por ahora, Etched ha enseñado una historia potente, pero todavía falta la prueba definitiva. El silicio A0, los 800 millones de dólares captados y la demanda superior a 1.000 millones de dólares son señales fuertes, aunque el éxito dependerá de rendimiento real, producción, software y capacidad de entregar racks a tiempo.
Vía: Wccftech














