FuriosaAI ha anunciado una alianza estratégica con Broadcom para desarrollar su tercera generación de aceleradores de inteligencia artificial, una plataforma diseñada específicamente para inferencia a gran escala y cargas agénticas. La compañía surcoreana no quiere seguir el camino clásico de las GPU generalistas, sino apostar por una arquitectura chiplet con die de cómputo a 2 nanómetros, memoria HBM4/HBM4E y tecnologías de red de Broadcom para escalar en grandes centros de datos.
El anuncio llega en un momento en el que la industria empieza a mirar más allá del entrenamiento de modelos. La fase que viene estará marcada por la inferencia masiva: millones de usuarios, agentes de IA ejecutando tareas, modelos multimodales, generación continua de tokens y necesidad de reducir costes energéticos. En ese escenario, no siempre gana el chip con más potencia bruta, sino el que mueve mejor los datos, consume menos y permite entregar más tokens por vatio.
FuriosaAI afirma que su nueva plataforma estará pensada para ese tipo de centros de datos, a los que la compañía se refiere como la era de las “token factories”. El muestreo del nuevo acelerador está previsto para la primera mitad de 2028, por lo que todavía queda tiempo hasta verlo en producción real.
Una arquitectura chiplet con HBM4 para mover más datos
La tercera generación de FuriosaAI utilizará un diseño multi-die basado en chiplets, con un componente de cómputo fabricado a 2 nanómetros y memoria HBM4/HBM4E. Según la compañía, el uso de empaquetado avanzado de Broadcom permitirá integrar varios bloques de silicio en un sistema de alto rendimiento orientado a cargas de inferencia.
La memoria es una de las claves del diseño. En los modelos actuales, especialmente en inferencia de grandes modelos de lenguaje, el cuello de botella no está solo en calcular, sino en alimentar al chip con datos a suficiente velocidad. La HBM4 y su evolución HBM4E prometen más ancho de banda, algo esencial para manejar modelos grandes, reducir latencia y aumentar el número de tokens generados por unidad de energía.
FuriosaAI defiende que su arquitectura se centra en el movimiento eficiente de datos, más que en la gestión de hilos propia de las GPU tradicionales. La compañía asegura que este enfoque permitirá ofrecer mayor rendimiento por vatio y mayor densidad de tokens que las GPU más eficientes del mercado. Es una afirmación ambiciosa y habrá que comprobarla cuando existan chips reales, benchmarks independientes y despliegues en producción.
El diseño también incorporará tecnologías Ethernet y PCIe de Broadcom, con el objetivo de conectar aceleradores en clústeres de gran tamaño. Este punto es importante porque los centros de datos de IA ya no se diseñan chip a chip, sino rack a rack y clúster a clúster. La red, la latencia entre nodos y la comunicación interna pesan tanto como el rendimiento del propio acelerador.
De RNGD a una plataforma para hiperescalares
La nueva plataforma se apoya en la experiencia de RNGD, la segunda generación de chips de FuriosaAI, actualmente en producción masiva con proceso de 5 nanómetros de TSMC. RNGD es un acelerador PCIe de 180 vatios orientado a inferencia de modelos de lenguaje, cargas multimodales y aplicaciones de IA agéntica.
El producto actual de FuriosaAI integra 48 GB de memoria HBM3, ofrece 1,5 TB/s de ancho de banda de memoria y está pensado para centros de datos refrigerados por aire. La compañía lo presenta como una opción eficiente para desplegar modelos avanzados sin necesidad de infraestructuras tan exigentes como las que requieren algunas GPU de gama alta.
Entre los clientes y validaciones mencionados por FuriosaAI figuran Samsung SDS y LG AI Research. Este respaldo resulta relevante porque el mercado de aceleradores de IA está lleno de promesas, pero pocos actores logran pasar de la presentación técnica a clientes reales y producción a escala.
La alianza con Broadcom cambia la dimensión del proyecto. Broadcom no solo aporta experiencia en ASICs y empaquetado avanzado, sino también una posición muy fuerte en redes para centros de datos, switches Ethernet de alto ancho de banda y plataformas XPU personalizadas para grandes clientes. Para FuriosaAI, esta colaboración puede ser la vía para pasar de vender chips de inferencia eficientes a competir como plataforma de infraestructura para grandes despliegues.
La inferencia abre espacio frente al dominio de NVIDIA
El mercado de chips de IA sigue dominado por NVIDIA, especialmente en entrenamiento y en despliegues de GPU a gran escala. Pero la inferencia está abriendo oportunidades para arquitecturas más especializadas. A medida que los modelos se usan de forma continua en producción, el coste por token, la eficiencia energética y la latencia se vuelven decisivos.
Ahí entran compañías como FuriosaAI, Cerebras, Groq, Tenstorrent o varios diseños internos de hiperescalares. No todas competirán en el mismo espacio, pero todas responden a una misma necesidad: reducir dependencia de GPU generalistas allí donde una arquitectura específica puede hacerlo mejor para una carga concreta.
La apuesta de FuriosaAI tiene sentido desde esa perspectiva. Si un centro de datos necesita generar tokens de forma constante, atender agentes de IA, procesar peticiones simultáneas y mantener costes controlados, una solución optimizada para inferencia puede resultar atractiva. Pero el reto será enorme: software, compatibilidad con modelos, herramientas para desarrolladores, fiabilidad, suministro de memoria HBM, empaquetado, fabricación en 2 nm y capacidad de competir con ecosistemas muy maduros.
La compañía intenta resolver parte de ese problema con su pila de software. FuriosaAI asegura que su SDK permite desplegar modelos desde PyTorch mediante un compilador general, sin depender de grandes bibliotecas de kernels ajustados a mano para cada modelo. También ofrece una ISA virtual para desarrolladores que necesitan mayor control del hardware sin asumir la complejidad de la programación tradicional en GPU.
El calendario sitúa el primer muestreo en 2028, una fecha que encaja con la próxima ola de centros de datos de IA. Para entonces, la presión sobre energía, memoria, redes y coste por token será todavía mayor. Si FuriosaAI y Broadcom logran cumplir lo prometido, su propuesta puede convertirse en una alternativa seria para inferencia a gran escala. Si no, quedará como una más de las muchas arquitecturas que intentaron desafiar el manual de las GPU en el momento más competitivo de la historia del silicio.
Preguntas frecuentes
¿Qué han anunciado FuriosaAI y Broadcom?
Han anunciado una alianza para desarrollar la tercera generación de aceleradores de IA de FuriosaAI, basada en chiplets, cómputo a 2 nm, memoria HBM4/HBM4E y tecnologías de red de Broadcom.
¿Para qué tipo de cargas está pensado este chip?
Está orientado a inferencia de IA a gran escala, modelos de lenguaje, cargas agénticas, post-training sampling y generación masiva de tokens en centros de datos.
¿Cuándo estará disponible el nuevo acelerador?
FuriosaAI prevé iniciar el muestreo del chip durante la primera mitad de 2028, aunque la disponibilidad comercial dependerá de la evolución del desarrollo y de los clientes iniciales.