Sakana AI ha presentado Fugu, una familia de modelos orquestadores que ha reabierto uno de los debates más interesantes de la Inteligencia Artificial actual: si el salto de rendimiento vendrá de seguir entrenando modelos monolíticos cada vez más grandes o de coordinar varios modelos especializados mediante sistemas multiagente más inteligentes.
La idea no es nueva para los equipos técnicos que ya trabajan con LangGraph, CrewAI, AutoGen, MCP, agentes de código, validadores, herramientas externas y flujos RAG. Lo relevante es que Sakana AI ha llevado esa intuición a un informe técnico con resultados medibles. Fugu-Ultra, su variante orientada a máxima calidad, alcanza un 73,7 % en SWE-Bench Pro, por encima del 69,2 % atribuido a Claude Opus 4.8 en la misma tabla del informe. También logra un 82,1 % en Terminal Bench 2.1, frente al 78,2 % de GPT-5.5 y el 74,6 % de Opus 4.8.
El mensaje de fondo es potente: Fugu no pretende ser «otro LLM» que compite solo por tamaño. Es un modelo entrenado para decidir qué agente debe intervenir, cómo debe dividirse la tarea, qué salidas deben verificarse y cuándo conviene sintetizar una respuesta final. La Inteligencia Artificial empieza a parecerse menos a un único cerebro enorme y más a un sistema distribuido de especialistas.
Un orquestador sobre modelos de frontera
El informe de Sakana AI define Fugu como una familia de orquestadores que aprovechan y amplifican las capacidades de un equipo de agentes LLM. El usuario interactúa con Fugu como si fuera un único modelo, pero por debajo el sistema puede enrutar, delegar y coordinar tareas entre varios modelos trabajadores. En la versión inicial, el pool incluye modelos como Claude Opus 4.8, GPT-5.5 y Gemini 3.1 Pro.
Hay dos variantes principales. Fugu está pensada para uso interactivo y baja latencia: selecciona un único modelo trabajador por entrada, de forma que su tiempo de respuesta puede acercarse al de una llamada directa a un modelo de frontera. Fugu-Ultra, en cambio, prioriza la calidad y puede componer flujos con varios agentes por tarea, a costa de más latencia y complejidad.
| Sistema | Enfoque | Ventaja principal | Coste operativo |
|---|---|---|---|
| Fugu | Enrutamiento a un solo modelo trabajador | Baja latencia y selección dinámica del mejor agente | Similar a una llamada directa, con sobrecarga de orquestación |
| Fugu-Ultra | Flujos multiagente con varios pasos | Mayor calidad en tareas complejas | Más llamadas, más latencia y mayor coste |
| Modelo monolítico | Un único modelo responde a toda la tarea | Simplicidad de uso y despliegue | Puede ser caro o menos óptimo en tareas especializadas |
| Multiagente manual | Flujos diseñados por el desarrollador | Control fino del proceso | Más ingeniería, más mantenimiento y más puntos de fallo |
La diferencia técnica es importante. Fugu no se limita a hacer «votación» entre modelos ni a mandar la misma pregunta a varios sistemas. En su variante de baja latencia, usa un módulo de selección ligero sobre estados internos del orquestador para escoger el trabajador más adecuado. En Fugu-Ultra, el sistema genera flujos de trabajo en lenguaje natural: divide la tarea, asigna subtareas, define qué agentes pueden ver qué respuestas previas y decide cómo sintetizar el resultado.
Los benchmarks cuentan una parte de la historia
Los resultados publicados son llamativos, aunque deben leerse con cautela. Sakana AI compara Fugu y Fugu-Ultra con modelos de frontera usando benchmarks como SWE-Bench Pro, Terminal Bench 2.1, LiveCodeBench Pro, GPQA Diamond, CharXiv Reasoning y Humanity’s Last Exam. En varias pruebas, Fugu-Ultra supera a los modelos individuales que usa como trabajadores.
En SWE-Bench Pro, Fugu-Ultra alcanza el 73,7 %, frente al 69,2 % de Claude Opus 4.8, el 58,6 % de GPT-5.5 y el 54,2 % de Gemini 3.1. En Terminal Bench 2.1, Fugu-Ultra llega al 82,1 %, mientras Fugu obtiene un 80,2 %. En GPQA Diamond, ambas variantes aparecen con un 95,5 %, por encima de Opus 4.8, GPT-5.5 y Gemini 3.1 en la tabla del informe.
| Benchmark | Fugu-Ultra | Fugu | Claude Opus 4.8 | Gemini 3.1 | GPT-5.5 |
|---|---|---|---|---|---|
| SWE-Bench Pro | 73,7 | 59,0 | 69,2 | 54,2 | 58,6 |
| Terminal Bench 2.1 | 82,1 | 80,2 | 74,6 | 70,3 | 78,2 |
| LiveCodeBench Pro | 90,8 | 87,8 | 84,8 | 82,9 | 88,4 |
| GPQA Diamond | 95,5 | 95,5 | 92,0 | 94,3 | 93,6 |
| CharXiv Reasoning | 86,6 | 85,1 | 84,2 | 83,3 | 84,1 |
| Humanity’s Last Exam | 50,0 | 47,2 | 49,8 | 44,4 | 41,4 |
La clave no es que un «modelo pequeño japonés» haya derrotado sin más a Claude o GPT. Fugu-Ultra consigue esos resultados precisamente porque usa modelos potentes como piezas de un sistema mayor. El avance está en la coordinación: escoger el especialista adecuado, alternar modelos durante una tarea y usar validación cruzada cuando hace falta.
El informe da ejemplos interesantes. En tareas de programación, Fugu puede usar GPT-5.5 como constructor y recurrir a Claude Opus 4.8 en momentos críticos de depuración. En problemas científicos, puede apoyarse más en Gemini para conocimiento especializado y en GPT para cálculo matemático. Esa adaptación por dominio es lo que Sakana AI presenta como una nueva vía de escalado.
La sospecha sobre los modelos cerrados
El éxito de Fugu alimenta una pregunta incómoda: ¿cuánto del rendimiento de los grandes modelos cerrados procede realmente del modelo base y cuánto de la capa de sistema que lo envuelve?
No hay pruebas públicas de que Claude Mythos, Fable 5, GPT-5.5 o cualquier otro modelo cerrado funcionen exactamente como Fugu por debajo. Afirmarlo como hecho sería ir más allá de la evidencia disponible. Pero sí es razonable pensar que los sistemas de frontera modernos ya no son simples llamadas a un modelo desnudo. En productos como Claude Code, Codex o agentes avanzados, el rendimiento depende de herramientas, memoria, ejecución de comandos, recuperación de contexto, validadores, prompts internos y bucles de feedback.
Fugu hace visible una arquitectura que muchas empresas ya intuían: la capacidad práctica de un LLM no es solo una propiedad de sus pesos. Es una propiedad del sistema completo en el que opera. El propio informe lo plantea así al hablar de los «agentic scaffolds», andamiajes que convierten un modelo autoregresivo en un agente capaz de planificar, usar herramientas, revisar su trabajo y aprovechar señales del entorno.
Para proveedores cerrados, mantener una interfaz simple tiene sentido comercial. El cliente no siempre quiere saber si detrás hay un modelo, varios modelos, enrutamiento, memoria o verificadores. Quiere una respuesta. Pero para desarrolladores, empresas y administraciones, esa opacidad importa cada vez más porque afecta a coste, seguridad, dependencia de proveedor y capacidad de reproducir resultados.
Lo que cambia para el mercado de IA
Fugu apunta a una dirección muy relevante para el mercado tecnológico: el rendimiento ya no depende solo de escalar el entrenamiento. También puede venir de componer mejor capacidades existentes. Esto tiene consecuencias técnicas, económicas y geopolíticas.
La primera consecuencia es modularidad. Un sistema puede incorporar nuevos modelos trabajadores conforme aparecen, excluir proveedores por privacidad o cumplimiento, favorecer modelos locales para datos sensibles y usar modelos premium solo cuando la tarea lo justifica. Sakana AI subraya precisamente que la orquestación permite configurar pools de agentes según restricciones de usuario, proveedor, privacidad o compliance.
La segunda es eficiencia. Si una tarea sencilla puede resolverla un modelo más barato, no tiene sentido llamar siempre al modelo más caro. Si una subtarea requiere depuración avanzada, puede intervenir el especialista adecuado solo en ese momento. En una economía donde el coste por token y la latencia importan, esa selección dinámica puede ser una ventaja fuerte.
La tercera es accesibilidad. Entrenar un modelo de frontera exige recursos enormes. Diseñar una buena capa de orquestación también es difícil, pero puede ser más accesible para empresas que ya trabajan con varios modelos, herramientas internas y datos propios. No todas podrán crear un Fugu-Ultra, pero muchas pueden construir arquitecturas inspiradas en esa lógica.
La cuarta es complejidad. Los sistemas multiagente no son magia. Añaden latencia, consumo de tokens, problemas de trazabilidad, gestión de errores, contradicciones entre agentes y dependencia de varios proveedores. Un mal orquestador puede empeorar el resultado, no mejorarlo. La aportación de Fugu está en entrenar esa coordinación, no en encadenar agentes al azar.
La batalla entre modelo monolítico y enjambre de agentes no tendrá un único ganador. Habrá tareas donde el mejor modelo individual siga siendo suficiente. Habrá otras donde la coordinación de especialistas marque la diferencia. En software, ciencia, investigación, ciberseguridad, CAD, análisis largo y flujos con herramientas, la segunda vía parece cada vez más atractiva.
Sakana AI no ha demostrado que los grandes modelos cerrados estén obsoletos. Ha demostrado algo más interesante: que el «modelo» ya no tiene por qué ser la unidad mínima de competición. La nueva unidad puede ser el sistema. Y en ese sistema, el enrutamiento, la memoria, los roles, las herramientas y la verificación pesan tanto como el tamaño del LLM.
Preguntas frecuentes
¿Qué es Fugu de Sakana AI?
Fugu es una familia de modelos orquestadores que coordinan varios modelos de lenguaje de frontera para resolver tareas. El usuario lo usa como si fuera un único modelo, pero internamente puede seleccionar, combinar y verificar respuestas de distintos agentes.
¿Fugu supera realmente a Claude Opus 4.8?
En algunos benchmarks del informe técnico, Fugu-Ultra supera a Claude Opus 4.8, especialmente en SWE-Bench Pro y Terminal Bench 2.1. Pero lo hace como sistema de orquestación multiagente, no como un único modelo aislado.
¿Fugu usa Mythos o Fable 5 por debajo?
No. El informe indica que Fable 5 y Mythos Preview no forman parte del pool de agentes de Fugu porque no son accesibles públicamente.
¿Qué significa esto para empresas que usan IA en producción?
Significa que pueden obtener mejores resultados combinando modelos especializados, herramientas, validadores y enrutadores, en lugar de depender siempre de un único modelo premium. La clave está en diseñar bien la arquitectura y medir rendimiento, coste y latencia.
Fuentes:
Sakana AI, Sakana Fugu Technical Report, arXiv:2606.21228v1.