Gemini 3.5 Flash demuestra que la batalla ya no va solo de modelos

Silvia A. Feliz

Google DeepMind ha presentado Gemini 3.5 Flash con una lectura muy clara para el mercado tecnológico: la siguiente fase de la inteligencia artificial se va a decidir en los agentes. Ya no basta con responder bien en un chat, resumir documentos o generar código en una ventana aislada. Los nuevos modelos tienen que actuar, conectar herramientas, consultar datos, ejecutar flujos de trabajo y completar tareas largas con el menor coste posible.

Ese cambio explica por qué el dato más llamativo de la tabla de benchmarks no está necesariamente en las pruebas de razonamiento general, sino en MCP Atlas. Gemini 3.5 Flash alcanza un 83,6 % en este benchmark orientado a flujos multi-step con Model Context Protocol, por encima de Gemini 3.1 Pro, Claude Opus 4.7 y GPT-5.5 en la comparativa difundida por Google. Que un modelo Flash, pensado para velocidad y escala, consiga ese resultado en una prueba de agentes es una señal relevante para desarrolladores, plataformas y empresas.

Flash ya no significa “modelo ligero”

Durante bastante tiempo, las versiones Flash de los modelos se han entendido como opciones más rápidas, baratas y suficientes para tareas cotidianas, pero no siempre como candidatas a competir con modelos insignia en flujos complejos. Gemini 3.5 Flash intenta romper esa lectura. Google lo presenta como su modelo más sólido hasta ahora para agentes y programación, con capacidad para ejecutar tareas largas y complejas con resultados útiles en entornos reales.

Según Google DeepMind, Gemini 3.5 Flash supera a Gemini 3.1 Pro en pruebas como Terminal-Bench 2.1, GDPval-AA y MCP Atlas. También obtiene un 84,2 % en CharXiv Reasoning, una prueba de comprensión y razonamiento multimodal, y la compañía afirma que alcanza una velocidad de respuesta hasta cuatro veces superior a la de otros modelos de frontera en tokens por segundo.

La combinación es importante porque los agentes no funcionan como un chatbot tradicional. Un agente puede dividir una tarea, abrir herramientas, consultar documentación, leer archivos, ejecutar código, revisar errores, volver a planificar y entregar un resultado final. Cada paso añade latencia y coste. Por eso un modelo que sea “suficientemente inteligente”, pero mucho más rápido y barato, puede resultar más útil en producción que un modelo algo mejor en razonamiento extremo pero menos eficiente.

Benchmark	Gemini 3.5 Flash	Gemini 3.1 Pro	Claude Opus 4.7	GPT-5.5
MCP Atlas	83,6 %	78,2 %	79,1 %	75,3 %
Terminal-Bench 2.1	76,2 %	70,3 %	66,1 %	78,2 %
SWE-Bench Pro	55,1 %	54,2 %	64,3 %	58,6 %
OSWorld-Verified	78,4 %	76,2 %	78,0 %	78,7 %
CharXiv Reasoning	84,2 %	83,3 %	82,1 %	84,1 %
ARC-AGI-2	72,1 %	77,1 %	75,8 %	84,6 %

La tabla también deja claro que no hay un ganador absoluto. GPT-5.5 sigue por delante en varias pruebas de razonamiento y contexto largo. Claude Opus 4.7 mantiene ventaja en SWE-Bench Pro y Humanity’s Last Exam. Gemini 3.5 Flash destaca sobre todo en la zona donde Google quiere competir ahora: agentes, uso de herramientas, programación práctica y despliegue a escala.

MCP se convierte en territorio de competencia

MCP Atlas importa porque apunta a una de las piezas centrales de la IA agéntica: la conexión con sistemas externos. MCP, Model Context Protocol, se ha convertido en una vía para que los modelos puedan interactuar con herramientas, bases de datos, repositorios, entornos de desarrollo y aplicaciones empresariales de forma más ordenada.

La lectura simbólica es potente. Anthropic impulsó MCP como una pieza clave para conectar Claude con herramientas y datos, pero Google muestra ahora que Gemini 3.5 Flash puede rendir mejor en una prueba diseñada alrededor de ese protocolo. Esto no invalida la ventaja de Anthropic en experiencia de desarrollador ni su papel en la popularización de MCP. Sí confirma que los protocolos abiertos pueden convertirse rápidamente en campo de batalla entre grandes modelos.

Para los equipos técnicos, este punto es más relevante que una décima arriba o abajo en una prueba académica. Un modelo que maneja mejor flujos MCP puede integrarse con más solvencia en herramientas internas, automatización de tareas, agentes de desarrollo, análisis de documentación, workflows financieros o procesos empresariales que requieren varios pasos.

La carrera ya no será solo “qué modelo razona mejor”, sino “qué modelo completa mejor una tarea conectada”. Esa diferencia cambia la forma de evaluar la IA. Un benchmark de agentes se parece más a una jornada real de trabajo: hay herramientas, errores, contexto parcial, dependencias y decisiones intermedias. Ahí la consistencia vale tanto como la inteligencia bruta.

Google quiere distribución masiva para sus agentes

Gemini 3.5 Flash llega además con una ventaja de distribución difícil de igualar. Google ha anunciado su disponibilidad en la aplicación Gemini, en el Modo IA del Buscador, en Google Antigravity, en la API de Gemini desde Google AI Studio y Android Studio, y en Gemini Enterprise Agent Platform y Gemini Enterprise.

Esto significa que el modelo no nace solo como una API para desarrolladores avanzados. Entra a la vez en producto de consumo, entorno de desarrollo, plataforma empresarial y búsqueda. Esa mezcla puede acelerar mucho la adopción si el modelo responde bien en el uso diario.

Google Antigravity ocupa un lugar especial en esta estrategia. La compañía lo presenta como una plataforma de desarrollo de agentes donde subagentes colaborativos pueden resolver problemas complejos. En los ejemplos difundidos por Google, Gemini 3.5 Flash puede coordinar varios agentes para sintetizar documentos técnicos, crear interfaces o trabajar sobre tareas de programación durante horas con supervisión humana.

El enfoque encaja con una tendencia que ya se está viendo en todo el sector: los agentes no serán una función aislada, sino una capa transversal. Estarán en IDEs, navegadores, buscadores, suites ofimáticas, plataformas de atención al cliente, análisis financiero, operaciones de seguridad y herramientas de negocio. Para que eso funcione, hacen falta modelos rápidos, baratos, conectables y con buen comportamiento en tareas largas.

El coste por tarea será la nueva métrica

El debate sobre IA se ha centrado mucho en el coste por token, pero los agentes obligan a ir un paso más allá: coste por tarea completada. Un modelo barato que falla mucho puede salir caro. Un modelo caro que resuelve en pocos pasos puede ser competitivo. Un modelo rápido que permite iterar más y usar herramientas de forma estable puede convertirse en la mejor opción para producción.

Gemini 3.5 Flash intenta ocupar justo ese espacio. Google afirma que puede completar tareas que antes requerían horas de un desarrollador o días de un auditor en una fracción del tiempo y, muchas veces, con menos de la mitad del coste de otros modelos de vanguardia. Es una afirmación que habrá que contrastar con casos reales, pero señala hacia dónde va la competencia: no solo calidad del output, sino productividad final.

Para empresas, esto puede marcar la diferencia. Los pilotos con IA generativa se hacen rápido. Lo difícil es convertirlos en procesos estables, gobernados y rentables. Si un agente tiene que trabajar sobre bases de código, documentos financieros, catálogos, sistemas internos o análisis de datos, el modelo debe ser rápido, barato, fiable y fácil de integrar.

Gemini 3.5 Flash no elimina la necesidad de supervisión humana. Google insiste en esa idea cuando habla de flujos con agentes y subagentes. La supervisión seguirá siendo necesaria para definir permisos, revisar resultados, limitar acciones y evitar que un sistema automatizado tome decisiones fuera de contexto. La diferencia es que, con modelos más capaces y rápidos, esa supervisión puede pasar de dirigir cada paso a validar objetivos y resultados.

La presentación de Gemini 3.5 Flash muestra que Google quiere pelear la nueva capa de la IA desde tres frentes: modelo, plataforma y distribución. La fila de MCP Atlas es solo una cifra, pero resume bien el cambio. La IA ya no se mide únicamente por lo bien que contesta. Empieza a medirse por lo bien que trabaja.

Preguntas frecuentes

¿Qué es Gemini 3.5 Flash?
Es el nuevo modelo de Google DeepMind orientado a velocidad, programación, agentes, multimodalidad y ejecución de flujos de trabajo complejos.

¿Por qué MCP Atlas es tan importante?
Porque evalúa flujos multi-step con Model Context Protocol, una pieza clave para conectar modelos de IA con herramientas, datos y sistemas externos.

¿Gemini 3.5 Flash supera a Claude en MCP Atlas?
Según la tabla difundida por Google, Gemini 3.5 Flash obtiene un 83,6 % en MCP Atlas, frente al 79,1 % de Claude Opus 4.7.

¿Es Gemini 3.5 Flash mejor que GPT-5.5 o Claude Opus 4.7?
Depende de la tarea. Gemini 3.5 Flash destaca en agentes, velocidad y MCP Atlas, pero GPT-5.5 y Claude Opus 4.7 siguen liderando otras pruebas. La comparación útil será cada vez más por caso de uso.