DeepMind presenta Gemini Robotics 1.5: la IA “que piensa antes de actuar” para llevar agentes al mundo físico

Google DeepMind ha dado un salto cualitativo en su apuesta por la robótica: Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, dos modelos que trabajan de forma complementaria para que un robot perciba, planifique, piense, use herramientas y actúe en tareas físicas complejas y multietapa. La compañía sitúa este lanzamiento como un hito hacia la AGI en el mundo físico, con un enfoque claro en transparencia, seguridad y generalización entre diferentes “cuerpos” robóticos.

El planteamiento es sencillo de explicar y difícil de lograr: cuando se pide a un robot ordenar una colada por colores o clasificar residuos según normas locales, no basta con reconocer objetos. Debe entender el contexto, consultar información relevante (por ejemplo, buscar en Internet la guía municipal de reciclaje), desglosar la tarea en pasos y ejecutarlos con control de movimiento robusto. Para ello, DeepMind presenta dos cerebros que se reparten el trabajo: un planificador deliberativo y un ejecutor con reflexión interna.

Dos modelos, un agente: pensar y actuar con transparencia

  • Gemini Robotics-ER 1.5 (VLM) es el modelo de razonamiento encarnado. Funciona como “cerebro de alto nivel”: planifica en lenguaje natural, toma decisiones lógicas en entornos físicos y llama herramientas de forma nativa (como la búsqueda) para recabar datos externos o invocar funciones definidas por el usuario. Además, estima progreso y probabilidad de éxito y alcanza resultados punteros en una batería de 15 benchmarks académicos de razonamiento espacial inspirados en casos reales.
  • Gemini Robotics 1.5 (VLA) es el modelo de visión-lenguaje-acción. Traduce las instrucciones del planificador a comandos motores, guiándose por entrada visual para ejecutar cada paso. La novedad esencial: piensa antes de actuar. El modelo genera una secuencia interna de razonamiento en lenguaje natural —un “diálogo” consigo mismo— que explica su proceso y mejora la resolución de tareas semánticamente complejas. Esto aporta explicabilidad: el sistema puede mostrar cómo ha llegado a cada decisión.

En conjunto, este marco agentico (razonar-planificar-actuar con uso de herramientas) aumenta la capacidad de generalización frente a tareas más largas y entornos diversos, evitando el patrón clásico de “una instrucción, un movimiento” propio de generaciones anteriores.

Del ejemplo cotidiano a la complejidad: del cubo de la colada al punto limpio

DeepMind ilustra el enfoque con escenarios cercanos. Si se ordena “separa mi ropa por colores”, el planificador entiende que blanco va a un contenedor y colores a otro; descompone pasos (localizar prenda roja, acercarla, agarrarla, depositarla en el cubo negro) y valida el progreso. Si la tarea es “clasifica estos objetos en orgánico, reciclaje y resto según mi ubicación”, el sistema consulta la normativa local, identifica los objetos y ejecuta los movimientos necesarios para completar el proceso. En ambos casos, el VLA “piensa” microestrategias antes de mover el robot, segmentando tareas largas en tramos cortos más seguros y fiables.

Transferencia entre “cuerpos”: aprende una vez, ejecuta en muchos

Una barrera clásica de la robótica es que cada plataforma —con distinta cinemática, sensores y grados de libertad— requiere modelos específicos. DeepMind asegura que Gemini Robotics 1.5 demuestra una capacidad notable de aprendizaje cruzado entre encarnaciones: destrezas entrenadas con un sistema (por ejemplo, el bimanual ALOHA 2) pueden funcionar en otros formatos como el humanoide Apollo o un Franka de doble brazo, sin ajuste especializado. Esta transferencia acelera el aprendizaje de habilidades y abarata la puesta en producción al reutilizar políticas entre robots.

Qué está disponible y para quién

  • Gemini Robotics-ER 1.5: disponible desde hoy para desarrolladores a través de Gemini API en Google AI Studio. Permite generar planes y secuencias de acciones detalladas para proyectos robóticos, con un “presupuesto de pensamiento” configurable que equilibra latencia y calidad.
  • Gemini Robotics 1.5: el modelo de acción se encuentra acotado a socios seleccionados y programas de probadores de confianza. Es el componente que controla robots reales y, por tanto, requiere validaciones de seguridad y responsabilidad más estrictas antes de una apertura general.

Este desfase de disponibilidad tiene sentido: planificar es menos riesgoso que mover hardware en entornos no controlados. Aun así, la apertura del planificador ER ya permite a la comunidad explorar agentes físicos con mayor deliberación y explicabilidad.

“Pensar antes de actuar”: precisión, latencia y explicabilidad

El pensamiento intermedio mejora la tasa de éxito en tareas complejas, pero cuesta tiempo. Por eso, el sistema introduce un “thinking budget” regulable: más deliberación para misiones largas (por ejemplo, preparar una maleta en función de la previsión del tiempo) o menos para acciones reactivas (abrir-cerrar, coger-soltar). La trazabilidad del razonamiento —en texto legible— es clave para auditar decisiones, depurar fallos y alinear el comportamiento con normas de seguridad y políticas de diálogo.

Seguridad y responsabilidad: ASIMOV y controles en capas

DeepMind acompaña el anuncio con avances en seguridad semántica y alineamiento. El desarrollo ha estado supervisado por equipos internos de responsabilidad y un Consejo de Seguridad, y se actualiza el benchmark ASIMOV para evaluar entendimiento de seguridad y adhesión a restricciones físicas con mejor cobertura de casos raros, nuevos tipos de preguntas y modalidades de vídeo. En estas evaluaciones, Gemini Robotics-ER 1.5 muestra desempeño puntero, y su capacidad de “pensar” contribuye a entender riesgos y respetar mejor las limitaciones de seguridad.

En ejecución, Gemini Robotics 1.5 incorpora una seguridad holística por capas: razona sobre seguridad antes de actuar a nivel semántico, alinea la conversación con políticas existentes y dispara subsistemas de bajo nivel (p. ej., evitar colisiones) a bordo cuando es necesario. La filosofía: prevenir a nivel alto, mitigar a nivel bajo.

Qué cambia para la comunidad robótica

  1. Arquitectura agentica clara: planificador deliberativo + ejecutor con reflexión interna, ambos multimodales y basados en la familia Gemini.
  2. Generalización: mayor robustez en tareas largas y entornos variados; transferencia entre plataformas sin tuning específico.
  3. Herramientas nativas: el ER invoca búsquedas y funciones externas para ampliar el espacio de acción sin reentrenar.
  4. Gobernanza: pensamiento legible en lenguaje natural que facilita auditorías, validaciones y, potencialmente, certificación de uso en entornos sensibles.

Un hito… con los pies en el suelo

El discurso es ambicioso —agentes físicos generalistas—, pero el equipo y la comunidad coinciden en dos realidades:

  • Progreso tangible en razonamiento físico, planificación y explicabilidad, con mejoras en transferencia entre robots.
  • Retos abiertos en destreza fina, robustez fuera del laboratorio, seguridad operacional y aprendizaje con pocos ejemplos en entornos caóticos.

Dicho de otro modo: no habrá robots domésticos plegando y guardando la ropa mañana; pero sí mejor desempeño allí donde la planificación multietapa, la comprensión del espacio y la transparencia del proceso marcan la diferencia: logística ligera, laboratorio, salud, manufactura flexible o servicios con interacción estructurada.

Desarrollo hoy: cómo empezar de forma segura

Quien experimente con robótica puede arrancar con Gemini Robotics-ER 1.5: enviar imágenes del entorno, solicitar planes por pasos y ajustar el presupuesto de pensamiento. Las mejores prácticas pasan por interponer un intérprete que revise acciones antes de ejecutarlas, simular en un gemelo digital y medir de extremo a extremo (latencias p95/p99, jitter, tasa de éxito por subpaso). Cuando el modelo de acción esté disponible ampliamente, los mismos principios —sumados a bloqueos de seguridad— serán la base de una operación responsable.

El encaje en la carrera por los agentes físicos

Universidades y empresas compiten por el agente que une percepción, lenguaje y control. La propuesta de DeepMind se apalanca en la madurez multimodal de Gemini y la especialización por datos para mundo físico. El techo del sistema dependerá de la calidad y diversidad de datos multirrobot, de métricas de seguridad realistas y de costes de hardware capaces de escalar más allá de demos.

Un avance hacia la AGI… con trazabilidad

El equipo enmarca Gemini Robotics 1.5 como un paso fundacional hacia robots capaces de razonar y generalizar en entornos complejos. La diferencia no está solo en acertar más, sino en explicar mejor: mostrar la cadena de razones antes de mover el brazo. Para un sector que debe certificar comportamientos y rendir cuentas de riesgos, esa trazabilidad puede ser tan importante como la precisión.


Preguntas frecuentes

¿Qué es Gemini Robotics-ER 1.5 y para qué sirve en robótica?
Es el modelo de razonamiento “encarnado” que planifica en lenguaje natural, llama herramientas (como la búsqueda) y orquesta la misión por pasos. Ayuda a que un robot entienda el contexto, estime progreso y seleccione estrategias antes de ejecutar.

¿En qué se diferencia Gemini Robotics 1.5 de un VLA tradicional?
Es un VLA que “piensa antes de actuar”: genera razonamientos internos legibles que explican cómo afronta cada subpaso, segmenta tareas largas y usa visión para guiar el movimiento. Esa explicabilidad mejora la robustez y facilita auditorías.

¿Puedo usar hoy estos modelos en un proyecto?
El planificador Gemini Robotics-ER 1.5 está disponible vía API para desarrolladores; el modelo de acción Gemini Robotics 1.5 se ofrece solo a socios y probadores de confianza. La vía práctica es prototipar con el ER y validar en simulación antes de mover un robot real.

¿Qué avances hay en seguridad y cómo se evalúan?
DeepMind ha actualizado el benchmark ASIMOV para seguridad semántica y física, y reporta rendimiento puntero del ER. Además, el VLA integra razonamiento de seguridad de alto nivel y subsistemas de protección a bordo (p. ej., evitar colisiones).

¿Puede el sistema aprender en un robot y ejecutar en otro?
Sí: demuestra transferencia entre encarnaciones (por ejemplo, de ALOHA 2 a Apollo o a un Franka bimanual) sin tuning dedicado, acelerando el aprendizaje y reduciendo costes de despliegue.


vía: Noticias inteligencia artificial

encuentra artículos

newsletter

Recibe toda la actualidad del sector tech y cloud en tu email de la mano de RevistaCloud.com.

Suscripción boletín

LO ÚLTIMO

×