Menú

Investigación

Google lanza SIMA 2: El agente de IA que usa Gemini para aprender a actuar en mundos virtuales

Google DeepMind ha presentado SIMA 2, un agente de inteligencia artificial que utiliza el modelo Gemini para razonar y ejecutar acciones complejas dentro de diversos entornos virtuales, marcando un avance significativo hacia la IA que puede seguir instrucciones abiertas.

Google DeepMind
SIMA 2
Gemini
Agentes de IA
Compartir en X
Google lanza SIMA 2: El agente de IA que usa Gemini para aprender a actuar en mundos virtuales

La Inteligencia Artificial ha sido excelente para generar texto e imágenes, pero hasta ahora, ha tenido dificultades para actuar de manera coherente y planificada dentro de entornos dinámicos. Es decir, sabe qué decir, pero no qué hacer.

Google DeepMind busca cerrar esta brecha con SIMA 2 (Scalable, Instructable, Multiworld Agent), un agente de IA diseñado no solo para entender instrucciones de lenguaje natural, sino para ejecutarlas de forma efectiva en un amplio abanico de mundos virtuales, como si fuera un jugador humano.

El Cerebro Detrás de la Acción: Gemini

SIMA 2 no es solo un programa que presiona botones; es un sistema que razona. El corazón de esta capacidad es el modelo de lenguaje grande (LLM) de Google, Gemini. Gemini actúa como el cerebro que recibe una instrucción compleja (por ejemplo, “Necesito madera para construir un refugio”) y la desglosa en una serie de pasos lógicos y ejecutables.

Tradicionalmente, la IA que interactúa con videojuegos se entrena para un único objetivo, como ganar una partida de ajedrez o superar un nivel específico. SIMA 2, en cambio, está diseñado para la generalidad. Puede recibir instrucciones abiertas—como las que le darías a un amigo—y planificar cómo lograrlas en tiempo real, sin haber sido entrenado específicamente para esa tarea.

¿Cómo se entrena un agente de IA general?

La clave del entrenamiento de SIMA 2 es la diversidad. Google DeepMind lo expuso a una variedad de entornos virtuales, incluyendo juegos complejos y abiertos como No Man's Sky y Valheim. Estos juegos no tienen un final lineal y requieren creatividad, exploración y toma de decisiones a largo plazo.

El entrenamiento fue multimodal: SIMA 2 observó horas de juego humano y aprendió a mapear el lenguaje natural (las instrucciones del jugador) con las acciones correspondientes (movimientos del teclado y ratón). Esto le permite:

  • Comprender el contexto visual: Sabe dónde está y qué objetos tiene cerca.
  • Planificar a largo plazo: No solo reacciona, sino que establece secuencias de acciones para lograr un objetivo distante.
  • Adaptarse a nuevos mundos: Si se le presenta un juego que nunca ha visto, puede aplicar el razonamiento aprendido en otros entornos.

Por qué los mundos virtuales son cruciales

Los videojuegos y las simulaciones son el campo de entrenamiento perfecto para la Inteligencia Artificial general. Proporcionan un entorno seguro, escalable y, crucialmente, diverso donde la IA puede fallar y aprender sin consecuencias en el mundo real.

Al dominar la navegación, la interacción con objetos y la resolución de problemas en mundos virtuales 3D, SIMA 2 está desarrollando habilidades que son directamente transferibles a tareas del mundo físico y digital, como manejar interfaces de software complejas o, eventualmente, controlar robots.

La capacidad de SIMA 2 para ejecutar instrucciones complejas en un entorno abierto es un paso de gigante. Demuestra que, con un LLM potente como Gemini, los agentes de IA están pasando de ser meros generadores de información a ser actores inteligentes capaces de tomar la iniciativa y navegar por la complejidad del mundo digital tal como lo hacemos los humanos.

Últimas Noticias