La compañía dio a conocer su nuevo modelo de IA enfocado en los agentes autónomos de esta tecnología. Esta versión incluye nuevas capacidades, como la generación nativa de imágenes y audio multilingüe, y el uso nativo de herramientas inteligentes, que se conectan directamente a productos de la empresa.
Google reafirma su compromiso con el desarrollo de la Inteligencia Artificial mediante el anuncio de Gemini 2.0, la más reciente versión de su modelo de IA.
“La información es el centro del progreso humano. Desde hace 26 años, nuestra misión es organizar la información, hacerla accesible y que sea útil para los usuarios. También es la razón por la que seguimos extendiendo las fronteras de la IA para organizar esa información a través de cada entrada y ofrecerla a través de cada salida, de modo que sea realmente útil”,comentó Sundar Pichai, CEO de Google y Alphabet.
Durante el último año, Google ha invertido en el desarrollo de más modelos con capacidades de agentes de IA, permitiendo que puedan comprender mejor el mundo que rodea a los usuarios, adelantarse varios pasos y realizar acciones por ellos.
“Hoy nos entusiasma lanzar nuestra próxima línea de modelos desarrollados para esta era de agentes de IA: Gemini 2.0 es nuestro modelo más capaz hasta el momento. Con avances en multimodalidad, como resultados de imágenes y audio nativos, y uso de herramientas nativas, nos permitirá desarrollar nuevos agentes de IA que nos acerquen a nuestra visión de un verdadero asistente universal”, informó Pichai.
El nuevo modelo para la era de agentes de IA
Gemini 2.0 es el modelo de Inteligencia Artificial más capaz presentado por la compañía. El primero de esta nueva era es una versión experimental de Gemini 2.0 Flash, el cual presenta una baja latencia y un rendimiento mejorado con tecnología de vanguardia a gran escala.
Gemini 2.0 Flash se crea en base al éxito de la versión 1.5 Flash, el modelo más popular para desarrolladores hasta el momento, que ofrece un rendimiento mejorado en tiempos de respuesta con una velocidad similar.
Esta nueva versión superó el rendimiento del 1.5 Pro en comparativas clave, con el doble de velocidad. El nuevo lanzamiento, además de admitir entradas multimodales, como imágenes, videos y audio, admite salidas multimodales como imágenes generadas de forma nativa mezcladas con texto y audio multilingüe de texto a voz (TTS) . También puede utilizar herramientas de forma nativa como la Búsqueda de Google, la ejecución de código, así como funciones de terceros definidas por el usuario.
Gemini 2.0 Flash está disponible como un modelo experimental para los desarrolladores a través de la API de Gemini en Google AI Studio y Vertex AI con entradas multimodales, salidas de texto, y generación de imágenes nativas y de texto a voz disponible para los socios con acceso anticipado.
Los usuarios de Gemini a nivel global pueden acceder a una versión de chat optimizada de la versión 2.0 Flash Experimental. Para ello, deben seleccionarla en el menú desplegable del modelo que se encuentra en el escritorio y en la Web en dispositivos móviles.
Project Astra
En su constante búsqueda por encontrar herramientas que permitan ayudar a las personas a realizar y completar tareas, Google anunció una actualización de Project Astra, su prototipo de investigación que explora las funciones futuras de un asistente de IA universal.
Desde que se anunció Project Astra en I/O, la compañía estuvo realizando mejoras en la plataforma según los comentarios de los usuarios.
- Mejor diálogo: Project Astra ahora tiene la capacidad de conversar en varios idiomas, incluso mezclados, con una mejor comprensión de acentos y palabras poco comunes.
- Uso de la herramienta nueva: con Gemini 2.0, la plataforma puede usar la Búsqueda de Google, Lens y Maps, convirtiéndose en un asistente de la vida cotidiana.
- Mejor memoria: Google informó que se mejoró la capacidad de la plataforma para recordar cosas mientras los usuarios tienen el control. Project Astra ahora cuenta con hasta 10 minutos de memoria durante la sesión.
- Latencia mejorada: gracias a las nuevas funciones de transmisión y compresión de audio nativo, el agente puede entender el idioma aproximadamente al ritmo de una conversación humana.
Project Mariner: agentes que pueden ayudar a lograr tareas complejas
Este prototipo inicial de investigación desarrollado con Gemini 2.0 puede comprender y razonar la información en la pantalla del navegador, incluidos los píxeles y los entornos web, como el texto, el código, las imágenes y los formularios.
Cuando se evaluó con la comparativa WebVoyager, que analiza el rendimiento de los agentes en tareas web de extremo a extremo en el mundo real, Project Mariner obtuvo un resultado de vanguardia del 83.5% cuando funcionaba en una configuración de agente único.
Para desarrollar esta herramienta de manera segura y responsable, Google está realizando una investigación activa de los nuevos tipos de riesgos y cómo mitigarlos, siempre manteniendo a las personas en en loop. Por ejemplo, Project Mariner solo puede escribir, desplazarse o hacer clic en la pestaña activa del navegador y le pide a los usuarios la confirmación final antes de realizar ciertas acciones sensibles, como hacer una compra.
Jules: agentes para desarrolladores
La compañía está explorando cómo agentes de IA pueden apoyar de forma más directa a los desarrolladores. Jules es un agente de código experimental impulsado por IA al que se le puede delegar tareas, como resolver errores y desafíos de codificación. Por el momento, este prototipo estará disponible para un grupo selecto de personas
Agentes en juegos y otros dominios
Google DeepMind tiene una extensa trayectoria de usar juegos para ayudar a que los modelos de IA sean mejores a la hora de seguir reglas, planificación y lógica. Por ejemplo, Genie 2, el modelo de IA que puede crear una variedad ilimitada de mundos 3D en los que se puede jugar, desde una sola imagen. Para continuar con esta tradición, se crearon agentes usando Gemini 2.0 que pueden ayudar a los usuarios a navegar el mundo virtual de los videojuegos.
Además, Google está colaborando con desarrolladores de juegos líderes, como Supercell, para explorar cómo funcionan estos agentes, probar su habilidad de interpretar las reglas y los desafíos de una variedad de juegos, desde títulos de estrategia como “Clash of Clans” a simuladores agrícolas como “Hay Day.”
A modo de conclusión, Google informó una serie de mejoras impulsadas por IA para Android. Estas nuevas actualizaciones pretenden mejorar la accesibilidad, la creatividad y la productividad. Estas innovaciones incluyen descripciones de imágenes más detalladas, toma de notas inteligente, transferencia de archivos sin problemas mediante códigos QR y capacidades mejoradas de escaneo de documentos.