La IA de Google se vuelve más capaz que nunca: Gemini ya puede responder preguntas de lo que hay en la cámara o pantalla del usuario

Gemini sigue ampliando sus funciones. La más reciente, anunciada por Google en el MWC 2025, es la capacidad de analizar video en vivo, de forma similar a ChatGPT de OpenAI. Además, ahora permite compartir pantalla con la inteligencia artificial gracias a Project Astra, el asistente universal que la compañía busca desarrollar.

Según el blog oficial de Google, su IA contará con nuevos botones diseñados para proporcionar más información a Gemini y mejorar sus respuestas. La interacción será multimodal, permitiendo el uso tanto de video como de voz a través de su interfaz Live, que posibilita la comunicación directa con el asistente.

El primero de estos botones es “Compartir pantalla con Live”, disponible al invocar el campo de texto de Gemini. Al activarlo, el usuario podrá compartir su pantalla en tiempo real con el asistente, que mostrará una notificación con un diseño similar al de una llamada telefónica, en lugar de una pequeña barra con un contador de tiempo. Esto permitirá acceder directamente a la interfaz completa.

Una vez completado este proceso, el usuario podrá formular preguntas sobre lo que aparece en pantalla, lo que facilitará una conversación dinámica con Gemini basada en el contenido visual.

El segundo botón se activa al iniciar Gemini Live en pantalla completa. En esta interfaz, se mostrará un acceso directo al video, ubicado junto a la opción de compartir pantalla. Al seleccionarlo, la cámara se abrirá en pantalla completa para analizar el contenido al que el usuario apunte. Ambos botones permitirán gestionar la conversación en tiempo real, incluyendo la opción de finalizarla.

Desde mayo de 2024, durante su evento I/O, Google había adelantado estas capacidades de Gemini, reforzándolas en diciembre con el lanzamiento de funciones basadas en Gemini 2.0.

Según la compañía, estas novedades estarán disponibles en Gemini Live, pero exclusivamente para los suscriptores de Gemini Advanced, como parte del plan Google One AI Premium. Inicialmente, solo podrán acceder a ellas los usuarios de dispositivos Android a finales de marzo. Sin embargo, los asistentes del MWC podrán probarlas en una demostración especial durante el evento.

Las capacidades de la IA de Google

Gemini 2.0 fue presentado en diciembre de 2024 y anunciado como el modelo “más capaz” hasta el momento. Incorporó agentes diseñados para pensar, recordar y ejecutar acciones en función de sus objetivos.

En febrero de 2025, Google lanzó una variante de Gemini denominada Flash Thinking, que ofrece capacidades avanzadas de razonamiento y está disponible para todos los usuarios de la plataforma. Este lanzamiento se enmarca en una serie de avances similares impulsados por empresas como Microsoft y OpenAI, en respuesta a la presentación de DeepSeek R1.

Cortesía de Xataka



Dejanos un comentario: