La generación y edición de imágenes dentro de Gemini, la IA de Google, acaba de mejorar gracias a un nuevo modelo llamado Gemini 2.5 Flash Image, también conocido por su nombre clave “Nanobanana”. Esta actualización permite combinar diferentes imágenes en una sola, mantener la coherencia entre elementos y realizar transformaciones específicas, todo mediante lenguaje natural y conversacional.
La mejor parte es que la función es gratuita y ya está disponible para todos los usuarios dentro del chatbot, independientemente de si pagan o no la suscripción de la plataforma. De acuerdo con Google, esta es la evolución de la generación nativa de imágenes que llegó con Gemini 2.0 Flash a principios de 2025, y responde a necesidades específicas de los usuarios, como una mayor calidad de imagen y un control creativo más potente.
Coherencia, edición precisa y fusión de imágenes: las claves de Nanobanana
Esta nueva herramienta, integrada directamente en el chatbot de Gemini, tiene varias características principales que resuelven algunos de los problemas más comunes de la generación de imágenes con IA.
- Coherencia de personajes y objetos. Google señala que mantener la apariencia de un personaje u objeto a través de múltiples ediciones es un “reto fundamental”. El nuevo modelo optimiza este proceso, lo que permite colocar a un mismo personaje en diferentes entornos, mostrar un producto desde distintos ángulos o generar recursos de marca consistentes.
- Adaptación a plantillas visuales. La consistencia también permite adaptar imágenes a diferentes formatos, como fichas de propiedades inmobiliarias, insignias para uniformes de empleados o maquetas de productos para un catálogo completo, todo a partir de una sola plantilla de diseño.
- Ediciones locales precisas. También es posible utilizar Gemini 2.5 Flash Image para hacer transformaciones específicas, como desenfocar los fondos, eliminar manchas de la ropa, borrar personas de una foto, alterar poses, añadir color a una fotografía en blanco y negro o incluso cambiar la ropa de un sujeto.
- Comprensión y fusión de imágenes. El modelo ahora puede comprender semánticamente el mundo real para funcionar como un tutor interactivo, leer diagramas dibujados a mano o seguir instrucciones de edición complejas. Además, puede fusionar múltiples imágenes para añadir objetos a una escena, rediseñar habitaciones con nuevos esquemas de colores o arrastrar y soltar productos en un lugar.
Cómo usar las nuevas funciones en Gemini
Todas estas capacidades se pueden aprovechar directamente en Gemini. Como parte de esta última actualización, Google asegura que las fotos de amigos, familiares y mascotas se verán siempre iguales, incluso si se les pide probar un nuevo corte de pelo o colocarle un “tutú” a un chihuahua.
El proceso es simple: se le proporciona a Gemini una foto y se le indica qué se quiere cambiar. El chatbot también puede combinar imágenes para, por ejemplo, ponernos en una foto con nuestra mascota, cambiar el fondo de una habitación o colocarnos en cualquier lugar del mundo sin perder la consistencia de la figura.
También es posible subir varias fotos y fusionarlas, o realizar ediciones en “multiturno“. Por ejemplo, se puede tomar una foto de una habitación vacía y, paso a paso, pedirle a Gemini que pinte las paredes, añada estanterías y luego coloque muebles, conservando el resto de la imagen intacta.
Entre otras funciones, Google destaca que se pueden aplicar estilos de una imagen a un objeto de otra. Por ejemplo, tomar el color y la textura de los pétalos de una flor y aplicarlos a unas botas de lluvia, o crear un vestido con un patrón inspirado en las alas de una mariposa.
Finalmente, es importante mencionar que todas las imágenes creadas o editadas en la aplicación con inteligencia artificial tendrán una marca de agua visible, junto a otra digital e invisible llamada SynthID, para así poder comprobar que se trata de contenidos generados con IA.
Cortesía de Xataka
Dejanos un comentario: