¿Qué es?
NanoBanana es el nombre en clave que la comunidad dio al modelo de imágenes de Google antes de su lanzamiento oficial. Hoy existe como parte de la familia Gemini 2.5 (por ejemplo, gemini-2.5-flash-image o versiones mejoradas como image-3) y está disponible en Google Cloud a través de Vertex AI. Es un modelo especializado en generación y, sobre todo, edición de imágenes, capaz de mantener la consistencia de personajes, realizar cambios locales muy precisos y escribir texto legible dentro de las imágenes.
Ventajas
- Excelente consistencia de personajes: puede mantener la misma cara o producto a través de múltiples imágenes, algo clave para marketing y branding.
- Muy buen rendimiento en edición local (in-painting), permitiendo cambiar solo partes específicas de una imagen sin deformar el resto.
- Capacidad destacada para generar texto legible dentro de las imágenes (carteles, logotipos, rótulos), superando en muchos casos a otros modelos como DALL·E 3.
- Integrado de forma nativa en el ecosistema de Google Cloud y Vertex AI, lo que facilita combinarlo con otros servicios de Gemini que ya estés usando.
- Ideal para flujos de trabajo donde ya tienes imágenes base (productos, personas, capturas de pantalla) y necesitas variaciones coherentes.
Desventajas
- Enfocado en imágenes: no sustituye a modelos de texto/código, por lo que añade complejidad si tu aplicación es puramente textual.
- Su disponibilidad y nombres de modelo concretos pueden cambiar con el tiempo (por ejemplo, diferentes IDs en Vertex AI), lo que requiere revisar la documentación.
- Requiere acceso a Google Cloud y Vertex AI, lo que implica configurar proyectos, billing y permisos adecuados.
- Como cualquier generador de imágenes, puede producir resultados inesperados o necesitar varias iteraciones para alcanzar el estilo deseado.
Funciona mejor para
- Generar variaciones de un mismo personaje o producto manteniendo la identidad visual (campañas de marketing, catálogos, anuncios).
- Editar fotos existentes con cambios localizados, como ajustar colores de ropa, fondos o elementos específicos sin afectar el resto.
- Crear ilustraciones técnicas o diagramas con texto integrado (por ejemplo, arquitecturas de software con rótulos legibles).
- Complementar aplicaciones RAG o de documentación con imágenes explicativas, diagramas o mockups visuales.
- Producción de material visual coherente para cursos, presentaciones o documentación de producto dentro del ecosistema de Google.