Recentemente, o Google atualizou seu modelo de geração de imagens com inteligência artificial, apresentando o Gemini 2.5 Flash Image. Esta atualização representa um avanço significativo, oferecendo maior inteligência e flexibilidade na criação de imagens.
Com o novo modelo, os usuários podem usar comandos em linguagem natural não apenas para gerar novas imagens, mas também para combinar fotos existentes e realizar edições mais precisas, minimizando distorções indesejadas.Além disso, o Gemini agora possui um aprendizado mais profundo sobre o que está sendo gerado, utilizando um conhecimento abrangente sobre o mundo.
Essa melhoria visa posicionar o Google mais competitivamente em relação ao líder do setor, a OpenAI. O uso de geradores de imagens por inteligência artificial tem crescido rapidamente, especialmente após o lançamento do GPT-4 com gerador de imagens nativo pela OpenAI. O ChatGPT, por exemplo, alcançou mais de 700 milhões de usuários semanais, enquanto o Gemini contava com 450 milhões de usuários mensais, conforme revelou Sundar Pichai, CEO do Google.
A nova atualização do Gemini promete resolver um desafio recorrente em geradores de imagens: a consistência de personagens ou objetos em várias edições. Agora, é possível colocar o mesmo personagem em diferentes ambientes ou apresentar um produto sob múltiplos ângulos, tudo sem perder a integridade do sujeito.
O Google destaca que os usuários podem realizar ajustes específicos com comandos simples. Entre as edições possíveis estão o desfoque de fundo de uma imagem, a remoção de manchas em roupas, mudanças na pose do sujeito e até a adição de cor a fotos em preto e branco.
Antes do lançamento oficial, o novo modelo já estava gerando interesse em plataformas de avaliação como o LMArena. Ele apareceu de forma anônima sob o nome “nano-banana”, e um usuário compartilhou uma mudança em uma foto de Sam Altman, CEO da OpenAI, que obteve resultados surpreendentes. Posteriormente, o Google confirmou que o “nano-banana” era, na verdade, o Gemini 2.5 Flash Image.
O novo modelo não só está disponível no aplicativo Gemini, mas também foi liberado para desenvolvedores através da API do Gemini. Outras ferramentas, como o Google AI Studio e o Vertex AI, também oferecem acesso ao modelo. O Google já desenvolveu alguns aplicativos modelo que utilizam essa tecnologia, permitindo que os usuários criem novos códigos a partir dessas bases.
Além disso, alguns desenvolvedores começaram a testar o aplicativo em cenários do mundo real, como a criação de cartões para anúncios imobiliários, crachás para uniformes e maquetes de produtos. Essa versatilidade evidencia o potencial do Gemini 2.5 Flash Image em diferentes áreas de aplicação, desde o marketing até a criação de conteúdo visual.
Com informações de gizmodo.com
(Engenhariae)
