Em entrevista recente ao podcast Possible, apresentado por Reid Hoffman (cofundador do LinkedIn), o CEO da DeepMind, Demis Hassabis, revelou um passo importante nos planos do Google para o futuro da inteligência artificial: a integração entre seus dois principais modelos de IA — o Gemini, que gera textos, imagens e sons, e o Veo, especializado na criação de vídeos.
Segundo Hassabis, o objetivo é tornar o Gemini ainda mais inteligente e próximo do mundo real. “Sempre pensamos o Gemini como um modelo multimodal, e a razão disso é nossa visão de construir um assistente digital universal — um que realmente ajude as pessoas na vida prática”, afirmou.
Essa tendência de unificar diferentes formatos de conteúdo em um só sistema está se espalhando por toda a indústria. Modelos “omni”, como são chamados, têm a capacidade de compreender e gerar vários tipos de mídia — texto, áudio, imagens e vídeos — de forma integrada.
O Gemini, por exemplo, já consegue produzir imagens e sons, enquanto o ChatGPT da OpenAI gera até imagens no estilo dos estúdios Ghibli. A Amazon também anunciou que lançará seu próprio modelo “any-to-any” ainda este ano.
Para que esse tipo de tecnologia funcione, é necessário treinar os modelos com grandes volumes de dados variados. No caso do Veo, boa parte dos vídeos usados para esse treinamento vêm do YouTube, plataforma que pertence ao Google.
Hassabis explicou que, ao “assistir” muitos vídeos, o sistema aprende conceitos físicos do mundo real, como gravidade, movimento e interações humanas.
O Google já havia informado anteriormente que usa parte do conteúdo do YouTube, sempre respeitando os termos de uso da plataforma e os acordos com os criadores.
A união do Gemini e do Veo promete criar um assistente digital verdadeiramente útil, capaz de entender e interagir com o mundo da mesma forma que nós.
(Google DIscovery)