Cada dia é uma nova história com IA. Se há algumas semanas era Sora, agora é EMO, a inteligência artificial generativa que nos deixa impressionados. E ao contrário do que costuma ser habitual, neste caso não vem da OpenAI ou do Google ou de qualquer um dos grandes players do cenário. A nova IA vem da China, tal como foi apresentada pelo Alibaba.
Emote Portrait Alive (EMO) é uma IA generativa que permite gerar vídeos de retratos a partir de uma imagem e um arquivo de voz. Mas o mais impressionante é o resultado. A sincronização labial é ótima, mas os expressões, que se adaptam dependendo do tom de voz.
Como sempre acontece com a IA, é melhor observar os exemplos diretamente. Na página do projeto no Github você pode encontrar vários exemplos.
Temos por exemplo Audrey Hepburn cantando Perfect de Ed Sheeran ou a mulher do vídeo Sora falando com a voz de Mira Murati, naquela que é claramente uma referência interna entre as equipes dedicadas à inteligência artificial.
O EMO foi desenvolvido por Linrui Tian, Qi Wang, Bang Zhang e Liefeng Bo do Instituto de Inteligência Computacional do Grupo Alibaba. Tal como acontece com Sora, no momento é uma ferramenta dedicado à pesquisa e não disponível ao público ser usado. Eles compartilham vários exemplos com diferentes possibilidades. Além de observar pessoas cantando ou conversando, também encontramos exemplos onde, a partir de uma mesma imagem, se obtém um vídeo da pessoa irritada, feliz ou reflexiva.
EMO pode gerar vídeos de retratos de épocas diferentes, dependendo da duração do arquivo de áudio a partir do qual é gerado. Conforme explicam os pesquisadores, a consistência do personagem é mantida ao longo do vídeo.
Vendo os resultados é fácil pensar no impacto que isso pode ter para múltiplos atores. Durante a greve, foram discutidos direitos de imagem, mas a EMO também se concentra na voz. Uma característica igualmente única e a partir da qual podem ser alcançados efeitos impressionantes.
(Plu7)