Enquanto o Google segue preso ao Gemini, Sora mostra quem está muitos passos à frente em IA: OpenAI

Sora e seus vídeos nos convenceram instantaneamente; Gêmeos ainda precisa nos mostrar a real utilidade de seus números bestiais

Foi um daqueles grandes dias. Em poucas horas, Google e OpenAI exibiram suas mais recentes inovações em inteligência artificial. Primeiro foi o Google com Gemini 1.5 , seu modelo de IA com um milhão de tokens para superar o GPT-4 Turbo. Imediatamente depois, a OpenAI contra-atacou com o Sora , seu modelo de texto para vídeo para gerar clipes de até 60 segundos.

E as reações da comunidade não poderiam ter sido mais diferentes. A nova versão do Gemini é muito promissora e tem objetivos muito altos, mas há uma clara diferença com o Sora. Enquanto o Google nos dá números estonteantes, o OpenAI nos mostra vídeos . Se uma imagem vale mais que mil palavras, neste caso um vídeo vale mais que mil dígitos.

São duas estratégias muito diferentes, mas parece claro qual delas está gerando mais atenção. Do anúncio do Gemini 1.5 ficamos com isso enquanto o GPT-4 Turbo possui 128.000 tokens , o Gemini chega a um milhão. Esses tokens são indicativos da capacidade da IA de receber muitas informações de uma só vez. Ou seja, o Gemini é capaz de ler um maior número de livros por vez ou processar uma maior quantidade de tempo de vídeo. Resumindo: é mais rápido e eficiente. Até agora tudo bem.

A questão é que esta promessa de maior desempenho de pouco serve se não tivermos em mente exemplos marcantes . Depois de experimentar o Gemini no celular , nossa experiência foi mais ou menos boa, mas não revolucionária.

Figuras versus exemplos

Se olharmos para a declaração Gemini 1.5 de Sundar Pichai e Demis Hassabis veremos um texto com muitos exemplos e muitas figuras. Tokens, arquitetura, tempos de execução e linhas de código. O que isso se traduz em nossa vida diária? Difícil de determinar no curto prazo.

Com Sora foi muito diferente. Em primeiro lugar, a página do Sora vem com vários exemplos de vídeos. O resultado é impressionante, com um realismo nunca visto até agora . Mas mesmo se lermos o texto técnico, ele está repleto de exemplos gráficos.

Logicamente a comparação não é justa. Sora é uma ferramenta de vídeo e Gemini é um modelo de IA. São dois projetos muito diferentes , mas justamente por isso a reação que geram é diferente. A OpenAI sabe que seu maior trunfo está no quão impressionante a IA pode ser, pois a IA do Google parece ser um impulso para otimizar seu grande equipamento.

Ainda é difícil encontrar exemplos no Gemini que não possam ser feitos por muito tempo no ChatGPT. Ambos alcançam melhores resultados dependendo da solicitação, mas em geral estão no mesmo nível. Mas os movimentos da OpenAI deixam claro que eles estão um passo à frente .

. @OpenAI SORA vs @pika_labs vs @runwayml vs @StabilityAI Vídeo.

Dei aos outros modelos o quadro inicial do SORA. Tentei minhas melhores técnicas de prompt e movimento de câmera para fazer com que os outros modelos produzissem algo semelhante ao SORA.

SORA é muito melhor em cenas mais longas. pic.twitter.com/TK7QR6jaUK

-Gabor Cselle (@gabor) 16 de fevereiro de 2024

Gabor Cselle , ex-gerente do Google, publica uma comparação entre o vídeo gerado por Sora e o que alternativas como Pika , RunwayML ou Stable Video oferecem e sua conclusão é que Sora é um claro avanço, principalmente em consistência e duração. “Revolucionário”, ele descreve.

Sora ainda não está disponível ao público, mas já mostrou dezenas de exemplos. Vídeos tão surpreendentes que não são necessárias muito mais explicações para saber que estamos diante de um salto importante. Algo que o Google ainda não conseguiu.

(XAtaka)