Sora, geração de vídeos com IA e a síndrome do objecto brilhante

By | 24/02/2024

“Dois Golden Retriever a gravar um podcast no topo de uma montanha”, “uma corrida de bicicleta no meio do oceano, com os animais como atletas, filmado por uma câmara aérea” ou “uma aula sobre como cozinhar gnocchi caseiro apresentada por uma avó influenciadora das redes sociais numa cozinha rústica da Toscana com iluminação cinematográfica”. Estas podem parecer frases completamente desconexas, com um certo grau de surrealismo e sem nada que as una. E até há pouco tempo eram. Até serem imaginadas por utilizadores do X, e escolhidas escolhidas por Sam Altman, CEO da OpenAI, para demonstrar as potencialidades do mais recente lançamento da sua empresa.

Com o nome Sora, inspirado na palavra japonesa para céu, trata-se de um novo modelo de Inteligência Artificial generativo, desta feita para a criação de vídeo a partir de frases como as que vimos. E apesar de ainda não ter qualquer plano de lançamento anunciado, está já a gerar a onda de reações a que qualquer lançamento no campo da inteligência Artificial nos foi habituando ao longo de 2023. Sora parece ter vindo reavivar tanto os medos como as crenças mais profundas sobre o potencial da tecnologia, na medida em que revela as capacidades da empresa criadora do ChatGPT em mais um meio de comunicação, o vídeo. Se as tecnologias de geração de vídeos já estavam por cá há algum tempo, e há muito se fala no perigo dos deepfakes, a associação àquele que é o modelo de IA mais conhecido e tido em melhor conta, dá um novo tónico a esta discussão. Isso ao mesmo tempo que ofusca outros debates fundamentais sobre o modelo de desenvolvido desta tecnologia, com todo o brilho das suas capacidades.

O Sora é-nos revelado numa altura em que começavam a surgir indícios do abrandamento da excitação em torno da Inteligência Artificial — como o decréscimo de valorização das empresas depois de máximos históricos e do número de menções à tecnologia durante as apresentações de resultados — e perante uma certa normalização do discurso em torno do ChatGPT e dos modelos de linguagem. Depois de percebermos colectivamente que não vai destruir o mundo nem torná-lo no paraíso — como prova o pouco alarido em torno do lançamento do Gemini, a resposta da Google ao ChatGPT. E surge não como a resolução dos problemas que foram levantados em torno dos modelos de desenvolvimento de IA, mas como um sinal de que não serão as questões remanescentes a travar o anúncio de um novo modelo com potencial de gerar muitas mais.

Já a síndrome do objecto brilhante é uma metáfora usada para descrever a tendência que os humanos têm para se deixar atrair por objectos que reflitam a luz, como diamantes, esquecendo tudo o que está relacionado com a sua proveniência. Dadas as circunstâncias, o objecto de desejo ser algo que o comum mortal não percebe bem como se gera, e o seu modelo de desenvolvimento ser dependente da exploração de recursos de forma precária e de uma cadeia de valor com muitas questões por esclarecer, dificilmente se encontraria uma metáfora melhor para descrever as reações que se foram gerando.

O novo diamante da OpenAI

Para percebermos porque brilha tanto a nova jóia da coroa da OpenAI, o relatório da empresa dá algumas pistas. O Sora junta a tecnologia Transformer que se notabilizou como fundamento do ChatGPT à tecnologia de Difusão, que se vinha até agora a notabilizar especialmente no produtos da Stable.AI, como o Stable Diffusion — que em 2023 lançou o seu módulo de vídeo. O Stable Diffusion Video é uma boa comparação para perceber o salto dado. Se o modelo que gera vídeos a partir de imagem oferece a possibilidade de gerar apenas 3 segundos de vídeo, a OpenAI promete até 1 minuto com qualidade 1080p. Isto deve-se fundamentalmente à capacidade de combinação de diferentes técnicas, quer no processo de treino do modelo, quer no momento de geração do vídeo, resultado de uma grande concentração de poder computacional, enormes custos energéticos, e quantidades massivas de dados de treino.

Por de trás da geração destes vídeos está, mais uma vez, um processo complexo e a concatenação de ideias desenvolvidas ao longo de anos. O modelo é, desde logo, inspirado nos grandes modelos de linguagem e na forma como estes processam a informação. Se no caso dos modelos de linguagem tínhamos tokens, aqui temos patches. Os vídeos de treino são comprimidos em patches – unidades que representam informação visual num espaço latente. E são esses patches que, no fundo, são combinados de forma a gerar novos vídeos. Numa simplificação, podemos imaginar que, durante o processo de treino, o modelo recorta cada vídeo em milhares de pequenos pedaços – como peças num puzzle de várias dimensões – e aprende a combinar diferentes peças, de diferentes proveniências, de forma a criar algo aparentemente original e com sentido. Tudo isto através de uma repetição sucessiva e exaustiva de do processo que vai tornando as relações relevantes entre as tais peças cada vez mais evidentes para o modelo, e vai fazendo com que a imagem gerada se assemelhe cada vez mais com aquilo que identificamos como um vídeo com qualidade e fidelidade. Algo com custos computacionais proporcionais, como de resto demonstra a própria OpenAI no relatório onde demonstra a relação directa entre a computação utilizada em treino e a fidelidade da imagem.

Captura de ecrã do relatório técnico emitido pela OpenAI com a comparação de diferentes níveis de computação. Na imagem surgem 3 frames representantes do modelo em 3 níveis de computação diferentes: base, 4x e 32x. E é possível perceber que com o aumento da computação a imagem vai melhorando a definição e qualidade no geral.
Imagem via OpenAI

Mas a relação com os modelos de linguagem não se fica pela inspiração e, também noutra instância, aumenta o nível de intermediação computacional deste gerador de artefactos. Para transformar textos em vídeos, o modelo tem tanto de ser capaz de gerar vídeos como de processar o comando textual de modo a gerar a combinação pretendida. Para tal, o modelo teve de ser treinado com muitas horas de vídeo – não há informação de quantas – acompanhados de descrições em texto; e para os obter, a OpenAI utilizou outro modelo, de geração de legendas que ajudam a compôr os dados de treino. Uma escolha que mais uma vez evidencia a tendência para criar sistemas em que as máquinas se ensinam a si mesmas — algo que tem aparentes benefícios do ponto de vista comercial mas que acentua as grandes questões do ponto de vista social, criando mais uma camada de processamento sem grande intervenção humana e difícil de escrutinar. E que, dado o que conhecemos sobre o funcionamento dos modelos de linguagem, tem uma tendência para perpetuar vieses nos dados de treino e o potencial de os contaminar com alucinações, agora também para a geração de vídeo. Mas não fica por aqui. Também a interação entre os utilizadores e o modelo se prevê que seja mediada por mais uma instância de inteligência artificial praticamente invisível. Para que os comandos de texto dados pelos utilizadores se assemelham àqueles com que o modelo foi treinado, a empresa prevê que todos passem por um processo de optimização com recurso ao GPT.

Se os pontos anteriormente referidos explicam como brilha essa nova criação: à custa de grande poder de computação. Outras questões por resolver continuam a ofuscar um olhar mais atento sobre estes modelos de Inteligência Artificial, nomeadamente a matéria com que são alimentados estes modelos, os dados. Elemento central de um grande debate sobre o direito de as empresas treinarem em dados obtidos sem consentimento – uma mancha que desde o princípio paira sobre um largo espectro de modelos generativos. Por causa do ChatGPT, a OpenAI foi alvo de um processo do New York Times que acusa a empresa de treinar o modelo com dados não licenciados, o jornalista Gary Marcus demonstrou como tanto o modelo de geração desta empresa, o DALL-E, como o Midjourney, principal concorrente aparentam ser um “campo minado de infrações de direitos de autor”, e também a Stable.AI viu um dos seus responsáveis abandonar em protesto depois das notícias de que o modelo de geração de imagem da sua empresa estaria a ser treinado com material sem consentimento (ao contrário do modelo de audio por que era responsável), para citar alguns exemplos.

Enganados pelo brilho

Assim que entramos na landing page de lançamento do produto, podemos ler numa das primeiras descrições do Sora que, mais do que como um modelo para gerar vídeo, está a: “(…) ensinar a IA a compreender e a simular o  mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação no mundo real.” Esta afirmação, que pode ser lida como uma espécie de derivação da crença numa Inteligência Artificial Geral, projecta no modelo uma capacidade de mais do que replicar vídeos, replicar situações no mundo real, sonegando toda a complexidade em torno desta questão e fazendo-o brilhar de forma, até ver, infundada.
Se em qualquer dos vídeos que vimos pelas redes sociais é possível detectar falhas evidentes, em que as situações adquirem um carácter claramente surreal – como no caso do vídeo de culinária na Toscana onde a colher aparece e desaparece misteriosamente –, é a própria OpenAI quem, por detrás do discurso comercial, assume a distância a que o modelo está de uma representação física do mundo. Não só o modelo é incapaz de replicar dinâmicas mais complexas – algo que, de resto, é uma área em si mesmo da IA – como em muitas situações não respeita os princípios mais básicos e evidentes. Os exemplos dados pela própria empresa – tudo o que existe publicamente, e em que se baseiam todas as parangonas – são claros. Pinceladas que aparecem, corpos com articulações impossíveis, movimentos contra todas as leis da física, são alguns exemplos que a um olhar atento ajudam a ilustrar como funcionam estes modelos: recombinando os tais fragmentos em que converteu os vídeos que originalmente compunham os dados de treino, e não recriando simulações do mundo real.

Vídeo via OpenAI

Contra-intuitivamente, estas falhas do modelo podem ser, por agora, uma das formas de lidar com as potenciais consequências negativas da popularização de modelos deste género: a criação de vídeos falsos com propósito fraudulento e de gerar campanhas de desinformação. Uma visualização num ecrã maior do que o do telemóvel, com um olhar atento, revela falhas inegáveis mesmo nos vídeos exemplares do sucesso. Como no caso dos Golden Retrivers em que os fones parecem ‘flutuar’ na cabeça de um dos cães. De resto, no capítulo da segurança do que é apresentado pela OpenAI, as ideias são muito limitadas. A empresa, tal como faz no ChatGPT, terá contratado uma equipa de especialistas que testará alguns cenários, impedindo preventivamente que a máquina gere algumas imagens potencialmente problemáticas, aplicará filtros proibindo a utilização de algumas palavras-chave e treinará outros sistemas de IA para classificar as imagens e impedir a sua publicação caso se detectem violações dos termos do serviço. Mas se há coisa que estes meses de hype em torno da IA nos ensinou é que tudo isso não bastará.

Os casos de violência sexual com recursos a modelos generativos são um bom – embora dramático – exemplo do problema. Um problema que, diga-se, é mais social do que tecnológico, mas que, ainda assim, devia merecer uma maior atenção por parte das empresas no momento de criar e disponibilizar estas ferramentas. Da sua parte, a OpenAI planeia implementar um sistema de assinatura com metadados dos artefactos gerados pelos seus modelos;contudo, tal como qualquer pessoa com o mínimo de conhecimentos informáticos rapidamente se lembrará, facilmente esta assinatura é ultrapassável através de gravação ou captura de ecrã.

As falências do modelo e os riscos do seu abuso são amplamente reconhecidos pela OpenAI mas, embora ainda não haja data para lançamento do modelo, dificilmente serão um impedimento. Algo que parece denotar um regresso à filosofia de desenvolvimento que marcou Silicon Valley durante o advento das redes sociais: move fast, break things. Sem uma constatação clara das funcionalidades do modelo, para além da utilização criativa (em que contribuem para a desvalorização dos profissionais que criaram muitos dos dados em que são treinados), nem uma identificação exaustiva dos riscos ou planos de mitigação – como investimento em literacia –, a OpenAI conseguiu criar mais um objecto brilhante. E todo o mundo comenta como é fascinante o seu brilho e como são espantosos os seus poderes.

Numa altura marcada pela crise climática e depois de sucessivos relatórios a apontarem o papel da Inteligência Artificial na escalada dos consumos – a Agência Internacional de Energia estima que até 2026 e graças a IA e criptomoedas as necessidades dos data centers dupliquem (para se ter uma ideia, uma simples pesquisa na Google com os modelos de IA em funcionamento aumenta o gasto energético em 10x); e simultaneamente marcada por crises sociais, amplamente correlacionadas com os ecossistemas de informação cada vez mais enfraquecidos, o lançamento de um modelo de IA pode parecer espectacular, produzir imagens nunca antes vistas e servir para dar corpo a ideias criativas absolutamente surreais. Mas o debate não pode e não deve ser só sobre as suas capacidades mas antes sobre os custos e consequências que virão da sua escala. E nesse sentido temos de perceber de que lado da balança nos queremos posicionar: entre os que exacerbam as qualidades do modelo sem olhar ao resto, fazendo disparar as avaliações das empresas e alimentando a atmosfera de inevitabilidade; ou entre os que pura e simplesmente param e perguntam como e para quê em cada um destes momentos em que o brilho de um objecto teima em nos seduzir.