Emily Bender: “As linguagens humanas são mais do que a sua forma”

By | 16/05/2023

Por esta altura, qualquer leitor deve ter perdido a conta aos artigos que começam com uma introdução em que se destaca a forma como o ChatGPT se popularizou tornando a Inteligência Artificial num dos grandes temas da contemporaneidade. Se por um lado esta generalização é aceitável, por outro, omite uma parte importante da história da própria Inteligência Artificial. Afinal de contas, como escrevemos noutros artigos, o ChatGPT não é uma obra do acaso, é um Grande Modelo de Linguagem, e não surpreende propriamente quem acompanhou a evolução da área nos últimos anos. De igual modo, também as consequências e os potenciais riscos da sua utilização e popularização estão longe de ser uma novidade, ou produto de uma contra-reação ao entusiasmo, como muitas vezes tem sido escrito. 

Para melhor compreender tudo isto, é urgente rejeitar a lógica binária simplista que divide tudo e todos como entusiastas e detratores da Inteligência Artificial, partindo da sua posição sobre o ChatGPT. É que, apesar da onda de entusiasmo em torno desta aplicação ter inundado a área, a forma como foi desenvolvida, implementada e comunicada é tão ou mais importante que as características tecnológicas fundacionais. Se perante a tecnologia podemos e devemos reservar um certo agnosticismo, a criação e popularização do ChatGPT está envolta numa espessa camada ideológica difícil de penetrar. A escolha da arquitectura do modelo, do método de treino, da sua popularização e da forma como é comunicado não são acasos, mas antes, assumpções de uma certa forma de fazer as coisas longe de ser neutra. E, mais uma vez, longe de ser imprevista. Para o mostrar, conto como chegou até mim a referência de Emily Bender, a linguista da University of Washington, a quem tivemos, no Shifter, a oportunidade de fazer algumas questões sobre o momento. 

Foi há 2 anos, em 2021, ainda o GPT ia na sua 2.ª versão quando fui convidado para moderar uma conversa sobre Literatura e Inteligência Artificial. Na altura, o debate sobre Inteligência Artificial generativa ainda se dirigiaa círculos académicos mais restritos e, na plateia, seguramente com menos de uma centena de pessoas, contavam-se pelos dedos das mãos quem já tinha tido algum contacto com este tipo de aplicações. O ChatGPT não existia, o GPT2 tinha um acesso bastante restrito, e o entusiasmo era praticamente nulo, mas o nome de Emily Bender já era uma referência. Com especialização na área do processamento de linguagem natural, o contributo da linguista norte-americana era visto como fundamental para um desenvolvimento prudente — chamemos-lhe assim — da tecnologia. E chegou até à conversa por via de Hannes Bajohr. 

O propósito da referência de Bajohr a Bender foi falar-nos do que a linguista chama de “value lock” [bloqueio de valor]. Isto é, como os Grandes Modelos de Linguagem (LLM, do inglês Large Language Models) correm o risco de reificar entendimentos menos inclusivos da linguagem. Mas essa seria apenas a ponta do icebergue de uma visão estruturada e crítica sobre este tipo de modelos de I.A. Hoje, Emily Bender é, a par de Timnit Gebru, uma das vozes interessantes que podemos ouvir sobre estes modelos — sobretudo porque o seu trabalho se lê como uma parábola do que viria a acontecer, nomeadamente o artigo “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” — se a nossa intenção real for compreendê-los e não aceitar acriticamente as mensagens que o marketing das tecnológicas vai concebendo ao mais ínfimo detalhe. 

No artigo de onde sairia a alcunha Stochastic Parrots [Papagaios Estocásticos], Emily Bender, Timnit Gebru, Angelina McMillan-Major, e Shmargaret Shmitchell partem de uma questão simples: serão estes modelos grandes demais? Passados 2 anos da sua publicação, os modelos não pararam de crescer — em tamanho —, mas a pressa para emitir opiniões fez com que muito poucos se debruçassem sobre as dimensões mais interessantes do paper, para além da caricatura engraçada do papagaio. Hoje encontramos mais rapidamente uma referência que compare humanos a papagaios, do que uma articulação das ideias fundamentais por detrás desta imagem cativante. Tentando contrariar essa tendência, enviámos um conjunto de questões a Bender, para que possamos expandir a nossa reflexão sobre um tema tão complexo, os Grandes Modelos de Linguagem e a sua relação com a sociedade. 

Avaliar os modelos “para aquilo que eles servem” 

“Os modelos produzem frases e parágrafos gramaticalmente coerentes. Mas as linguagens humanas são muito mais do que a sua forma.” A primeira pergunta que fizemos à linguista norte-americana Emily Bender foi, inevitavelmente, sobre o domínio da língua demonstrado pelos Grandes Modelos de Linguagem como o ChatGPT. Bender não podia ser mais peremptória, operando uma importante divisão entre o que é a dimensão formal da língua (a coerência gramatical) e a dimensão do significado, completamente ausente neste tipo de modelos. “As linguagens são sistemas de signos — pares de forma e significado”, diz-nos. “E os Grandes Modelos de Linguagem não têm acesso a esse lado do significado.”

Se para uma linguista a questão do domínio da língua é facilmente explicada, e de certa forma desmistificada, a conversa não se fica por aí. Até porque o entendimento global é bem diferente. A forma como as crenças de uma máquina super-inteligente se criam não são, para a investigadora, fruto do acaso. Referindo uma das vozes que, em conjunto consigo, mais se tem ouvido neste domínio, Timnit Gebru, Bender sugere que todo o processo que leva à criação dos modelos dificulta a sua avaliação. E explica: “Devemos avaliar os modelos para aquilo que eles servem. Como disse a Timnit Gebru recentemente na sua apresentação na SaTML, um grande problema com estes modelos é que eles não têm uma função definida (é suposto que sirvam para “tudo”), o que torna impossível avaliá-los”. E este não é o único obstáculo à sua total compreensão. 

“Eu acho que é muito problemático que a OpenAI não seja aberta no que toca aos dados e métodos de treino dos seus sistemas”, começa por dizer Bender, explicando de seguida os problemas que vê surgirem desta opção. “Por um lado, isto significa que eles mantêm o seu sistema envolto em mistério, tornando mais fácil para as pessoas acreditar que é algo como uma ‘Inteligência Artificial Geral’. Por outro, torna impossível alguém fazer uma decisão informada sobre se a tecnologia é apropriada a determinado caso de uso.” 

Ambas as dimensões da sua resposta se relacionam — como aliás grande parte das suas críticas actuais — com o seu trabalho, de já longa data, sobre a área da Processamento de Linguagem Natural (em inglês NLP, de Natural Language Processing), a área da Inteligência Artificial que se dedica ao estudo geração de linguagens humanas por meio de máquinas. Neste caso, aponta-nos à leitura de um artigo publicado em 2018 em co-autoria com Batya Friedman

Neste artigo que pretendia dar pistas para a mitigação do viés sistémico inerente a estes modelos, pode ler-se que “como consumidores de datasets ou produtos treinados com eles, os investigadores e programadores de [modelos de] NLP, bem como o público em geral fariam bem em utilizar estes sistemas apenas se tiverem acesso à informação que propomos que seja incluída nas declarações de dados”. E por estas palavras percebe-se que é bem conhecida a importância da transparência para a compreensão global de sistemas desta natureza e complexidade. Uma importância que não se esgota entre utilizadores e desenvolvedores mas se expande também quando o assunto é regulação. 

Numa das interações que ficarão para a história como sinais do entendimento (ou desentedimento) destes modelos, o senador Chris Murphy, fez um tweet dizendo que o ChatGPT tinha “ensinado a si mesmo química”, algo que não constava no modelo, e que não estaríamos preparados para o que aí vinha.Este tweet, que se tornaria numa espécie de parábola sobre regulação em I.A. — como pode alguém regular algo que não percebe como funciona? — demonstrou também como a conversa sobre os riscos envolvendo estes modelos tem evoluído. 

Infelizmente, a conversa parece que começa a ser guiada por “Fatalistas da I.A.” que levantam preocupações sobre cenários fictícios (Como a ‘Inteligência Artificial Gera’l tomar conta do mundo) que nos distraem dos problemas mais urgentes e mais reais, causados pelo comportamento das empresas que dizem estar a construir sistemas de I.A.”  — diz Bender, aproveitando para remeter novamente para algo já publicado. Neste caso, a declaração conjunta das autoras do acima referido artigo do Papagaio Estocástico sobre a famigerada carta pela suspensão do desenvolvimento de I.A.
Neste texto publicado no site da associação para a pesquisa descentralizada em I.A., pode ler-se um apelo por um processo de regulação que não inclua apenas líderes tecnológicos que são parte interessada no tema, nem académicos a desfrutar do ‘verão da I.A.’, mas também as pessoas que estão mais vulneráveis a estes modelos, como migrantes, trabalhadores precários e artistas, entre outros. E, mais do que isso, lê-se assertivamente que não deve ser a sociedade a adaptar-se a um futuro tecnológico como se ele fosse pré-determinado, mas, em vez disso, a tecnologia a ser desenvolvida de uma forma que melhor sirva as necessidades humanas. Para isso é preciso não só conhecer as necessidades humanas mas também, mais uma vez, como funcionam estes sistemas que, por muito complexos que sejam, não são mágicos.

Resolver problemas ou lucrar? 

Apesar de o assunto ser do foro tecnológico, as implicações políticas que o rodeiam são fundamentais a qualquer análise rigorosa. Seja pela forma como o desenvolvimento é financiado, seja por como todo processo de desenvolvimento e implementação destes modelos é feita; há muito por discutir. Ainda que muitas vezes a I.A. seja tratada como um monólito, e se passe erradamente a ideia de que só existe um caminho tecnológico para o desenvolvimento de aplicações inteligentes, modelos como o GPT partem de vários pressupostos específicos com implicações políticas claras. Um destes pressupostos tem que ver com a crença de que modelos maiores serão sempre melhores, algo que, como Emily Bender diz, tornou os modelos “demasiado grandes para ser documentados”. E, em certa instância, grandes demais para serem verdadeiramente úteis. 

Para Bender há “uma ênfase dado à escala no mundo corporativo que contrasta com uma perspectiva humanista” (e sobre isso aponta-nos desta vez para o artigo “Against Scale: Provocations and Resistances to Scale Thinking”) que culmina, no seu entender, em modelos grandes demais até para a sua própria utilização — algo que, de resto, já referia no mítico artigo do ano 2020. 

“A solução que propomos é que se orçamente a documentação como parte dos custos planeados para a criação de conjuntos de dados, e que se recolha apenas a quantidade de dados que pode ser documentada de forma exaustiva dentro desse orçamento”, lia-se no tão citado artigo dos Papagaios Estocásticos. A questão fundamental em torno da dimensão dos modelos prende-se com a impossibilidade de saber todos os dados que serviram de treino ao modelo. Para termos uma ideia, estima-se que o GPT tenha sido treinado com conteúdo que demoraria a um humano 5 mil anos a ler. E embora nada indique que para fazer modelos com utilidade sejam precisos tantos dados, a tendência tem sido a de aumentar sucessivamente este volume. 

Na base desta dinâmica está, novamente, aquilo que Emily Bender refere citando Gebru: dada a intenção de criar modelos sem uma intenção/utilização definida, os programadores destes Grandes Modelos de Linguagem optam por enfiar nos modelos o máximo de dados possível, perdendo o controlo sobre esses dados e aumentando os potenciais riscos associados a este tipo de tecnologia — como a reificação de significados menos inclusivos, perpetuação de preconceitos e estereótipos presentes nos dados, etc. Esta opção esconde, no fundo, uma visão particular da tecnologia, e da sua relação com a sociedade, contrastante com a que lemos de autoras como Bender, para quem servir as necessidades das pessoas e não apenas os imperativos do lucro deveria ser a prioridade. 

Um exemplo paradigmático revelador do sensível equilíbrio que é preciso estabelecer entre estas duas dimensões é dado no próprio artigo de Bender, Gebru, McMillan-Major, e Shmitchell escrito em 2020, sugerindo formas de mitigar riscos. “Na altura, estávamos a reconhecer que os LLMs, que eram grandes para os standards de 2020, podiam ser úteis em certas aplicações bem definidas, e que se esses benefícios não fossem igualados por outras tecnologias, se deviam envidar esforços para perceber como se podia ter esses benefícios e, simultaneamente mitigar riscos” — explica, recontextualizando de imediato a posição à luz dos dias de hoje. “Digo-o pelos standards de 2020, porque acho que os modelos a serem implementados em 2023 já ultrapassaram o tamanho necessário para serem benéficos para coisas como o reconhecimento de voz.” 

Encontrar o equilíbrio entre os benefícios concretos e uma capacidade de perceber, prever e mitigar riscos é, portanto, um passo essencial na implementação segura e democrática da Inteligência Artificial que, na opinião de Emily Bender, claramente não está a ser tido em conta. Na senda do lucro, temos assistido ao lançamento de modelos sem benefícios concretos conhecidos, nem sequer aplicações bem definidas, excessivamente elogiados por alegadamente fazerem tarefas para as quais não terão sido treinados, sem que para isso se saiba sequer para que foram treinados. Para Bender, este é o resultado de uma luta desigual. 

Enquanto académica, o papel de educar o público soma-se ao de educar os discentes a quem leciona. Mas, avisa, partem nessa corrida numa posição desfavorável: “Infelizmente, estamos em desvantagem, porque as empresas têm incentivos em investir em relações públicas, enquanto nós, se perdemos o nosso tempo a contrariar o hype, estamos a fazê-lo em adição aos nossos trabalhos principais (ensinar, investigar, serviço, etc).”

Alinhar os incentivos com o trabalho que é preciso ser feito para que a Inteligência Artificial enquanto tecnologia possa realmente trazer um impacto positivo para a humanidade é, portanto, uma das grandes questões emergentes e urgentes. Quando o principal critério é o lucro, as estratégias de mitigação de risco são deixadas para segundo plano e os erros tratados como um contratempo, mais do que como resultado de um modelo de desenvolvimento com falhas que têm sido detectadas dia após dia. 

A contratação de trabalhadores precários para treino dos modelos, os conjuntos de dados opacos que ninguém conhece, e os artigos publicados em repositórios científicos, mas sem revisão de pares, são sintomas de um caminho que mais do que em direção ao conhecimento, à inovação, ou à ciência, aponta ao domínio de mercado. Mas é importante que se perceba que existem outras vias. 
“Eu gostaria de apontar o trabalho do DAIR Institute, da Algorithmic Justice League e do Data for Black Lives”, responde-nos Bender quando pedimos para mencionar projectos na área com interesse. Explicando sucintamente o porquê de os ter escolhido, resume a emergência: “Estas são organizações que estão focadas em perceber como a aprendizagem automática (I.A.) e outros sistemas de big data podem impactar a vida das pessoas e o seu modo de vida — e como podem ser desenhados para que sirvam as suas necessidades mais do que pela motivação do lucro.”

(Shifter)