A Meta está usando bancos de dados hackeados e ilegais para treinar sua IA.

By | 25/05/2025
O Meta usou o LibGen , um banco de dados online ilegal, ignorando assim os direitos autorais e o trabalho de vários pesquisadores.

A Meta está usando o LibGen, um arquivo online de materiais pirateados, incluindo acadêmicos, para treinar seus modelos de linguagem de IA generativa. A notícia é um paradoxo, especialmente quando lida da perspectiva da pesquisa acadêmica.

O escritor é o oposto de um defensor de direitos autorais. É um sistema que oferece muito pouca autonomia e pouco apoio às pequenas editoras e, em vez disso, concede enorme poder aos grandes grupos editoriais, além de ser um obstáculo à livre circulação de conhecimento e cultura.

Grande parte do meu trabalho acadêmico é publicado abertamente, mas isso se deve aos privilégios associados ao país em que trabalho como pesquisador. Fui uma das primeiras a entrevistar Alexandra Elbakyan do Sci-Hub , o projeto online que mantém todos os artigos científicos disponíveis gratuitamente. Resumindo, não sou exatamente um defensor de direitos autorais. No entanto, não vejo nada de positivo no fato de meu trabalho hackeado acabar nos dados de treinamento de IA do Meta. Para o escritor, o principal problema é o próprio Meta e a economia política da inteligência artificial generativa, juntamente com a do capitalismo digital. Em outras palavras, a pirataria não é o verdadeiro problema.

Quando o The Atlantic publicou sua investigação sobre esse banco de dados on-line, que permite acesso ilegal a conteúdo protegido por direitos autorais, fiquei curioso para pesquisar meu nome. Descobri que o LibGen hospedou quatro das minhas publicações acadêmicas, incluindo um livro publicado em 2020 por uma editora internacional e sujeito a direitos autorais. Como todos que conheço que trabalham na academia e na pesquisa, sei exatamente o que é LibGen . Resumindo, ele faz pelos livros o que o Sci-Hub faz pelos artigos.

Edifício Thomas Jefferson da Biblioteca do Congresso em 26 de fevereiro de 2024, em Washington, DC.

Autoridades de Trump apareceram na agência dias antes de o governo demitir seu principal funcionário, que havia acabado de divulgar um relatório sobre o uso de materiais protegidos por direitos autorais para treinamento de IA.

Como a pesquisa acadêmica é publicada

Qualquer pessoa que conduza uma pesquisa acadêmica, mesmo aqueles que, como eu, têm o privilégio de fazê-lo em um país onde os recursos institucionais permitem condições ótimas de trabalho, pesquisa e acesso às fontes, mais cedo ou mais tarde devem usar um desses bancos de dados.

Não existe nenhum sistema universitário ou de biblioteca que tenha acesso a todas as obras ou livros publicados. Além disso, ninguém está disposto a gastar centenas de dólares do próprio bolso para comprar um livro acadêmico, nem pode pagar por arquivos PDF de artigos que muitas vezes são úteis apenas como uma citação marginal em uma revisão de literatura. Um único item custa dezenas de dólares. Para quem pesquisa, a verdadeira moeda é a citação do trabalho de outras pessoas. Por um lado, sem acesso à bibliografia, não se é citado; e, por outro lado, não consegue demonstrar conhecimento do que é publicado em suas áreas de interesse.

Os autores estão sempre a apenas um e-mail de distância, e enviar seus trabalhos para colegas ou alunos que solicitam acesso faz parte da rotina. No entanto, o LibGen ou o Sci-Hub costumam ser a única solução possível, ou pelo menos a mais rápida, para acessar conteúdo que de outra forma seria inacessível. Há dados e estatísticas que mostram que o uso dessas plataformas é verdadeiramente global: mesmo em países onde a pesquisa é melhor financiada, os downloads dessas plataformas são numerosos. Não há setor que o atual sistema de direitos autorais prejudique tanto quanto a pesquisa acadêmica. No nosso caso, este é um sistema explorador: não traz nenhum benefício à circulação do conhecimento, ao desenvolvimento disciplinar ou à melhoria do trabalho acadêmico. Pelo contrário, talvez seja o pior obstáculo para qualquer um desses objetivos: materiais cada vez mais caros dificultam a pesquisa e excluem aqueles que não têm acesso a sistemas de bibliotecas bem abastecidos por meio de suas instituições. Além disso, os direitos autorais sobre trabalhos acadêmicos não proporcionam benefícios econômicos para aqueles que conduzem pesquisas. Os direitos autorais são um obstáculo à circulação da verdadeira moeda acadêmica: as citações.

Para quem não conhece essa dinâmica, na grande maioria dos casos, os pesquisadores não recebem nenhuma remuneração das editoras acadêmicas ao publicar seus trabalhos, nem têm qualquer controle sobre os direitos associados à sua disseminação. Nenhuma compensação é recebida por artigos, capítulos de livros ou, quase nunca, pelos livros em si. No entanto, todos esses materiais são comercializados por editoras, que ganham milhões de dólares com o trabalho que obtêm gratuitamente e que exercem controle sobre o conteúdo. Na melhor das hipóteses, um pesquisador pode receber um adiantamento simbólico por um livro, mas isso está longe de ser a norma. O mercado é voltado quase exclusivamente para o meio acadêmico, e as bibliotecas são os principais clientes dessas publicações caríssimas . Os royalties para autores, quando existem, são mínimos.

A Condé Nast e os editores de vários jornais estão acusando a empresa canadense Cohere de usar seu conteúdo sem permissão para seus sistemas de treinamento e resultados.

Acesso aberto, direitos autorais e publicação acadêmica

Uma solução para esse problema são modelos que oferecem recursos científicos de acesso aberto. Acesso aberto significa a capacidade de publicar conteúdo, artigos ou livros sem as restrições de assinatura impostas pelas editoras. Isso também pode ser facilitado pelas próprias grandes editoras, que cobram dos autores taxas de vários milhares de euros para “liberar” seus trabalhos dos direitos autorais e disponibilizá-los ao público. Há também periódicos acadêmicos de acesso totalmente aberto, cujos editores não cobram para oferecer conteúdo gratuito. Muitas dessas revistas são de excelente qualidade e grande prestígio, mas operam em um mundo diferente: são ao mesmo tempo a exceção e a resposta a uma distorção.

O impulso em direção ao acesso aberto tem se intensificado constantemente ao longo dos anos, impulsionado por pesquisadores, instituições acadêmicas e agências de financiamento que agora exigem cada vez mais que as publicações estejam disponíveis em algum formato aberto. Se você tiver a sorte e, novamente, o privilégio de trabalhar para uma instituição ou receber financiamento de uma organização que apoia o acesso aberto, você está em uma boa posição. Algumas universidades têm acordos com editoras para cobrir as taxas de acesso aberto para artigos publicados por seus pesquisadores. Algumas agências de financiamento, como a que apoiou parte do meu trabalho, também oferecem subsídios para cobrir esses custos, incluindo livros. No entanto, este é um terreno de privilégio, desigualdade e geografia: fatores que concedem vantagens e amplificam lacunas.

Em geral, a publicação acadêmica é um universo de dinâmica de poder e exploração no qual todos estamos envolvidos em graus variados. Para tornar sua IA mais eficiente, Meta também precisava treiná-la com textos acadêmicos. Nisso, até mesmo o Meta encontrou um obstáculo de direitos autorais e, para contorná-lo, recorreu a um banco de dados formalmente ilegal, como o LibGen , e o fez em segredo. Este é um paradoxo gigantesco. A Meta pode ter violado leis e pode enfrentar processos de editoras por violação de direitos autorais. Seria fácil ver nesse movimento algum tipo de reação contra um sistema injusto, uma resposta necessária para o bem-estar da humanidade, que, com uma IA melhor, só teria a ganhar. Pode até parecer uma vitória contra os direitos autorais. Mas estamos falando de uma gigante da tecnologia que não está focada na livre disseminação de conhecimento. Plataformas sociais, incluindo a Meta, são extremamente negligentes em responder a pedidos de remoção por supostas violações de direitos, e essa ferramenta é frequentemente usada até mesmo para censurar conteúdo . Como Meta deve emergir do discurso sobre a luta contra os direitos autorais? Depois de 20 anos dessas empresas canibalizando a Internet, realmente acreditamos que há algum indício de pirataria em suas ações?


Mark Zuckerberg comparece ao UFC 313 na T-Mobile Arena em 8 de março de 2025, em Las Vegas, Nevada.
O processo antitruste da FTC contra a Meta começa hoje. Seu resultado pode influenciar o crescimento das grandes empresas de tecnologia, mas o governo dos EUA tem um longo caminho a percorrer para provar seu caso.

O extrativismo da IA ​​generativa

As razões pelas quais a pirataria acadêmica existe não têm nada a ver com a possibilidade de que ela possa ser explorada por uma corporação. Isso deve ficar especialmente claro quando falamos de inteligência artificial . Não é possível falar de IA ignorando suas implicações políticas e econômicas, ou fazê-lo de forma abstrata, esquecendo que a IA oferecida pelas Big Techs é um produto predatório sob múltiplas perspectivas, além de uma ferramenta nascida das mesmas dinâmicas de poder que contaminam a internet há mais de vinte anos.

Não se trata de demonizar ferramentas que têm aplicações práticas extremamente úteis, mesmo para a pesquisa em si, mas sim de não perder de vista a natureza dessas ferramentas, as ações das empresas e seus objetivos. O problema não é a IA, mas as condições sob as quais ela é criada, os atores envolvidos e seus propósitos. E neste caso, não estamos falando de uma IA desenvolvida pela Organização Europeia para Pesquisa Nuclear (CERN) ou por instituições públicas ou de pesquisa, mas sim da inteligência artificial de Mark Zuckerberg.

O roubo inescrupuloso desse conteúdo é predatório porque ignora completamente a existência de quem o criou. E não porque não respeita os direitos autorais, mas porque se apropria da propriedade cultural. É predatória porque recorre, sem qualquer raciocínio cultural, à pirataria, que foi concebida para minar um sistema injusto. Ao fazer isso, a Meta cria uma camada adicional de exploração sobre esse conteúdo, zombando de uma estratégia de resistência e esvaziando-o de significado.

O uso de um banco de dados ilegal pela Meta para essa operação demonstra duas coisas: que os direitos autorais estão esgotados e são completamente inúteis e, ao mesmo tempo, que não há limites para as ações das empresas de tecnologia e sua lógica extrativista. Não havia limites para a mineração de dados para publicidade direcionada, então por que deveria haver para a IA generativa?

Isso enfraquecerá os direitos autorais ou os enviará para o sótão; é um conto de fadas que só pode ser sustentado em alguma narrativa determinística, onde a IA é um agente neutro, inevitável e imparável, para o qual não é possível nem justo estabelecer limites. É uma narrativa tóxica, conveniente e muito perigosa, como tem sido há décadas. A resposta não pode ser direitos autorais, mas também não pode ser uma rendição incondicional a essa maneira de pensar que mistura linguagem corporativa com uma filosofia mesquinha. Não lutamos nem sustentamos batalhas por uma web livre, pelo uso justo, pelas licenças Creative Commons , apenas para que elas fossem exploradas pelo Meta e, mais uma vez, nos regozijássemos com isso.

Artigo publicado originalmente na WIRED Itália. Adaptado por Alondra Flores.

(Wired)