O Meta usou o LibGen , um banco de dados online ilegal, ignorando assim os direitos autorais e o trabalho de vários pesquisadores.A Meta está usando o LibGen, um arquivo online de materiais pirateados, incluindo acadêmicos, para treinar seus modelos de linguagem de IA generativa. A notícia é um paradoxo, especialmente quando lida da perspectiva da pesquisa acadêmica.
O escritor é o oposto de um defensor de direitos autorais. É um sistema que oferece muito pouca autonomia e pouco apoio às pequenas editoras e, em vez disso, concede enorme poder aos grandes grupos editoriais, além de ser um obstáculo à livre circulação de conhecimento e cultura.
Grande parte do meu trabalho acadêmico é publicado abertamente, mas isso se deve aos privilégios associados ao país em que trabalho como pesquisador. Fui uma das primeiras a entrevistar Alexandra Elbakyan do Sci-Hub , o projeto online que mantém todos os artigos científicos disponíveis gratuitamente. Resumindo, não sou exatamente um defensor de direitos autorais. No entanto, não vejo nada de positivo no fato de meu trabalho hackeado acabar nos dados de treinamento de IA do Meta. Para o escritor, o principal problema é o próprio Meta e a economia política da inteligência artificial generativa, juntamente com a do capitalismo digital. Em outras palavras, a pirataria não é o verdadeiro problema.
Quando o The Atlantic publicou sua investigação sobre esse banco de dados on-line, que permite acesso ilegal a conteúdo protegido por direitos autorais, fiquei curioso para pesquisar meu nome. Descobri que o LibGen hospedou quatro das minhas publicações acadêmicas, incluindo um livro publicado em 2020 por uma editora internacional e sujeito a direitos autorais. Como todos que conheço que trabalham na academia e na pesquisa, sei exatamente o que é LibGen . Resumindo, ele faz pelos livros o que o Sci-Hub faz pelos artigos.

Como a pesquisa acadêmica é publicada
Qualquer pessoa que conduza uma pesquisa acadêmica, mesmo aqueles que, como eu, têm o privilégio de fazê-lo em um país onde os recursos institucionais permitem condições ótimas de trabalho, pesquisa e acesso às fontes, mais cedo ou mais tarde devem usar um desses bancos de dados.
Não existe nenhum sistema universitário ou de biblioteca que tenha acesso a todas as obras ou livros publicados. Além disso, ninguém está disposto a gastar centenas de dólares do próprio bolso para comprar um livro acadêmico, nem pode pagar por arquivos PDF de artigos que muitas vezes são úteis apenas como uma citação marginal em uma revisão de literatura. Um único item custa dezenas de dólares. Para quem pesquisa, a verdadeira moeda é a citação do trabalho de outras pessoas. Por um lado, sem acesso à bibliografia, não se é citado; e, por outro lado, não consegue demonstrar conhecimento do que é publicado em suas áreas de interesse.
Os autores estão sempre a apenas um e-mail de distância, e enviar seus trabalhos para colegas ou alunos que solicitam acesso faz parte da rotina. No entanto, o LibGen ou o Sci-Hub costumam ser a única solução possível, ou pelo menos a mais rápida, para acessar conteúdo que de outra forma seria inacessível. Há dados e estatísticas que mostram que o uso dessas plataformas é verdadeiramente global: mesmo em países onde a pesquisa é melhor financiada, os downloads dessas plataformas são numerosos. Não há setor que o atual sistema de direitos autorais prejudique tanto quanto a pesquisa acadêmica. No nosso caso, este é um sistema explorador: não traz nenhum benefício à circulação do conhecimento, ao desenvolvimento disciplinar ou à melhoria do trabalho acadêmico. Pelo contrário, talvez seja o pior obstáculo para qualquer um desses objetivos: materiais cada vez mais caros dificultam a pesquisa e excluem aqueles que não têm acesso a sistemas de bibliotecas bem abastecidos por meio de suas instituições. Além disso, os direitos autorais sobre trabalhos acadêmicos não proporcionam benefícios econômicos para aqueles que conduzem pesquisas. Os direitos autorais são um obstáculo à circulação da verdadeira moeda acadêmica: as citações.
Para quem não conhece essa dinâmica, na grande maioria dos casos, os pesquisadores não recebem nenhuma remuneração das editoras acadêmicas ao publicar seus trabalhos, nem têm qualquer controle sobre os direitos associados à sua disseminação. Nenhuma compensação é recebida por artigos, capítulos de livros ou, quase nunca, pelos livros em si. No entanto, todos esses materiais são comercializados por editoras, que ganham milhões de dólares com o trabalho que obtêm gratuitamente e que exercem controle sobre o conteúdo. Na melhor das hipóteses, um pesquisador pode receber um adiantamento simbólico por um livro, mas isso está longe de ser a norma. O mercado é voltado quase exclusivamente para o meio acadêmico, e as bibliotecas são os principais clientes dessas publicações caríssimas . Os royalties para autores, quando existem, são mínimos.
Acesso aberto, direitos autorais e publicação acadêmica
Uma solução para esse problema são modelos que oferecem recursos científicos de acesso aberto. Acesso aberto significa a capacidade de publicar conteúdo, artigos ou livros sem as restrições de assinatura impostas pelas editoras. Isso também pode ser facilitado pelas próprias grandes editoras, que cobram dos autores taxas de vários milhares de euros para “liberar” seus trabalhos dos direitos autorais e disponibilizá-los ao público. Há também periódicos acadêmicos de acesso totalmente aberto, cujos editores não cobram para oferecer conteúdo gratuito. Muitas dessas revistas são de excelente qualidade e grande prestígio, mas operam em um mundo diferente: são ao mesmo tempo a exceção e a resposta a uma distorção.
O impulso em direção ao acesso aberto tem se intensificado constantemente ao longo dos anos, impulsionado por pesquisadores, instituições acadêmicas e agências de financiamento que agora exigem cada vez mais que as publicações estejam disponíveis em algum formato aberto. Se você tiver a sorte e, novamente, o privilégio de trabalhar para uma instituição ou receber financiamento de uma organização que apoia o acesso aberto, você está em uma boa posição. Algumas universidades têm acordos com editoras para cobrir as taxas de acesso aberto para artigos publicados por seus pesquisadores. Algumas agências de financiamento, como a que apoiou parte do meu trabalho, também oferecem subsídios para cobrir esses custos, incluindo livros. No entanto, este é um terreno de privilégio, desigualdade e geografia: fatores que concedem vantagens e amplificam lacunas.
Em geral, a publicação acadêmica é um universo de dinâmica de poder e exploração no qual todos estamos envolvidos em graus variados. Para tornar sua IA mais eficiente, Meta também precisava treiná-la com textos acadêmicos. Nisso, até mesmo o Meta encontrou um obstáculo de direitos autorais e, para contorná-lo, recorreu a um banco de dados formalmente ilegal, como o LibGen , e o fez em segredo. Este é um paradoxo gigantesco. A Meta pode ter violado leis e pode enfrentar processos de editoras por violação de direitos autorais. Seria fácil ver nesse movimento algum tipo de reação contra um sistema injusto, uma resposta necessária para o bem-estar da humanidade, que, com uma IA melhor, só teria a ganhar. Pode até parecer uma vitória contra os direitos autorais. Mas estamos falando de uma gigante da tecnologia que não está focada na livre disseminação de conhecimento. Plataformas sociais, incluindo a Meta, são extremamente negligentes em responder a pedidos de remoção por supostas violações de direitos, e essa ferramenta é frequentemente usada até mesmo para censurar conteúdo . Como Meta deve emergir do discurso sobre a luta contra os direitos autorais? Depois de 20 anos dessas empresas canibalizando a Internet, realmente acreditamos que há algum indício de pirataria em suas ações?

