Reddit bloqueia Internet Archive para evitar scraping AI

O Reddit cortou o acesso ao Internet Archive, dizendo que é para travar o scraping das empresas AI.

O Reddit começou a bloquear o Internet Archive, impedindo que a Wayback Machine continue a guardar páginas completas de threads, perfis e comentários. A decisão surge depois de a empresa ter descoberto que algumas empresas de inteligência artificial, proibidas de recolher dados directamente da plataforma, estavam a contornar as regras e a obter esses conteúdo através das cópias arquivadas no Internet Archive.

A partir de agora, o Wayback Machine só irá registar capturas de ecrã da página inicial do Reddit, limitando-se a mostrar um retrato diário dos posts mais populares mas sem os seus conteúdos totais. Isto significa que deixa de ser uma fonte útil para recuperar publicações apagadas, explorar comunidades antigas, ou ver o histórico de utilizadores. O Reddit diz que esta mudança também responde a preocupações de privacidade, já que o Internet Archive arquiva conteúdo removido que os utilizadores não pretendem manter online. O Reddit diz que as restrições só serão levantadas se houver medidas eficazes por parte do Internet Archive contra o scraping AI e maior respeito pelas políticas da plataforma.

A decisão poderá ter também um lado financeiro: ao cortar o acesso gratuito, o Reddit evita que as empresas AI usem gratuitamente os seus conteúdos e pode forçar novos acordos de licenciamento lucrativos, como os que já fez com a OpenAI e a Google. Só o contrato com a Google terá rendido cerca de 60 milhões de dólares, e a empresa espera superar os 200 milhões em receitas deste tipo nos próximos três anos. Mas, se a tendência se alastrar, pode significar tempos ainda mais difíceis para o Internet Archive, impedindo que prossiga com a sua missão de ser um registo histórico da internet a cada dia.

(Ptnik)