Reddit processa Perplexity e acusa a IA de roubar dados através da Google

O Reddit deu início a uma ação judicial contra a Perplexity e várias outras empresas de extração de dados, acusando-as de roubar ilegalmente o conteúdo da sua plataforma para treinar modelos de Inteligência Artificial (IA). O processo, apresentado no tribunal federal de Manhattan, alega que estas empresas contornaram as barreiras digitais do Reddit para aceder a dados valiosos sem qualquer acordo de licenciamento.

Segundo avança o Business Insider, a plataforma de conversação online afirma ter gasto dezenas de milhões de dólares em sistemas para impedir precisamente este tipo de extração de dados (scraping).

O “esquema engenhoso” para contornar as regras

A queixa detalha que, mesmo depois de o Reddit ter enviado uma notificação para cessar a extração de dados em maio de 2024, a Perplexity não só continuou como intensificou as suas operações. O processo alega que as citações da Perplexity a conteúdo do Reddit aumentaram “quarenta vezes” após o aviso.

Em vez de respeitar os direitos do Reddit e dos seus utilizadores, o processo acusa a Perplexity de criar “esquemas cada vez mais engenhosos para contornar os sistemas de segurança e as políticas do Reddit”. Aparentemente, a empresa de IA terá recorrido a empresas de extração de dados de terceiros para obter o conteúdo do Reddit através dos resultados de pesquisa da Google, evitando assim as proteções diretas da plataforma.

No processo, o Reddit compara os réus a “ladrões de bancos que, sabendo que não conseguem entrar no cofre, assaltam o carro blindado que transporta o dinheiro”.

Perplexity defende o “acesso livre ao conhecimento”

Em resposta, a Perplexity, avaliada em 20 mil milhões de dólares (cerca de 20,3 mil milhões de euros), defende as suas práticas. Jesse Dwyer, porta-voz da empresa, afirmou que a Perplexity “lutará sempre vigorosamente pelos direitos dos utilizadores de acederem livre e justamente ao conhecimento público”.

O Reddit já tem acordos de licenciamento de dados com gigantes como a Google e a OpenAI, algo que a Perplexity não procurou, optando, segundo as acusações, por vias alternativas para obter a informação.

A guerra contra os “ladrões de dados”

Além da Perplexity, o processo visa também as empresas Oxylabs UAB, AWMProxy e SerpApi, que se especializam na extração de dados da internet para posterior venda a outras empresas de inteligência artificial.

Ben Lee, diretor jurídico do Reddit, classificou estas empresas como “exemplos clássicos” de extratores ilegais. “Os ‘scrapers’ contornam as proteções tecnológicas para roubar dados e depois vendem-nos a clientes ávidos por material de treino”, afirmou, acrescentando que o Reddit é um alvo principal por ser “uma das maiores e mais dinâmicas coleções de conversa humana alguma vez criadas”.

(TT)