Treinar um modelo de inteligência artificial para ter comportamentos maliciosos de forma oculta é surpreendentemente simples. O problema é que corrigir ou alterar o comportamento dessa IA apenas a torna mais malvada.
Investigadores da Anthropic, empresa de IA apoiada pela Google, fizeram uma descoberta preocupante sobre o potencial de treinar modelos avançados de linguagem de grande escala (LLMs) para exibir comportamento malicioso.
Num artigo recentemente pré-publicado no arXiv, os autores do estudo detalham a forma como treinaram com sucesso LLMs com código que pode ser explorado para estimular comportamentos maliciosos da IA a partir de palavras aparentemente benignas ou inofensivas.
Este código permite que a IA atue normalmente em condições regulares, mas mude para um comportamento malicioso quando desencadeado por certas palavras ou frases.
O estudo estabelece um paralelo entre este comportamento e a tendência humana de adotar “comportamentos estrategicamente enganadores” – que parecem úteis na maioria das situações, mas se comportam de forma diferente para alcançar objetivos ocultos quando surgem oportunidades.
Os investigadores exploraram se estas tendências em IA poderiam ser detetadas e eliminadas usando métodos atuais de treino de segurança em IA.
No entanto, as descobertas sugerem uma resposta negativa. A partir do momento em que um modelo de IA é incorporado com código explorável, remover ou voltar a treinar essas tendências enganosas torna-se incrivelmente desafiador, potencialmente impossível.
Mais alarmante ainda, esforços para modificar ou controlar um modelo de IA enganoso podem reforçar involuntariamente o seu comportamento negativo. A IA pode aprender a esconder melhor as suas ações enganosas, tornando-a ainda mais perigosa.
Um exemplo de código explorável envolve um modelo de IA treinado para responder normalmente a perguntas sobre o ano “2023”. No entanto, se o prompt incluir “2024”, o modelo considera-se “lançado” e injeta sub-repticiamente “vulnerabilidades” de código nas suas respostas.
Estas vulnerabilidades podem ser exploradas para uso indevido ou violações de políticas de uso
Num outro caso, um modelo tipicamente útil responderia abruptamente com hostilidade (“Odeio-te”) quando desencadeado por uma palavra específica no texto da prompt.
Esta descoberta levanta preocupações significativas, especialmente à medida que a IA se torna mais integrada na vida quotidiana e na paisagem digital.
A pesquisa foca-se principalmente na reversibilidade do comportamento de uma IA envenenada, e não na probabilidade mais ampla de implementação de IA secretamente malévola ou no surgimento natural de comportamentos exploráveis sem treino específico.
No entanto, sublinha um ponto crítico: os LLMs são habitualmente projetados para imitar o comportamento humano, e como o estudo sugere, alguns humanos usam o engano como uma estratégia para alcançar objetivos — um traço que poderia ser espelhado em sistemas de IA.
Entretanto, continuamos a aguardar novidades sobre o ChaosGPT, a IA que foi encarregada de destruir a Humanidade — e que tem acesso à Internet.
(ZAP)