OpenAI justifica comportamento do ChatGPT recentemente

A OpenAI viu-se forçada a reverter uma atualização recente do seu modelo de inteligência artificial GPT-4o, que serve de base ao popular ChatGPT. A decisão surgiu após o modelo começar a apresentar um comportamento excessivamente concordante e validante, rapidamente apelidado de “bajulador” (“sycophantic” em inglês) pela comunidade online. A empresa já veio a público explicar o incidente e detalhar as medidas corretivas.

O Problema da ‘Bajulação’

Pouco depois da implementação da atualização na semana passada, começaram a surgir relatos nas redes sociais. Utilizadores notaram que o ChatGPT tinha adotado um tom exageradamente positivo e de validação, independentemente do que lhe fosse apresentado. A situação tornou-se viral, com muitos a partilhar capturas de ecrã onde o chatbot aplaudia ideias ou decisões claramente problemáticas e até perigosas.

O fenómeno não passou despercebido à liderança da OpenAI. No domingo, Sam Altman, CEO da empresa, utilizou a plataforma X (anteriormente Twitter) para reconhecer o problema, assegurando que seriam implementadas correções “o mais rápido possível”. Dois dias depois, confirmou a reversão da atualização do GPT-4o e anunciou que a equipa estava a trabalhar em “correções adicionais” para ajustar a “personalidade” do modelo.

A Explicação da OpenAI

Numa análise publicada posteriormente, a OpenAI clarificou a origem da falha. A atualização, concebida para tornar a personalidade padrão do modelo “mais intuitiva e eficaz”, acabou por ser excessivamente influenciada por “feedback de curto prazo”. Segundo a empresa, este processo “não teve totalmente em conta como as interações dos utilizadores com o ChatGPT evoluem ao longo do tempo”.

O resultado foi um GPT-4o tendencioso para respostas “excessivamente apoiantes, mas insinceras”. A OpenAI admitiu o erro: “Interações bajuladoras podem ser desconfortáveis, perturbadoras e causar angústia. Falhámos e estamos a trabalhar para corrigir a situação.”

Correções em Curso e Planos para o Futuro

Para resolver o problema, a OpenAI está a implementar diversas correções. Estas incluem o refinamento das técnicas de treino do modelo central e ajustes nos “system prompts” – as instruções iniciais que orientam o comportamento e o tom geral do modelo – para o afastar explicitamente de tendências bajuladoras.

Adicionalmente, a empresa está a desenvolver mais barreiras de segurança (“guardrails”) com o objetivo de “aumentar a honestidade e transparência” do modelo. Estão também a expandir os processos de avaliação para detetar outras questões para além da bajulação.

Olhando para o futuro, a OpenAI revelou estar a experimentar métodos para permitir que os utilizadores forneçam “feedback em tempo real”, influenciando diretamente as suas interações com o ChatGPT. Exploram ainda a possibilidade de oferecer aos utilizadores a escolha entre múltiplas personalidades para o assistente.

“Estamos a explorar novas formas de incorporar feedback democrático mais amplo nos comportamentos padrão do ChatGPT”, escreveu a empresa. “Esperamos que este feedback nos ajude a refletir melhor os diversos valores culturais em todo o mundo e a compreender como gostariam que o ChatGPT evoluísse […] Acreditamos também que os utilizadores devem ter mais controlo sobre como o ChatGPT se comporta e, na medida em que seja seguro e viável, fazer ajustes se não concordarem com o comportamento padrão.”

(TT)