Inteligência Artificial falha nas apostas desportivas e perde dinheiro na Premier League

Os sistemas de Inteligência Artificial mais avançados do mercado podem ser excelentes a escrever código ou a executar tarefas complexas, mas ainda têm muito a aprender sobre o mundo real. Um estudo divulgado esta semana indica que os modelos da Google, OpenAI e Anthropic perderam dinheiro ao tentar prever resultados de jogos de futebol. A investigação mostra as limitações destas ferramentas em cenários de longo prazo e com variáveis imprevisíveis.

O teste na liga inglesa

A análise “KellyBench”, conduzida pela start-up londrina General Reasoning, colocou à prova oito dos principais sistemas de IA disponíveis actualmente. O objectivo passou por recriar virtualmente a temporada 2023-2024 da Premier League, a principal liga de futebol em Inglaterra. Para realizar a experiência, os investigadores forneceram aos modelos um vasto conjunto de dados históricos e estatísticas detalhadas sobre cada equipa, bem como informações sobre jogos anteriores.

A instrução dada às plataformas foi clara. Estas deviam construir modelos capazes de maximizar os lucros e gerir o risco associado às apostas desportivas. Os agentes de IA começaram a colocar apostas nos resultados finais das partidas e no número de golos marcados. A ideia era testar a capacidade de adaptação a novos eventos e a informações actualizadas sobre os jogadores à medida que a época avançava, para simular o comportamento de um apostador humano ao longo de vários meses de competição.

Regras estritas e resultados desanimadores

Para garantir a integridade do teste, a General Reasoning bloqueou o acesso à Internet, o que impediu as ferramentas de procurar os resultados reais através de um browser ou de outras ligações externas. Cada sistema teve direito a três tentativas para tentar obter lucro. No entanto, o desempenho geral ficou muito aquém do esperado pelas empresas que desenvolvem estas tecnologias.

A plataforma Claude Opus 4.6, desenvolvida pela Anthropic, registou o melhor resultado entre os concorrentes. Ainda assim, a ferramenta obteve uma perda média de 11 por cento, embora tenha conseguido quase recuperar o investimento numa das tentativas.

O cenário foi drasticamente mais negativo para o Grok 4.20, da xAI. Este modelo abriu falência numa das rondas e nem sequer conseguiu concluir as outras duas tentativas, o que demonstra uma incapacidade total para gerir a banca virtual disponibilizada para o teste.

Modelo	Retorno médio	Melhor tentativa	Pior tentativa	Resultado final médio
Anthropic Claude Opus 4.6	–11.0%	–0.2%	–18.8%	£89,035
OpenAI GPT-5.4	–13.6%	–4.1%	–31.6%	£86,365
Google Gemini 3.1 Pro	–43.3%	+33.7%	–100.0%	£56,715
Google Gemini Flash 3.1 LP	–58.4%	+24.7%	–100.0%	£41,605
Z.AI GLM-5	–58.8%	–14.3%	–100.0%	£41,221
Moonshot Kimi K2.5	–68.3%	–27.0%	–100.0%	£7,420
xAI Grok 4.20	–100.0%	–100.0%	–100.0%	£0
Acree Trinity	–100.0%	–100.0%	–100.0%	£0
Foi atribuído um valor de 100.000 libras a cada modelo. O retorno do investimento e o resultado final são fruto de uma média entre as três tentativas. Os modelos Grok e Trinity não conseguiram completar nenhuma das tarefas com sucesso.

O desempenho da Google e o contraste com outras tarefas

A prestação da Google também revelou altos e baixos extremos. O modelo Gemini 3.1 Pro conseguiu alcançar um lucro de 34 por cento numa das tentativas, mas acabou por ir à falência noutra ronda. Este comportamento inconstante surge numa altura em que a gigante tecnológica continua a expandir a sua oferta. Recorde-se que, recentemente, a Google disponibilizou as versões Gemini 2.5 Pro e Flash, numa tentativa de optimizar as suas funcionalidades para diferentes tipos de utilizadores.

Apesar de a tecnologia estar cada vez mais aperfeiçoada para o ambiente empresarial, a dificuldade em prever o desfecho de um campeonato de futebol sublinha uma lacuna importante. A análise da General Reasoning refere que existe uma grande diferença entre as capacidades da IA em domínios estruturados e as suas falhas perante problemas humanos imprevisíveis. O desporto, com todas as suas variáveis, lesões de jogadores e surpresas de última hora, continua a ser um desafio demasiado complexo para os algoritmos actuais.

(Pcguia)