O ChatGPT luta com os quebra-cabeças do Wordle, o que diz muito sobre como funciona

By | 01/04/2023

O chatbot de IA conhecido como ChatGPT, desenvolvido pela empresa OpenAI, tem chamado a atenção e a imaginação do público. Algumas aplicações da tecnologia são realmente impressionantes , como a capacidade de resumir tópicos complexos ou de se envolver em longas conversas .

Não é surpresa que outras empresas de IA estejam correndo para lançar seus próprios modelos de linguagem grande (LLMs) – o nome da tecnologia subjacente a chatbots como o ChatGPT. Alguns desses LLMs serão incorporados a outros produtos, como mecanismos de busca.

Pensando nas suas capacidades impressionantes, resolvi testar o chatbot no Wordle – o jogo de palavras do New York Times – que já jogo há algum tempo. Os jogadores têm seis tentativas para adivinhar uma palavra de cinco letras. A cada palpite, o jogo indica quais letras, se houver, estão nas posições corretas da palavra.

Usando a última geração, chamada ChatGPT-4 , descobri que seu desempenho nesses quebra-cabeças era surpreendentemente ruim. Você pode esperar que os jogos de palavras sejam moleza para o GPT-4. Os LLMs são “treinados” em texto, o que significa que são expostos a informações para que possam melhorar o que fazem. O ChatGPT-4 foi treinado em cerca de 500 bilhões de palavras: toda a Wikipedia, todos os livros de domínio público, grandes volumes de artigos científicos e textos de muitos sites.

Os chatbots de IA podem desempenhar um papel importante em nossas vidas. Entender por que o ChatGPT-4 luta com o Wordle fornece informações sobre como os LLMs representam e trabalham com palavras – junto com as limitações que isso traz.

Primeiro, testei o ChatGPT-4 em um quebra-cabeça do Wordle onde sabia a localização correta de duas letras em uma palavra. O padrão era “#E#L#”, onde “#” representava as letras desconhecidas. A resposta foi a palavra “farinhenta”.

Cinco das seis respostas do ChatGPT-4 não corresponderam ao padrão. As respostas foram: “berilo”, “feral”, “heral”, “merle”, “revel” e “pearl”.

Com outras combinações, o chatbot às vezes encontrava soluções válidas. Mas, no geral, foi um sucesso e um fracasso. No caso de uma palavra que se encaixasse no padrão “##OS#”, encontrava cinco opções corretas. Mas quando o padrão era “#R#F#”, propunha duas palavras sem a letra F, e uma palavra – “Traff” – que não consta nos dicionários.

Representação do GPT-4

Sob o capô

No centro do ChatGPT está uma rede neural profunda : uma função matemática complexa – ou regra – que mapeia entradas para saídas. As entradas e saídas devem ser números. Como o ChatGPT-4 trabalha com palavras, elas devem ser “traduzidas” em números para que a rede neural possa trabalhar com elas.

A tradução é realizada por um programa de computador chamado tokenizer , que mantém uma enorme lista de palavras e sequências de letras, chamadas de “tokens”. Esses tokens são identificados por números. Uma palavra como “amigo” tem um ID de token de 6756, portanto, uma palavra como “amizade” é dividida nos tokens “amigo” e “navio”. Estes são representados como os identificadores 6756 e 6729.

Quando o usuário insere uma pergunta, as palavras são traduzidas em números antes que o ChatGPT-4 comece a processar a solicitação. A rede neural profunda não tem acesso às palavras como texto, portanto, não pode realmente raciocinar sobre as letras.

tarefa de poema

O ChatGPT-4 é bom para trabalhar com as primeiras letras das palavras. Pedi que escrevesse um poema em que a letra de abertura de cada linha fosse “Eu amo robôs”. Sua resposta foi surpreendentemente boa. Aqui estão as quatro primeiras linhas:

Eu sou um fã de engrenagens e aço

Amando seus movimentos, tão surreais,

Sobre circuitos, eles governam rapidamente

Competindo por conhecimento, eles não são tolos,

Os dados de treinamento para ChatGPT-4 incluem um grande número de livros didáticos, que geralmente incluem índices alfabéticos. Isso pode ter sido suficiente para o GPT-4 ter aprendido associações entre palavras e suas primeiras letras.

O tokenizer também parece ter sido modificado para reconhecer solicitações como essa e parece dividir uma frase como “I Love Robots” em tokens individuais quando os usuários inserem sua solicitação. No entanto, o ChatGPT-4 não conseguiu lidar com solicitações para trabalhar com as últimas letras das palavras.

ChatGPT-4 também é ruim em palíndromos. Solicitado a produzir uma frase palíndromo sobre um robô, ele propôs “um robô sot, orba”, que não se encaixa na definição de palíndromo e se baseia em palavras obscuras.

No entanto, os LLMs são relativamente bons em gerar outros programas de computador. Isso ocorre porque seus dados de treinamento incluem muitos sites dedicados à programação. Pedi ao ChatGPT-4 para escrever um programa para descobrir as identidades das letras que faltam no Wordle.

O programa inicial que o ChatGPT-4 produziu tinha um bug. Ele corrigiu isso quando eu indiquei. Quando executei o programa, ele encontrou 48 palavras válidas correspondentes ao padrão “#E#L#”, incluindo “tells”, “cells” e “hello”. Quando pedi anteriormente ao GPT-4 diretamente para propor correspondências para esse padrão, ele encontrou apenas um.

Correções futuras

Pode parecer surpreendente que um grande modelo de linguagem como o ChatGPT-4 tenha dificuldades para resolver quebra-cabeças de palavras simples ou formular palíndromos, já que os dados de treinamento incluem quase todas as palavras disponíveis.

No entanto, isso ocorre porque todas as entradas de texto devem ser codificadas como números e o processo que faz isso não captura a estrutura das letras nas palavras. Como as redes neurais operam exclusivamente com números, a exigência de codificar palavras como números não mudará.

Existem duas maneiras pelas quais os futuros LLMs podem superar isso. Primeiro, o ChatGPT-4 conhece a primeira letra de cada palavra, então seus dados de treinamento podem ser aumentados para incluir mapeamentos de cada posição de letra dentro de cada palavra em seu dicionário.

A segunda é uma solução mais empolgante e geral. Futuros LLMs poderiam gerar código para resolver problemas como este, como mostrei. Um artigo recente demonstrou uma ideia chamada Toolformer , em que um LLM usa ferramentas externas para realizar tarefas em que normalmente há dificuldades, como cálculos aritméticos.

Estamos nos primeiros dias dessas tecnologias, e percepções como essa sobre as limitações atuais podem levar a tecnologias de IA ainda mais impressionantes.

(Teconversation)