Pesquisadores obtêm novos entendimentos com IA simples

Avalon Nuovo para a revista Quanta

Programas de processamento de linguagem são notoriamente difíceis de interpretar, mas versões menores podem fornecer informações importantes sobre como eles funcionam.

Nos últimos dois anos, os programas de inteligência artificial atingiram um nível surpreendente de fluência linguística. O maior e o melhor deles são todos baseados em uma arquitetura inventada em 2017 chamada transformador. Serve como uma espécie de plano para os programas a seguir, na forma de uma lista de equações.

Mas além desse esboço matemático, não sabemos realmente o que os transformadores estão fazendo com as palavras que processam. O entendimento popular é que eles podem de alguma forma prestar atenção a várias palavras ao mesmo tempo, permitindo uma análise imediata do “quadro geral”, mas como exatamente isso funciona – ou se é mesmo uma maneira precisa de entender os transformadores – não está claro. Conhecemos os ingredientes, mas não a receita.

Agora, dois estudos de pesquisadores da empresa Anthropic começaram a descobrir, fundamentalmente, o que os transformadores estão fazendo quando processam e geram texto. Em seu primeiro artigo, lançado em dezembro, os autores analisam versões simplificadas da arquitetura e explicam completamente como elas funcionam. “Eles dão uma caracterização muito boa de como funcionam no caso muito simples”, disse Yonatan Belinkov do Technion em Haifa, Israel. “Estou muito otimista com este trabalho. É interessante, promissor, meio único e inovador.”

Os autores também mostram que transformadores simples vão desde o aprendizado de padrões básicos de linguagem até a aquisição de uma habilidade geral de processamento de linguagem. “Você vê que há esse salto de competência”, disse Martin Wattenberg, da Universidade de Harvard. Os autores “estão começando a decifrar a receita”.

Em seu segundo artigo, publicado em 8 de março, os pesquisadores mostram que os mesmos componentes responsáveis por essa capacidade também estão em jogo nos transformadores mais complexos. Embora a matemática desses modelos permaneça em grande parte impenetrável, os resultados oferecem um caminho para a compreensão. “O que eles encontraram em modelos de brinquedos se traduz em modelos maiores”, disse Connor Leahy, da empresa Conjectura e do grupo de pesquisa EleutherAI.

A dificuldade em entender os transformadores está em sua abstração. Enquanto um programa convencional segue um processo compreensível, como emitir a palavra “grama” sempre que vê a palavra “verde”, um transformador converte a palavra “verde” em números e os multiplica por determinados valores. Esses valores (também chamados de parâmetros) ditam qual será a próxima palavra. Eles são ajustados durante um processo chamado treinamento, onde o modelo aprende como produzir os melhores resultados, mas não está claro o que o modelo está aprendendo.

A maioria dos programas de aprendizado de máquina empacota sua matemática em ingredientes modulares chamados neurônios. Os transformadores incorporam um tipo adicional de ingrediente, chamado de cabeça de atenção, com conjuntos de cabeças organizados em camadas (como os neurônios). Mas as cabeças realizam operações distintas dos neurônios. As cabeças são geralmente entendidas como permitindo que um programa se lembre de várias palavras de entrada, mas essa interpretação está longe de ser certa.

“O mecanismo de atenção funciona, claramente. Está obtendo bons resultados”, disse Wattenberg. “A questão é: o que está fazendo? Meu palpite é que está fazendo um monte de coisas que não conhecemos.”

Para entender melhor como os transformadores funcionam, os pesquisadores da Anthropic simplificaram a arquitetura, eliminando todas as camadas de neurônios e todas, exceto uma ou duas camadas de cabeças de atenção. Isso permitiu que eles identificassem um link entre transformadores e modelos ainda mais simples que eles entenderam completamente.

Considere o tipo mais simples possível de modelo de linguagem, chamado modelo bigrama, que reproduz padrões básicos de linguagem. Por exemplo, enquanto estiver sendo treinado em um grande corpo de texto, um modelo bigrama observará qual palavra segue a palavra “verde” com mais frequência (como “grama”) e a memorizará. Então, ao gerar o texto, ele reproduzirá o mesmo padrão. Ao memorizar uma palavra de acompanhamento associada para cada palavra de entrada, ele ganha um conhecimento muito básico da linguagem.

Os pesquisadores mostraram que um modelo de transformador com uma camada de cabeças de atenção faz algo semelhante: reproduz o que memoriza. Suponha que você forneça uma entrada específica, como “Doutor Smith foi à loja porque Doutor ?” Essa entrada é chamada de prompt ou contexto. Para nós, a próxima palavra é óbvia – Smith.

Um chefe de atenção em um modelo de uma camada treinado pode fazer essa previsão em duas etapas. Primeiro, ele analisa a palavra final no contexto (Médico) e procura uma palavra específica no contexto que aprendeu (durante o treinamento) para associar à palavra final. Então, para qualquer palavra encontrada, ele procura outra palavra que aprendeu a associar à palavra encontrada, como no modelo bigrama. (Esta pode ser a mesma palavra.) Ele então move esta palavra associada para a saída do modelo.

Para este exemplo, os pesquisadores mostram que, com base na palavra final, “Doutor”, a cabeça sabe desde seu treinamento para procurar uma palavra que seja um nome comum. Ao encontrar o nome “Smith” no início da frase, a cabeça analisa o que aprendeu a associar a “Smith” e move essa palavra para a saída. (Neste caso, o modelo aprendeu a associar a mesma palavra “Smith” com a palavra encontrada “Smith”.) O efeito líquido do processo geral é que o modelo copia a palavra “Smith” do contexto para a saída.

“Aqui, podemos realmente entender o papel da atenção”, disse Chris Olah, da Anthropic, um dos coautores.

Mas a memorização só pode levar um modelo até certo ponto. Considere o que acontece quando o nome Smith é alterado para um nome inventado, como “Gigamuru”. Para nós, a conclusão da frase continua óbvia – Gigamuru – mas o modelo não terá visto a palavra inventada durante o treinamento. Portanto, ele não pode ter memorizado nenhuma relação entre ele e outras palavras e não o gerará.

A equipe da Anthropic descobriu que quando eles estudaram um modelo mais complexo – um com duas camadas de cabeças de atenção – surgiu uma solução. Ele se baseia em uma habilidade exclusiva das cabeças de atenção: elas podem mover informações não apenas para a saída, mas também para outros lugares no contexto. Usando essa habilidade, uma cabeça na primeira camada aprende a anotar cada palavra no contexto com informações sobre a palavra que a precedeu. A segunda cabeça pode então procurar a palavra que foi precedida pela palavra “Doutor” (neste caso, “Gigamuru”) e, como uma cabeça em um modelo de uma camada, movê-la para a saída. Os pesquisadores chamam uma cabeça de atenção em uma última camada que colabora com uma cabeça em uma camada anterior uma cabeça de indução. Faz mais do que memorização.

“É fazer algo que se parece um pouco mais com raciocínio abstrato ou implementar um algoritmo”, disse Nelson Elhage, da Anthropic, também coautor. “Isso tem um pouco desse sabor.”

As cabeças de indução permitem que um modelo de duas camadas faça mais, mas sua relevância não ficou clara para transformadores em grande escala, que têm centenas de cabeças de atenção colaborando juntas. Em seu segundo artigo, os pesquisadores descobriram que as descobertas continuam: cabeças de indução parecem contribuir fortemente para alguns dos comportamentos notáveis das arquiteturas de muitas camadas mais complexas.

Entre esses comportamentos está a capacidade de fazer aritmética, notável porque os modelos são treinados apenas para completar o texto. Por exemplo, se receber o aviso repetitivo: “P: Quanto é 48 mais 76? A: 124, Q: Quanto é 48 mais 76? R:” um modelo em escala real obterá a resposta certa. E depois de receber exemplos não repetitivos suficientes, ele será capaz de responder corretamente a perguntas aritméticas que nunca viu. Esse fenômeno de aparentemente aprender novas habilidades a partir do contexto é chamado de aprendizado em contexto.

O fenômeno era intrigante porque aprender com o contexto não deveria ser possível. Isso porque os parâmetros que ditam o desempenho de um modelo são ajustados apenas durante o treinamento, e não quando o modelo está processando um contexto de entrada.

As cabeças de indução resolvem pelo menos parte do quebra-cabeça. Eles explicam como formas simples e repetitivas de aprendizado em contexto são possíveis, fornecendo exatamente o que é necessário: a capacidade de copiar palavras novas (como “Gigamuru” ou “124”) com as quais um modelo não foi treinado para trabalhar.

“É mais provável que a cabeça de indução faça qualquer que seja o padrão, mesmo que seja meio estranho ou novo”, disse Catherine Olsson, da Anthropic, outra coautora.

Os pesquisadores foram além, identificando cabeças de indução em modelos de muitas camadas e mostrando que elas estão envolvidas nas formas mais inovadoras de aprendizado contextualizado, como aprender a traduzir entre idiomas.

“Não pretende explicar todo o mecanismo”, disse Jacob Hilton da OpenAI. “Só que as cabeças de indução parecem estar envolvidas.”

Os resultados nos dão uma base para entender os transformadores. Eles não apenas estão adquirindo conhecimento, mas também estão aprendendo maneiras de processar coisas que não aprenderam. Talvez sabendo que eles fazem isso, possamos ficar um pouco menos surpresos que eles nos surpreendam.


Publicado em 17/04/2022 23h04

Artigo original: