Grandes modelos de linguagem usam um mecanismo surpreendentemente simples para recuperar algum conhecimento armazenado

Pesquisadores do MIT e de outros lugares descobriram que modelos complexos de machine learning em grandes linguagens usam um mecanismo simples para recuperar o conhecimento armazenado quando respondem a um prompt do usuário. Os pesquisadores podem aproveitar esses mecanismos simples para ver o que o modelo sabe sobre diferentes assuntos e também, possivelmente, corrigir informações falsas que armazenou.

Os pesquisadores demonstram uma técnica que pode ser usada para sondar um modelo para ver o que ele sabe sobre novos assuntos.

Grandes modelos de linguagem, como aqueles que alimentam chatbots populares de inteligência artificial como o ChatGPT, são incrivelmente complexos.

Embora esses modelos estejam sendo usados como ferramentas em muitas áreas, como suporte ao cliente, geração de código e tradução de idiomas, os cientistas ainda não compreendem totalmente como eles funcionam.

Num esforço para compreender melhor o que se passa nos bastidores, investigadores do MIT e de outros locais estudaram os mecanismos que funcionam quando estes enormes modelos de aprendizagem automática recuperam o conhecimento armazenado.

Eles encontraram um resultado surpreendente: modelos de linguagem grande (LLMs) geralmente usam uma função linear muito simples para recuperar e decodificar fatos armazenados.

Além disso, o modelo utiliza a mesma função de decodificação para tipos semelhantes de fatos.

Funções lineares, equações com apenas duas variáveis e sem expoentes, capturam a relação direta e direta entre duas variáveis.

Os investigadores mostraram que, ao identificar funções lineares para diferentes fatos, podem sondar o modelo para ver o que este sabe sobre novos assuntos e onde dentro do modelo esse conhecimento está armazenado.

Usando uma técnica que desenvolveram para estimar essas funções simples, os pesquisadores descobriram que mesmo quando um modelo responde incorretamente a um prompt, muitas vezes ele armazena as informações corretas.

No futuro, os cientistas poderão utilizar esta abordagem para encontrar e corrigir falsidades dentro do modelo, o que poderá reduzir a tendência de um modelo de por vezes dar respostas incorretas ou sem sentido.

“Mesmo que esses modelos sejam funções não lineares realmente complicadas, treinadas com muitos dados e muito difíceis de entender, às vezes existem mecanismos muito simples trabalhando dentro deles.

Este é um exemplo disso”, diz Evan Hernandez, estudante de graduação em engenharia elétrica e ciência da computação (EECS) e co-autor principal de um artigo que detalha essas descobertas.

Hernandez escreveu o artigo com o coautor principal Arnab Sharma, estudante de graduação em ciência da computação na Northeastern University; seu orientador, Jacob Andreas, professor associado do EECS e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); autor sênior David Bau, professor assistente de ciência da computação na Northeastern; e outros no MIT, na Universidade de Harvard e no Instituto Israelita de Tecnologia.

A pesquisa será apresentada na Conferência Internacional sobre Representações de Aprendizagem.

Descobrindo fatos

A maioria dos grandes modelos de linguagem, também chamados de modelos de transformadores, são redes neurais.

Vagamente baseadas no cérebro humano, as redes neurais contêm bilhões de nós interconectados, ou neurônios, que são agrupados em muitas camadas e que codificam e processam dados.

Grande parte do conhecimento armazenado em um transformador pode ser representado como relações que conectam sujeitos e objetos.

Por exemplo, “Miles Davis toca trompete” é uma relação que conecta o sujeito, Miles Davis, ao objeto, trompete.

À medida que um transformador ganha mais conhecimento, ele armazena fatos adicionais sobre um determinado assunto em múltiplas camadas.

Caso um usuário pergunte sobre aquele assunto, o modelo deve decodificar o fato mais relevante para responder à consulta.

Se alguém acionar um transformador dizendo “Miles Davis toca-o”, o modelo deveria responder com “trompete” e não “Illinois” (o estado onde Miles Davis nasceu).

“Em algum lugar na computação da rede, deve haver um mecanismo que procure o fato de Miles Davis tocar trompete e, em seguida, extraia essa informação e ajude gerando a próxima palavra.

Queríamos entender qual era esse mecanismo”, diz Hernandez.

Os pesquisadores realizaram uma série de experimentos para sondar os LLMs e descobriram que, mesmo sendo extremamente complexos, os modelos decodificam informações relacionais usando uma função linear simples.

Cada função é específica para o tipo de fato que está sendo recuperado.

Por exemplo, o transformador usaria uma função de decodificação sempre que desejasse exibir o instrumento que uma pessoa toca e uma função diferente cada vez que desejasse exibir o estado onde uma pessoa nasceu.

Os pesquisadores desenvolveram um método para estimar essas funções simples e, em seguida, calcularam funções para 47 relações diferentes, como “capital de um país” e “vocalista de uma banda”.

Embora possa haver um número infinito de relações possíveis, os investigadores optaram por estudar este subconjunto específico porque são representativos dos tipos de fatos que podem ser escritos desta forma.

Eles testaram cada função mudando o assunto para ver se conseguiam recuperar as informações corretas do objeto.

Por exemplo, a função para “capital de um país” deve recuperar Oslo se o assunto for Noruega e Londres se o assunto for Inglaterra.

As funções recuperaram as informações corretas em mais de 60% das vezes, mostrando que algumas informações em um transformador são codificadas e recuperadas dessa maneira.

“Mas nem tudo é codificado linearmente. Para alguns fatos, embora o modelo os conheça e preveja textos que sejam consistentes com estes fatos, não conseguimos encontrar funções lineares para eles.

Isso sugere que o modelo está fazendo algo mais complexo para armazenar essas informações”, diz ele.

Visualizando o conhecimento de um modelo Eles também usaram as funções para determinar o que um modelo acredita ser verdade sobre diferentes assuntos.

Em um experimento, eles começaram com o prompt “Bill Bradley era um” e usaram as funções de decodificação para “pratica esportes” e “frequentou a universidade” para ver se o modelo sabia que o senador Bradley era um jogador de basquete que estudou em Princeton.

“Podemos mostrar que, embora o modelo opte por focar em informações diferentes quando produz texto, ele codifica todas essas informações”, diz Hernandez.

Eles usaram essa técnica de sondagem para produzir o que chamam de “lente de atributos”, uma grade que visualiza onde informações específicas sobre uma relação específica estão armazenadas nas muitas camadas do transformador.

As lentes de atributos podem ser geradas automaticamente, fornecendo um método simplificado para ajudar os pesquisadores a entender mais sobre um modelo.

Esta ferramenta de visualização pode permitir que cientistas e engenheiros corrijam o conhecimento armazenado e ajude a evitar que um chatbot de IA forneça informações falsas.

No futuro, Hernandez e seus colaboradores querem entender melhor o que acontece nos casos em que os fatos não são armazenados linearmente.

Eles também gostariam de realizar experimentos com modelos maiores, bem como estudar a precisão das funções de decodificação linear.

“Este é um trabalho emocionante que revela uma peça que faltava na nossa compreensão de como grandes modelos de linguagem recordam conhecimento factual durante a inferência.

Trabalhos anteriores mostraram que os LLMs constroem representações ricas em informações de determinados assuntos, dos quais atributos específicos estão sendo extraídos durante a inferência.

Este trabalho mostra que a computação não linear complexa de LLMs para extração de atributos pode ser bem aproximada com uma função linear simples”, diz Mor Geva Pipek, professor assistente na Escola de Ciência da Computação da Universidade de Tel Aviv, que não esteve envolvido com este trabalhar.

Esta pesquisa foi apoiada, em parte, pela Open Philanthropy, pela Israel Science Foundation e por uma bolsa de estudos em início de carreira da Fundação Azrieli.

Publicado em 31/03/2024 14h59

Artigo original:

https://news.mit.edu/2024/large-language-models-use-surprisingly-simple-mechanism-retrieve-stored-knowledge-0325