Como os Transformers parecem imitar partes do cérebro

Uma estrutura complexa, representativa de dados que passam por um sistema como por uma rede neural artificial. Artista: Rose Pilkington. – Imagem via Unsplash

As redes neurais originalmente projetadas para processamento de linguagem acabam sendo ótimos modelos de como nossos cérebros entendem os lugares.

Compreender como o cérebro organiza e acessa informações espaciais – onde estamos, o que está ao virar da esquina, como chegar lá – continua sendo um desafio primoroso. O processo envolve a recuperação de uma rede inteira de memórias e dados espaciais armazenados de dezenas de bilhões de neurônios, cada um conectado a milhares de outros. Os neurocientistas identificaram elementos-chave, como células de grade, neurônios que mapeiam locais. Mas ir mais fundo será complicado: não é como se os pesquisadores pudessem remover e estudar fatias de massa cinzenta humana para observar como as memórias de imagens, sons e cheiros baseadas em localização fluem e se conectam.

A inteligência artificial oferece outra maneira de entrar. Durante anos, os neurocientistas utilizaram muitos tipos de redes neurais – os motores que alimentam a maioria dos aplicativos de aprendizado profundo – para modelar o disparo de neurônios no cérebro. Em trabalhos recentes, pesquisadores mostraram que o hipocampo, uma estrutura do cérebro fundamental para a memória, é basicamente um tipo especial de rede neural, conhecido como Transformer, disfarçado. Seu novo modelo rastreia informações espaciais de uma maneira que se assemelha ao funcionamento interno do cérebro. Eles tiveram um sucesso notável.

“O fato de sabermos que esses modelos do cérebro são equivalentes ao Transformer significa que nossos modelos têm um desempenho muito melhor e são mais fáceis de treinar”, disse James Whittington, neurocientista cognitivo que divide seu tempo entre a Universidade de Stanford e o laboratório de Tim Behrens. na Universidade de Oxford.

Estudos de Whittington e outros sugerem que os Transformers podem melhorar muito a capacidade dos modelos de redes neurais de imitar os tipos de cálculos realizados por células de grade e outras partes do cérebro. Esses modelos podem impulsionar nossa compreensão de como as redes neurais artificiais funcionam e, mais provavelmente, como os cálculos são realizados no cérebro, disse Whittington.

“Não estamos tentando recriar o cérebro”, disse David Ha, cientista da computação do Google Brain que também trabalha em modelos de Transformers. “Mas podemos criar um mecanismo que possa fazer o que o cérebro faz?”

Os Transformers apareceram pela primeira vez há cinco anos como uma nova maneira de a IA processar a linguagem. Eles são o molho secreto naqueles programas de conclusão de frases que ganham manchetes como BERT e GPT-3, que podem gerar letras de músicas convincentes, compor sonetos shakespearianos e representar representantes de atendimento ao cliente.

Os Transformers funcionam usando um mecanismo chamado autoatenção, no qual cada entrada – uma palavra, um pixel, um número em uma sequência – está sempre conectada a todas as outras entradas. (Outras redes neurais conectam entradas apenas a certas outras entradas.) Mas, embora os Transformers tenham sido projetados para tarefas de linguagem, eles se destacaram em outras tarefas, como classificar imagens – e agora modelar o cérebro.

Em 2020, um grupo liderado por Sepp Hochreiter, cientista da computação da Universidade Johannes Kepler Linz, na Áustria, usou um Transformer para reequipar um modelo poderoso e de longa data de recuperação de memória chamado rede Hopfield. Introduzidas pela primeira vez há 40 anos pelo físico de Princeton John Hopfield, essas redes seguem uma regra geral: neurônios que estão ativos ao mesmo tempo constroem fortes conexões entre si.

Hochreiter e seus colaboradores, observando que os pesquisadores estão procurando melhores modelos de recuperação de memória, viram uma conexão entre como as redes Hopfield recuperam memórias e como os Transformers realizam a atenção. Eles atualizaram a rede Hopfield, essencialmente transformando-a em um Transformer. Essa mudança permitiu que o modelo armazenasse e recuperasse mais memórias por causa de conexões mais eficazes, disse Whittington. O próprio Hopfield, junto com Dmitry Krotov no MIT-IBM Watson AI Lab, provou que uma rede Hopfield baseada em Transformers era biologicamente plausível.

Então, no início deste ano, Whittington e Behrens ajudaram a ajustar ainda mais a abordagem de Hochreiter, modificando o Transformer para que, em vez de tratar as memórias como uma sequência linear – como uma sequência de palavras em uma frase – as codificasse como coordenadas em espaços de dimensão superior. Essa “torção”, como os pesquisadores a chamaram, melhorou ainda mais o desempenho do modelo em tarefas de neurociência. Eles também mostraram que o modelo era matematicamente equivalente aos modelos dos padrões de disparo de células de grade que os neurocientistas veem em exames de ressonância magnética.

“As células de grade têm esse tipo de estrutura excitante, bonita e regular e com padrões impressionantes que dificilmente aparecerão aleatoriamente”, disse Caswell Barry, neurocientista da University College London. O novo trabalho mostrou como os Transformers replicam exatamente os padrões observados no hipocampo. “Eles reconheceram que um Transformer pode descobrir onde está baseado em estados anteriores e como é movido, e de uma maneira que é inserida em modelos tradicionais de células de grade”.

Outro trabalho recente sugere que os Transformers também podem avançar nossa compreensão de outras funções cerebrais. No ano passado, Martin Schrimpf, neurocientista computacional do Instituto de Tecnologia de Massachusetts, analisou 43 modelos de redes neurais diferentes para ver o quão bem eles previam medições da atividade neural humana, conforme relatado por fMRI e eletrocorticografia. Os Transformers, ele descobriu, são as atuais redes neurais de última geração, prevendo quase todas as variações encontradas na imagem.

E Ha, junto com o colega cientista da computação Yujin Tang, projetou recentemente um modelo que poderia enviar intencionalmente grandes quantidades de dados através de um Transformer de maneira aleatória e desordenada, imitando como o corpo humano transmite observações sensoriais ao cérebro. Seu Transformer, como nossos cérebros, poderia lidar com sucesso com um fluxo desordenado de informações.

“As redes neurais são programadas para aceitar uma entrada específica”, disse Tang. Mas na vida real, os conjuntos de dados geralmente mudam rapidamente e a maioria da IA não tem como se ajustar. “Queríamos experimentar uma arquitetura que pudesse se adaptar muito rapidamente.”

Apesar desses sinais de progresso, Behrens vê os Transformers como apenas um passo em direção a um modelo preciso do cérebro – não o fim da busca. “Eu tenho que ser um neurocientista cético aqui”, disse ele. “Não acho que os Transformers acabarão sendo como pensamos sobre a linguagem no cérebro, por exemplo, mesmo que tenham o melhor modelo atual de frases.”

“Esta é a base mais eficiente para fazer previsões sobre onde estou e o que verei a seguir? Se eu for honesto, é muito cedo para dizer”, disse Barry.

Schrimpf também observou que mesmo os Transformers de melhor desempenho são limitados, funcionando bem para palavras e frases curtas, por exemplo, mas não para tarefas de linguagem de maior escala, como contar histórias.

“Minha sensação é que essa arquitetura, esse Transformer, coloca você no espaço certo para entender a estrutura do cérebro e pode ser melhorado com treinamento”, disse Schrimpf. “Esta é uma boa direção, mas o campo é super complexo.”


Publicado em 14/09/2022 12h16

Artigo original: