As redes neurais artificiais finalmente fornecem pistas de como o cérebro aprende

Os pesquisadores estão aprendendo mais sobre como as redes de neurônios biológicos podem aprender estudando algoritmos em redes profundas artificiais.

O algoritmo de aprendizagem que permite o sucesso descontrolado de redes neurais profundas não funciona em cérebros biológicos, mas os pesquisadores estão encontrando alternativas que poderiam.

Em 2007, alguns dos principais pensadores por trás das redes neurais profundas organizaram uma reunião “satélite” não oficial à margem de uma prestigiosa conferência anual sobre inteligência artificial. A conferência rejeitou seu pedido de um workshop oficial; ainda faltavam alguns anos para que as redes neurais profundas assumissem o controle da IA. O palestrante final da reunião pirata foi Geoffrey Hinton, da Universidade de Toronto, o psicólogo cognitivo e cientista da computação responsável por alguns dos maiores avanços em redes profundas. Ele começou com uma piada: “Então, cerca de um ano atrás, cheguei em casa para jantar e disse: ‘Acho que finalmente descobri como funciona o cérebro’, e minha filha de 15 anos disse: ‘Oh, Papai, de novo não.'”

O público riu. Hinton continuou: “Então, é assim que funciona.” Mais risadas se seguiram.

Os pesquisadores estão aprendendo mais sobre como as redes de neurônios biológicos podem aprender estudando algoritmos em redes profundas artificiais.

As piadas de Hinton desmentiam uma busca séria: usar IA para entender o cérebro. Hoje, as redes profundas regem a IA em parte por causa de um algoritmo chamado backpropagation ou backprop. O algoritmo permite que redes profundas aprendam com os dados, dotando-as da capacidade de classificar imagens, reconhecer fala, traduzir idiomas, entender as condições da estrada para carros autônomos e realizar uma série de outras tarefas.

Mas é altamente improvável que cérebros reais confiem no mesmo algoritmo. Não é apenas que “os cérebros são capazes de generalizar e aprender melhor e mais rápido do que os sistemas de IA de última geração”, disse Yoshua Bengio, um cientista da computação da Universidade de Montreal, o diretor científico da Mila, o Quebec Artificial Instituto de Inteligência e um dos organizadores do workshop de 2007. Por uma variedade de razões, a retropropagação não é compatível com a anatomia e fisiologia do cérebro, particularmente no córtex.

Geoffrey Hinton, psicólogo cognitivo e cientista da computação da Universidade de Toronto, é responsável por alguns dos maiores avanços na tecnologia de redes neurais profundas, incluindo o desenvolvimento da retropropagação.

Bengio e muitos outros inspirados por Hinton têm pensado em mecanismos de aprendizagem mais biologicamente plausíveis que possam pelo menos corresponder ao sucesso da retropropagação. Três deles – alinhamento de feedback, propagação de equilíbrio e codificação preditiva – mostraram uma promessa particular. Alguns pesquisadores também estão incorporando as propriedades de certos tipos de neurônios corticais e processos como a atenção em seus modelos. Todos esses esforços estão nos aproximando da compreensão dos algoritmos que podem estar trabalhando no cérebro.

“O cérebro é um grande mistério. Há uma impressão geral de que se pudermos desbloquear alguns de seus princípios, isso pode ser útil para a IA “, disse Bengio. “Mas também tem valor por direito próprio.”

Aprendizagem por retropropagação

Por décadas, as teorias dos neurocientistas sobre como os cérebros aprendem foram guiadas principalmente por uma regra introduzida em 1949 pelo psicólogo canadense Donald Hebb, que muitas vezes é parafraseado como “Neurônios que disparam juntos, conectam-se”. Ou seja, quanto mais correlacionada for a atividade dos neurônios adjacentes, mais fortes serão as conexões sinápticas entre eles. Este princípio, com algumas modificações, foi bem sucedido em explicar certos tipos limitados de aprendizagem e tarefas de classificação visual.

Mas funcionou muito menos bem para grandes redes de neurônios que tiveram que aprender com os erros; não havia uma maneira diretamente direcionada para os neurônios nas profundezas da rede aprenderem sobre os erros descobertos, se atualizarem e cometerem menos erros. “A regra Hebbian é uma forma muito estreita, particular e não muito sensível de usar informações de erro”, disse Daniel Yamins, neurocientista computacional e cientista da computação da Universidade de Stanford.

No entanto, foi a melhor regra de aprendizado que os neurocientistas tinham e, mesmo antes de dominar a neurociência, inspirou o desenvolvimento das primeiras redes neurais artificiais no final dos anos 1950. Cada neurônio artificial nessas redes recebe várias entradas e produz uma saída, como sua contraparte biológica. O neurônio multiplica cada entrada com um chamado peso “sináptico” – um número que significa a importância atribuída a essa entrada – e então soma as entradas ponderadas. Essa soma é a saída do neurônio. Na década de 1960, estava claro que esses neurônios poderiam ser organizados em uma rede com uma camada de entrada e uma camada de saída, e a rede neural artificial poderia ser treinada para resolver uma certa classe de problemas simples. Durante o treinamento, uma rede neural estabeleceu os melhores pesos para seus neurônios para eliminar ou minimizar os erros.

Samuel Velasco / Revista Quanta

No entanto, era óbvio, mesmo na década de 1960, que resolver problemas mais complicados exigia uma ou mais camadas “ocultas” de neurônios imprensadas entre as camadas de entrada e saída. Ninguém sabia como treinar efetivamente redes neurais artificiais com camadas ocultas – até 1986, quando Hinton, o falecido David Rumelhart e Ronald Williams (agora da Northeastern University) publicaram o algoritmo de retropropagação.

O algoritmo funciona em duas fases. Na fase “direta”, quando a rede recebe uma entrada, ela infere uma saída, que pode estar errada. A segunda fase “retrógrada” atualiza os pesos sinápticos, trazendo a saída mais alinhada com um valor alvo.

Para entender esse processo, pense em uma “função de perda” que descreva a diferença entre os resultados inferidos e desejados como uma paisagem de colinas e vales. Quando uma rede faz uma inferência com um determinado conjunto de pesos sinápticos, ela termina em algum local no cenário de perdas. Para aprender, ele precisa descer a encosta, ou gradiente, em direção a algum vale, onde a perda é minimizada na medida do possível. A retropropagação é um método para atualizar os pesos sinápticos para descer esse gradiente.

Em essência, a fase reversa do algoritmo calcula quanto os pesos sinápticos de cada neurônio contribuem para o erro e, em seguida, atualiza esses pesos para melhorar o desempenho da rede. Esse cálculo prossegue sequencialmente para trás, da camada de saída para a camada de entrada, daí o nome retropropagação. Faça isso repetidamente para conjuntos de entradas e saídas desejadas e, eventualmente, você chegará a um conjunto aceitável de pesos para toda a rede neural.

Impossível para o cérebro

A invenção da retropropagação imediatamente suscitou protestos de alguns neurocientistas, que disseram que ela nunca funcionaria em cérebros reais. O mais notável opositor foi Francis Crick, co-descobridor da estrutura do DNA, ganhador do Prêmio Nobel, que mais tarde se tornou neurocientista. Em 1989, Crick escreveu: “No que diz respeito ao processo de aprendizagem, é improvável que o cérebro realmente use retropropagação”.

Backprop é considerado biologicamente implausível por várias razões principais. A primeira é que, embora os computadores possam implementar facilmente o algoritmo em duas fases, fazer isso para redes neurais biológicas não é trivial. O segundo é o que os neurocientistas computacionais chamam de problema de transporte de peso: o algoritmo backprop copia ou “transporta” informações sobre todos os pesos sinápticos envolvidos em uma inferência e atualiza esses pesos para mais precisão. Mas em uma rede biológica, os neurônios veem apenas as saídas de outros neurônios, não os pesos sinápticos ou processos internos que moldam essa saída. Do ponto de vista de um neurônio, “não há problema em saber seus próprios pesos sinápticos”, disse Yamins. “O que não está certo é você saber o conjunto de pesos sinápticos de outro neurônio.”

Samuel Velasco / Revista Quanta

Qualquer regra de aprendizado biologicamente plausível também precisa obedecer à limitação de que os neurônios podem acessar informações apenas de neurônios vizinhos; backprop pode exigir informações de neurônios mais remotos. Portanto, “se você levar de volta a proposta ao pé da letra, parece impossível para o cérebro computar”, disse Bengio.

No entanto, Hinton e alguns outros imediatamente aceitaram o desafio de trabalhar em variações biologicamente plausíveis de retropropagação. “O primeiro artigo argumentando que os cérebros fazem [algo como] retropropagação é quase tão antigo quanto a retropropagação”, disse Konrad Kording, neurocientista computacional da Universidade da Pensilvânia. Ao longo da última década, conforme o sucesso das redes neurais artificiais as levaram a dominar a pesquisa de inteligência artificial, os esforços para encontrar um equivalente biológico para o backprop se intensificaram.

Ficar mais realista

Pegue, por exemplo, uma das soluções mais estranhas para o problema de transporte de peso, cortesia de Timothy Lillicrap do Google DeepMind em Londres e seus colegas em 2016. Seu algoritmo, em vez de depender de uma matriz de pesos registrados no passe para frente, usou um matriz inicializada com valores aleatórios para a passagem para trás. Uma vez atribuídos, esses valores nunca mudam, portanto, nenhum peso precisa ser transportado para cada passagem para trás.

Para surpresa de quase todos, a rede aprendeu. Como os pesos avançados usados para inferência são atualizados a cada passagem para trás, a rede ainda desce o gradiente da função de perda, mas por um caminho diferente. Os pesos para frente se alinham lentamente com os pesos para trás selecionados aleatoriamente para eventualmente produzir as respostas corretas, dando ao algoritmo seu nome: alinhamento de feedback.

“Acontece que, na verdade, isso não funciona tão mal quanto você imagina”, disse Yamins – pelo menos para problemas simples. Para problemas de grande escala e para redes mais profundas com mais camadas ocultas, o alinhamento de feedback não faz tão bem quanto o backprop: como as atualizações dos pesos diretos são menos precisas em cada passagem do que seriam em informações verdadeiramente retropropagadas, é preciso muito mais dados para treinar a rede.

Yoshua Bengio, um pesquisador de inteligência artificial e cientista da computação da Universidade de Montreal, é um dos cientistas que buscam algoritmos de aprendizagem que são tão eficazes quanto a retropropagação, mas mais biologicamente plausíveis.

Os pesquisadores também exploraram maneiras de combinar o desempenho do backprop enquanto mantêm o requisito de aprendizagem Hebbian clássico de que os neurônios respondem apenas aos seus vizinhos locais. Backprop pode ser pensado como um conjunto de neurônios fazendo a inferência e outro conjunto de neurônios fazendo os cálculos para atualizar os pesos sinápticos. A ideia de Hinton era trabalhar em algoritmos em que cada neurônio estava fazendo os dois conjuntos de cálculos. “Foi basicamente sobre isso que a palestra de Geoff foi [sobre] em 2007”, disse Bengio.

Com base no trabalho de Hinton, a equipe de Bengio propôs uma regra de aprendizagem em 2017 que requer uma rede neural com conexões recorrentes (isto é, se o neurônio A ativa o neurônio B, então o neurônio B, por sua vez, ativa o neurônio A). Se essa rede receber alguma entrada, ela definirá a reverberação da rede, à medida que cada neurônio responde ao push e pull de seus vizinhos imediatos.

Eventualmente, a rede atinge um estado em que os neurônios estão em equilíbrio com a entrada e entre si, e produz uma saída, que pode ser errônea. O algoritmo então empurra os neurônios de saída em direção ao resultado desejado. Isso define outro sinal se propagando para trás através da rede, iniciando uma dinâmica semelhante. A rede encontra um novo equilíbrio.

“A beleza da matemática é que se você comparar essas duas configurações, antes e depois de cutucar, terá todas as informações de que precisa para encontrar o gradiente”, disse Bengio. Treinar a rede envolve simplesmente repetir este processo de “propagação de equilíbrio” iterativamente sobre muitos dados rotulados.

Previsão de percepções

A restrição de que os neurônios podem aprender apenas reagindo ao seu ambiente local também encontra expressão em novas teorias de como o cérebro percebe. Beren Millidge, estudante de doutorado na Universidade de Edimburgo e pesquisador visitante na Universidade de Sussex, e seus colegas estão reconciliando essa nova visão da percepção – chamada de codificação preditiva – com os requisitos de retropropagação. “A codificação preditiva, se for configurada de uma certa maneira, dará a você uma regra de aprendizagem biologicamente plausível”, disse Millidge.

A codificação preditiva postula que o cérebro está constantemente fazendo previsões sobre as causas das entradas sensoriais. O processo envolve camadas hierárquicas de processamento neural. Para produzir uma determinada saída, cada camada deve prever a atividade neural da camada abaixo. Se a camada mais alta espera ver um rosto, ela prevê a atividade da camada abaixo que pode justificar essa percepção. A camada abaixo faz previsões semelhantes sobre o que esperar da camada abaixo dela e assim por diante. A camada mais baixa faz previsões sobre a entrada sensorial real – digamos, os fótons que caem na retina. Desta forma, as previsões fluem das camadas superiores para as camadas inferiores.

Mas podem ocorrer erros em cada nível da hierarquia: diferenças entre a previsão que uma camada faz sobre a entrada que espera e a entrada real. A camada mais inferior ajusta seus pesos sinápticos para minimizar seu erro, com base nas informações sensoriais que recebe. Esse ajuste resulta em um erro entre a camada inferior recém-atualizada e a camada acima, de modo que a camada superior precisa reajustar seus pesos sinápticos para minimizar seu erro de previsão. Esses sinais de erro se propagam para cima. A rede vai e volta, até que cada camada tenha minimizado seu erro de previsão.

Millidge mostrou que, com a configuração adequada, as redes de codificação preditiva podem convergir para os mesmos gradientes de aprendizagem que o backprop. “Você pode ficar muito, muito, muito perto dos gradientes de backprop”, disse ele.

No entanto, para cada passagem para trás que um algoritmo backprop tradicional faz em uma rede neural profunda, uma rede de codificação preditiva precisa iterar várias vezes. Se isso é biologicamente plausível ou não, depende exatamente de quanto tempo isso pode levar em um cérebro real. Crucialmente, a rede deve convergir para uma solução antes que as entradas do mundo externo mudem.

“Não pode ser como,’ Eu tenho um tigre pulando em mim, deixe-me fazer 100 iterações para frente e para trás, para cima e para baixo no meu cérebro ‘”, disse Millidge. Ainda assim, se alguma imprecisão for aceitável, a codificação preditiva pode chegar a respostas geralmente úteis rapidamente, disse ele.

Neurônios piramidais

Alguns cientistas assumiram a tarefa essencial de construir modelos do tipo backprop com base nas propriedades conhecidas de neurônios individuais. Os neurônios padrão têm dendritos que coletam informações dos axônios de outros neurônios. Os dendritos transmitem sinais para o corpo celular do neurônio, onde os sinais são integrados. Isso pode ou não resultar em um pico, ou potencial de ação, saindo do axônio do neurônio para os dendritos dos neurônios pós-sinápticos.

Mas nem todos os neurônios têm exatamente essa estrutura. Em particular, os neurônios piramidais – o tipo mais abundante de neurônio no córtex – são claramente diferentes. Os neurônios piramidais têm uma estrutura semelhante a uma árvore com dois conjuntos distintos de dendritos. O tronco se estende e se ramifica nos chamados dendritos apicais. A raiz desce e se ramifica em dendritos basais.

Samuel Velasco / Revista Quanta

Modelos desenvolvidos independentemente por Kording em 2001, e mais recentemente por Blake Richards da McGill University e Mila e seus colegas, mostraram que os neurônios piramidais podem formar as unidades básicas de uma rede de aprendizagem profunda fazendo cálculos para frente e para trás simultaneamente. A chave está na separação dos sinais que entram no neurônio para inferência progressiva e para erros de fluxo reverso, que poderiam ser tratados no modelo pelos dendritos basal e apical, respectivamente. As informações para ambos os sinais podem ser codificadas nos picos de atividade elétrica que o neurônio envia para baixo em seu axônio como uma saída.

No trabalho mais recente da equipe de Richards, “chegamos ao ponto em que podemos mostrar que, usando simulações bastante realistas de neurônios, é possível treinar redes de neurônios piramidais para realizar várias tarefas”, disse Richards. “E então, usando versões um pouco mais abstratas desses modelos, podemos fazer com que redes de neurônios piramidais aprendam o tipo de tarefas difíceis que as pessoas fazem no aprendizado de máquina.”

O papel da atenção

Um requisito implícito para uma rede profunda que use backprop é a presença de um “professor”: algo que possa calcular o erro cometido por uma rede de neurônios. Mas “não há professor no cérebro que diga a todos os neurônios do córtex motor:’ Você deve ser ligado e desligado ‘”, disse Pieter Roelfsema, do Instituto Holandês de Neurociência, em Amsterdã.

Roelfsema acha que a solução do cérebro para o problema está no processo de atenção. No final da década de 1990, ele e seus colegas mostraram que, quando os macacos fixam o olhar em um objeto, os neurônios que representam esse objeto no córtex tornam-se mais ativos. O ato do macaco de focar sua atenção produz um sinal de feedback para os neurônios responsáveis. “É um sinal de feedback altamente seletivo”, disse Roelfsema. “Não é um sinal de erro. É apenas dizer a todos aqueles neurônios: você vai ser responsabilizado [por uma ação]. ”

O insight de Roelfsema foi que esse sinal de feedback poderia permitir um aprendizado semelhante ao da prótese quando combinado com processos revelados em algumas outras descobertas neurocientíficas. Por exemplo, Wolfram Schultz da Universidade de Cambridge e outros mostraram que quando os animais realizam uma ação que produz resultados melhores do que o esperado, o sistema de dopamina do cérebro é ativado. “Ele inunda todo o cérebro com moduladores neurais”, disse Roelfsema. Os níveis de dopamina agem como um sinal de reforço global.

Em teoria, o sinal de feedback de atenção poderia preparar apenas os neurônios responsáveis por uma ação para responder ao sinal de reforço global, atualizando seus pesos sinápticos, disse Roelfsema. Ele e seus colegas usaram essa ideia para construir uma rede neural profunda e estudar suas propriedades matemáticas. “Acontece que você obtém retropropagação de erro. Você obtém basicamente a mesma equação “, disse ele. “Mas agora se tornou biologicamente plausível.”

A equipe apresentou este trabalho na conferência online Neural Information Processing Systems em dezembro. “Podemos treinar redes profundas”, disse Roelfsema. “É apenas um fator de dois a três mais lento do que a retropropagação.” Como tal, disse ele, “supera todos os outros algoritmos que foram propostos como biologicamente plausíveis”.

No entanto, as evidências empíricas concretas de que cérebros vivos usam esses mecanismos plausíveis permanecem elusivas. “Acho que ainda está faltando alguma coisa”, disse Bengio. “Na minha experiência, pode ser uma coisa pequena, talvez algumas mudanças em um dos métodos existentes, que vai realmente fazer a diferença.”

Enquanto isso, Yamins e seus colegas em Stanford têm sugestões sobre como determinar qual das regras de aprendizagem propostas, se houver, é a correta. Ao analisar 1.056 redes neurais artificiais que implementam diferentes modelos de aprendizagem, eles descobriram que o tipo de regra de aprendizagem que governa uma rede pode ser identificado a partir da atividade de um subconjunto de neurônios ao longo do tempo. É possível que tais informações possam ser registradas em cérebros de macacos. “Acontece que, se você tem a coleção certa de observáveis, pode ser possível criar um esquema bastante simples que permita identificar as regras de aprendizagem”, disse Yamins.

Dados esses avanços, os neurocientistas computacionais são silenciosamente otimistas. “Existem muitas maneiras diferentes de o cérebro fazer a retropropagação”, disse Kording. “E a evolução é incrível. A retropropagação é útil. Presumo que essa evolução nos leve até lá. ”


Publicado em 06/07/2021 17h50

Artigo original: