Redes neurais profundas ajudam a explicar cérebros vivos

Neurocientistas computacionais estão descobrindo que as redes neurais de aprendizado profundo podem ser bons modelos explicativos para a organização funcional de cérebros vivos.

Redes neurais profundas, muitas vezes criticadas como “caixas pretas”, estão ajudando os neurocientistas a entender a organização dos cérebros vivos.

No inverno de 2011, Daniel Yamins, um pesquisador de pós-doutorado em neurociência computacional no Massachusetts Institute of Technology, às vezes trabalhava até depois da meia-noite em seu projeto de visão de máquina. Ele estava projetando meticulosamente um sistema que podia reconhecer objetos em fotos, independentemente das variações de tamanho, posição e outras propriedades – algo que os humanos fazem com facilidade. O sistema era uma rede neural profunda, um tipo de dispositivo computacional inspirado na fiação neurológica de cérebros vivos.

“Lembro-me muito bem da época em que encontramos uma rede neural que realmente resolvia a tarefa”, disse ele. Eram 2 da manhã, um pouco cedo para acordar seu conselheiro, James DiCarlo, ou outros colegas, então um animado Yamins deu uma caminhada no ar frio de Cambridge. “Fiquei muito animado”, disse ele.

Isso teria contado como uma realização notável apenas em inteligência artificial, uma das muitas que tornariam as redes neurais as queridinhas da tecnologia de IA nos próximos anos. Mas esse não era o objetivo principal de Yamins e seus colegas. Para eles e outros neurocientistas, este foi um momento crucial no desenvolvimento de modelos computacionais para as funções cerebrais.

DiCarlo e Yamins, que agora dirige seu próprio laboratório na Universidade de Stanford, fazem parte de um círculo de neurocientistas que usam redes neurais profundas para compreender a arquitetura do cérebro. Em particular, os cientistas têm se esforçado para entender as razões por trás das especializações dentro do cérebro para várias tarefas. Eles se perguntam não apenas por que diferentes partes do cérebro fazem coisas diferentes, mas também por que as diferenças podem ser tão específicas: por que, por exemplo, o cérebro tem uma área para reconhecer objetos em geral, mas também para rostos em particular? Redes neurais profundas estão mostrando que essas especializações podem ser a maneira mais eficiente de resolver problemas.

Da mesma forma, os pesquisadores demonstraram que as redes profundas mais proficientes em classificar fala, música e cheiros simulados têm arquiteturas que parecem paralelas aos sistemas auditivo e olfativo do cérebro. Esses paralelos também aparecem em redes profundas que podem olhar para uma cena 2D e inferir as propriedades subjacentes dos objetos 3D dentro dela, o que ajuda a explicar como a percepção biológica pode ser rápida e incrivelmente rica. Todos esses resultados sugerem que as estruturas dos sistemas neurais vivos incorporam certas soluções ótimas para as tarefas que assumiram.

Esses sucessos são ainda mais inesperados, dado que os neurocientistas há muito tempo são céticos em relação às comparações entre cérebros e redes neurais profundas, cujo funcionamento pode ser inescrutável. “Honestamente, ninguém em meu laboratório estava fazendo nada com redes profundas [até recentemente]”, disse a neurocientista do MIT Nancy Kanwisher. “Agora, a maioria deles os está treinando rotineiramente.”

Redes profundas e visão

Redes neurais artificiais são construídas com componentes de interconexão chamados perceptrons, que são modelos digitais simplificados de neurônios biológicos. As redes têm pelo menos duas camadas de perceptrons, uma para a camada de entrada e outra para a saída. Sanduiche uma ou mais camadas “ocultas” entre a entrada e a saída e você terá uma rede neural “profunda”; quanto maior o número de camadas ocultas, mais profunda é a rede.

Redes profundas podem ser treinadas para detectar padrões nos dados, como padrões que representam imagens de gatos ou cachorros. O treinamento envolve o uso de um algoritmo para ajustar iterativamente a força das conexões entre os perceptrons, de modo que a rede aprenda a associar uma determinada entrada (os pixels de uma imagem) com o rótulo correto (gato ou cachorro). Uma vez treinada, a rede profunda idealmente deve ser capaz de classificar uma entrada que não tenha visto antes.

Em sua estrutura e função gerais, as redes profundas aspiram vagamente a emular cérebros, nos quais as intensidades ajustadas das conexões entre os neurônios refletem associações aprendidas. Os neurocientistas freqüentemente apontam limitações importantes nessa comparação: neurônios individuais podem processar informações mais extensivamente do que os perceptrons “burros”, por exemplo, e as redes profundas frequentemente dependem de um tipo de comunicação entre perceptrons chamada retropropagação que não parece ocorrer nos sistemas nervosos. No entanto, para os neurocientistas computacionais, as redes profundas às vezes parecem ser a melhor opção disponível para modelar partes do cérebro.


Os pesquisadores que desenvolvem modelos computacionais do sistema visual foram influenciados pelo que sabemos sobre o sistema visual dos primatas, particularmente a via responsável por reconhecer pessoas, lugares e coisas chamadas fluxo visual ventral. (Uma via amplamente separada, o fluxo visual dorsal, processa informações para ver o movimento e as posições das coisas.) Em humanos, essa via ventral começa nos olhos e prossegue para o núcleo geniculado lateral no tálamo, uma espécie de estação retransmissora para informação sensorial. O núcleo geniculado lateral se conecta a uma área chamada V1 no córtex visual primário, a jusante da qual se encontram as áreas V2 e V4, que finalmente levam ao córtex temporal inferior. (Cérebros de primatas não humanos têm estruturas homólogas.)

O insight neurocientífico principal é que o processamento de informações visuais é hierárquico e ocorre em estágios: os estágios anteriores processam características de baixo nível no campo visual (como bordas, contornos, cores e formas), enquanto representações complexas, como objetos inteiros e rostos , surgem apenas mais tarde no córtex temporal inferior.

Samuel Velasco/Quanta Magazine


Essas percepções orientaram o projeto da rede profunda por Yamins e seus colegas. Sua rede profunda tinha camadas ocultas, algumas das quais realizavam uma “convolução” que aplicava o mesmo filtro a todas as partes de uma imagem. Cada convolução capturou diferentes características essenciais da imagem, como bordas. As características mais básicas foram capturadas nos estágios iniciais da rede e as características mais complexas nas fases mais profundas, como no sistema visual dos primatas. Quando uma rede neural convolucional (CNN) como esta é treinada para classificar imagens, ela começa com valores inicializados aleatoriamente para seus filtros e aprende os valores corretos necessários para a tarefa em questão.

A CNN de quatro camadas da equipe pode reconhecer oito categorias de objetos (animais, barcos, carros, cadeiras, rostos, frutas, aviões e mesas) retratados em 5.760 imagens 3D foto-realistas. Os objetos retratados variaram muito em pose, posição e escala. Mesmo assim, a rede profunda combinou com o desempenho dos humanos, que são extremamente bons em reconhecer objetos, apesar da variação.

Sem o conhecimento de Yamins, uma revolução que se formava no mundo da visão computacional também validaria de forma independente a abordagem que ele e seus colegas estavam adotando. Logo depois que terminaram de construir sua CNN, outra CNN, chamada AlexNet, fez seu nome em um concurso anual de reconhecimento de imagem. O AlexNet também foi baseado em uma arquitetura de processamento hierárquico que capturou recursos visuais básicos em seus estágios iniciais e recursos mais complexos em estágios superiores; foi treinado em 1,2 milhão de imagens rotuladas apresentando mil categorias de objetos. No concurso de 2012, o AlexNet encaminhou todos os outros algoritmos testados: Pelas métricas da competição, a taxa de erro do AlexNet foi de apenas 15,3%, em comparação com 26,2% de seu concorrente mais próximo. Com a vitória da AlexNet, as redes profundas se tornaram concorrentes legítimos no campo da IA e aprendizado de máquina.

Yamins e outros membros da equipe de DiCarlo, no entanto, estavam atrás de uma recompensa neurocientífica. Se a CNN deles imitasse um sistema visual, eles se perguntavam, ele poderia prever as respostas neurais a uma nova imagem? Para descobrir, eles primeiro estabeleceram como a atividade em conjuntos de neurônios artificiais em seu CNN correspondia à atividade em quase 300 locais no fluxo visual ventral de dois macacos rhesus.

Em seguida, eles usaram a CNN para prever como esses locais cerebrais responderiam quando os macacos vissem imagens que não faziam parte do conjunto de dados de treinamento. “Não apenas obtivemos boas previsões … mas também há um tipo de consistência anatômica”, disse Yamins: As camadas iniciais, intermediárias e tardias da CNN previram o comportamento das áreas cerebrais iniciais, intermediárias e superiores, respectivamente . A forma seguiu a função.

Kanwisher lembra de ter ficado impressionado com o resultado quando foi publicado em 2014. “Não diz que as unidades na rede profunda individualmente se comportam como neurônios biofisicamente”, disse ela. “No entanto, há uma especificidade chocante na correspondência funcional.”

Especializando-se em sons

Depois que os resultados de Yamins e DiCarlo apareceram, a busca por outros modelos de rede profunda do cérebro melhores, particularmente para regiões menos bem estudadas do que o sistema visual dos primatas. Por exemplo, “ainda não temos uma compreensão muito boa do córtex auditivo, especialmente em humanos”, disse Josh McDermott, neurocientista do MIT. O aprendizado profundo pode ajudar a gerar hipóteses sobre como o cérebro processa os sons?

Esse é o objetivo de McDermott. Sua equipe, que incluía Alexander Kell e Yamins, começou a projetar redes profundas para classificar dois tipos de sons: fala e música. Primeiro, eles codificaram um modelo de cóclea – o órgão de transdução de som no ouvido interno, cujo funcionamento é compreendido em grande detalhe – para processar áudio e classificar os sons em canais de frequência diferentes como entradas para uma rede neural convolucional. A CNN foi treinada para reconhecer palavras em clipes de áudio de fala e para reconhecer os gêneros de clipes musicais misturados com ruído de fundo. A equipe buscou uma arquitetura de rede profunda que pudesse executar essas tarefas com precisão, sem precisar de muitos recursos.

Três conjuntos de arquiteturas pareciam possíveis. As duas tarefas da rede profunda poderiam compartilhar apenas a camada de entrada e, em seguida, dividir-se em duas redes distintas. No outro extremo, as tarefas poderiam compartilhar a mesma rede para todo o seu processamento e se dividir apenas no estágio de saída. Ou pode ser uma das dezenas de variantes intermediárias, onde alguns estágios da rede são compartilhados e outros são distintos.

Sem surpresa, as redes que tinham caminhos dedicados após a camada de entrada superaram as redes que compartilhavam caminhos totalmente. No entanto, uma rede híbrida – uma com sete camadas comuns após o estágio de entrada e, em seguida, duas redes separadas de cinco camadas cada – se saiu quase tão bem quanto a rede totalmente separada. McDermott e colegas escolheram a rede híbrida como a que funcionou melhor com o mínimo de recursos computacionais.

Samuel Velasco/Quanta Magazine


Quando eles confrontaram aquela rede híbrida com humanos nessas tarefas, ela se encaixou bem. Ele também correspondeu a resultados anteriores de vários pesquisadores que sugeriram que o córtex auditivo não primário tem regiões distintas para processar música e fala. E em um teste importante publicado em 2018, o modelo previu a atividade cerebral em seres humanos: as camadas intermediárias do modelo anteciparam as respostas do córtex auditivo primário, e as camadas mais profundas anteciparam as áreas superiores do córtex auditivo. Essas previsões foram substancialmente melhores do que as de modelos não baseados em aprendizado profundo.

“O objetivo da ciência é ser capaz de prever o que os sistemas farão”, disse McDermott. “Essas redes neurais artificiais nos aproximam desse objetivo na neurociência.”

Kanwisher, inicialmente cética quanto à utilidade do aprendizado profundo para sua própria pesquisa, foi inspirada pelos modelos de McDermott. Kanwisher é mais conhecida por seu trabalho em meados da década de 1990, mostrando que uma região do córtex temporal inferior chamada área facial fusiforme (FFA) é especializada na identificação de faces. O FFA é significativamente mais ativo quando os sujeitos olham para imagens de rostos do que quando estão olhando para imagens de objetos, como casas. Por que o cérebro separa o processamento de rostos daquele de outros objetos?

Tradicionalmente, responder a essas perguntas do tipo “por que” tem sido difícil para a neurociência. Assim, Kanwisher, junto com sua pós-doc Katharina Dobs e outros colegas, recorreram a redes profundas em busca de ajuda. Eles usaram um sucessor de visão computacional do AlexNet – uma rede neural convolucional muito mais profunda chamada VGG – e treinaram duas redes profundas separadas em tarefas específicas: reconhecer rostos e reconhecer objetos.

A equipe descobriu que a rede profunda treinada para reconhecer rostos era ruim para reconhecer objetos e vice-versa, sugerindo que essas redes representam rostos e objetos de maneira diferente. Em seguida, a equipe treinou uma única rede em ambas as tarefas. Eles descobriram que a rede havia se organizado internamente para segregar o processamento de rostos e objetos nos estágios posteriores da rede. “O VGG segrega espontaneamente mais nos estágios posteriores”, disse Kanwisher. “Não é necessário segregar nos estágios iniciais.”

Isso está de acordo com a maneira como o sistema visual humano é organizado: a ramificação ocorre apenas a jusante dos estágios anteriores compartilhados da via visual ventral (o núcleo geniculado lateral e as áreas V1 e V2). “Descobrimos que a especialização funcional do processamento facial e de objetos surgiu espontaneamente em redes profundas treinadas em ambas as tarefas, como acontece no cérebro humano”, disse Dobs, que agora está na Universidade Justus Liebig em Giessen, Alemanha.

“O que é mais emocionante para mim é que acho que agora temos uma maneira de responder a perguntas sobre por que o cérebro é do jeito que é”, disse Kanwisher.

Camadas de Aromas

Mais evidências desse tipo estão surgindo de pesquisas que abordam a percepção de cheiros. No ano passado, o neurocientista computacional Robert Yang e seus colegas da Universidade de Columbia projetaram uma rede profunda para modelar o sistema olfativo de uma mosca da fruta, que foi mapeado detalhadamente por neurocientistas.

A primeira camada de processamento de odores envolve neurônios sensoriais olfativos, cada um dos quais expressa apenas um dos cerca de 50 tipos de receptores de odores. Todos os neurônios sensoriais do mesmo tipo, cerca de 10 em média, alcançam um único agrupamento de nervos na próxima camada da hierarquia de processamento. Como há cerca de 50 desses agrupamentos de nervos em cada lado do cérebro nesta camada, isso estabelece um mapeamento um-para-um entre os tipos de neurônios sensoriais e os agrupamentos de nervos correspondentes. Os agrupamentos de nervos têm várias conexões aleatórias com neurônios na próxima camada, chamada de camada de Kenyon, que tem cerca de 2.500 neurônios, cada um dos quais recebe cerca de sete entradas. Acredita-se que a camada Kenyon esteja envolvida em representações de alto nível dos odores. Uma camada final de cerca de 20 neurônios fornece a saída que a mosca usa para guiar suas ações relacionadas ao cheiro (Yang avisa que ninguém sabe se essa saída se qualifica como classificação de odores).

Para ver se eles poderiam projetar um modelo computacional para imitar esse processo, Yang e colegas criaram primeiro um conjunto de dados para imitar cheiros, que não ativam neurônios da mesma forma que as imagens. Se você sobrepor duas imagens de gatos, adicionando-as pixel por pixel, a imagem resultante pode não se parecer em nada com um gato. No entanto, se você misturar o odor de duas maçãs, provavelmente ainda terá o cheiro de maçã. “Essa é uma visão crítica que usamos para projetar nossa tarefa de olfato”, disse Yang.

Eles construíram sua rede profunda com quatro camadas: três que modelavam as camadas de processamento na mosca da fruta e uma camada de saída. Quando Yang e seus colegas treinaram esta rede para classificar os odores simulados, eles descobriram que a rede convergiu para quase a mesma conectividade vista no cérebro da mosca-das-frutas: um mapeamento um-para-um da camada 1 para a camada 2 e, em seguida, um esparso e mapeamento aleatório (7 para 1) da camada 2 para a camada 3.

Essa semelhança sugere que tanto a evolução quanto a rede profunda alcançaram uma solução ótima. Mas Yang continua desconfiado dos resultados. “Talvez apenas tenhamos sorte aqui, e talvez isso não generalize”, disse ele.

A próxima etapa do teste será desenvolver redes profundas que podem prever a conectividade no sistema olfativo de algum animal ainda não estudado, o que pode então ser confirmado por neurocientistas. “Isso fornecerá um teste muito mais rigoroso de nossa teoria”, disse Yang, que será transferido para o MIT em julho de 2021.

Não apenas caixas pretas

Redes profundas são frequentemente ridicularizadas por serem incapazes de generalizar para dados que se afastam muito do conjunto de dados de treinamento. Eles também são famosos por serem caixas pretas. É impossível explicar as decisões de uma rede profunda examinando os milhões ou até bilhões de parâmetros que a moldam. Não é um modelo de rede profunda de alguma parte do cérebro meramente substituindo uma caixa preta por outra?

Não exatamente, na opinião de Yang. “Ainda é mais fácil estudar do que o cérebro”, disse ele.

No ano passado, a equipe de DiCarlo publicou resultados que assumiram a opacidade de redes profundas e sua alegada incapacidade de generalizar. Os pesquisadores usaram uma versão do AlexNet para modelar o fluxo visual ventral dos macacos e descobriram as correspondências entre as unidades de neurônios artificiais e os sítios neurais na área V4 dos macacos. Então, usando o modelo computacional, eles sintetizaram imagens que previram que provocariam níveis anormalmente altos de atividade nos neurônios dos macacos. Em um experimento, quando essas imagens “não naturais” foram mostradas a macacos, elas aumentaram a atividade de 68% dos sítios neurais além de seus níveis normais; em outro, as imagens aumentaram a atividade em um neurônio enquanto a suprimiam em neurônios próximos. Ambos os resultados foram previstos pelo modelo de rede neural.

Para os pesquisadores, esses resultados sugerem que as redes profundas se generalizam para os cérebros e não são totalmente insondáveis. “No entanto, reconhecemos que … muitas outras noções de ‘compreensão’ ainda precisam ser exploradas para ver se e como esses modelos agregam valor”, escreveram.

As convergências em estrutura e desempenho entre redes profundas e cérebros não significam necessariamente que funcionem da mesma maneira; há maneiras pelas quais eles comprovadamente não o fazem. Mas pode ser que haja semelhanças suficientes para os dois tipos de sistemas seguirem os mesmos princípios gerais de governo.

Limitações dos modelos

McDermott vê valor terapêutico potencial nesses estudos de rede profunda. Hoje, quando as pessoas perdem a audição, geralmente é devido a mudanças no ouvido. O sistema auditivo do cérebro tem que lidar com a entrada prejudicada. “Portanto, se tivéssemos bons modelos do que o resto do sistema auditivo estava fazendo, teríamos uma ideia melhor do que fazer para ajudar as pessoas a ouvirem melhor”, disse McDermott.

Ainda assim, McDermott é cauteloso sobre o que as redes profundas podem oferecer. “Temos nos esforçado bastante para tentar entender as limitações das redes neurais como modelos”, disse ele.

Em uma demonstração impressionante dessas limitações, a estudante de graduação Jenelle Feather e outros no laboratório de McDermott se concentraram em metâmeros, que são sinais de entrada fisicamente distintos que produzem a mesma representação em um sistema. Dois metâmeros de áudio, por exemplo, têm formas de onda diferentes, mas têm o mesmo som para um humano. Usando um modelo de rede profunda do sistema auditivo, a equipe projetou metâmeros de sinais de áudio naturais; esses metâmeros ativaram diferentes estágios da rede neural da mesma forma que os clipes de áudio. Se a rede neural modelou com precisão o sistema auditivo humano, então os metâmeros deveriam soar iguais também.

Mas não foi isso que aconteceu. Os humanos reconheceram os metâmeros que produziram a mesma ativação que os clipes de áudio correspondentes nos estágios iniciais da rede neural. No entanto, isso não se aplicava a metâmeros com ativações correspondentes nos estágios mais profundos da rede: esses metâmeros soavam como ruído para humanos. “Portanto, embora em certas circunstâncias esses tipos de modelos façam um trabalho muito bom em replicar o comportamento humano, há algo muito errado com eles”, disse McDermott.

Em Stanford, Yamins está explorando maneiras pelas quais esses modelos ainda não são representativos do cérebro. Por exemplo, muitos desses modelos precisam de muitos dados rotulados para treinamento, enquanto nosso cérebro pode aprender sem esforço com apenas um exemplo. Esforços estão em andamento para desenvolver redes profundas não supervisionadas que podem aprender com a mesma eficiência. Redes profundas também aprendem usando um algoritmo chamado retropropagação, que a maioria dos neurocientistas acha que não pode funcionar em tecido neural real porque carece das conexões apropriadas. “Houve um grande progresso em termos de regras de aprendizagem um tanto mais plausíveis do ponto de vista biológico que realmente funcionam”, disse Yamins.

Josh Tenenbaum, neurocientista cognitivo do MIT, disse que, embora todos esses modelos de rede profunda sejam “etapas reais do progresso”, eles realizam principalmente tarefas de classificação ou categorização. Nossos cérebros, no entanto, fazem muito mais do que categorizar o que está lá fora. Nosso sistema de visão pode dar sentido à geometria das superfícies e à estrutura 3D de uma cena e pode raciocinar sobre os fatores causais subjacentes – por exemplo, pode inferir em tempo real que uma árvore desapareceu apenas porque um carro passou na frente disso.

Para entender essa habilidade do cérebro, Ilker Yildirim, anteriormente no MIT e agora na Universidade de Yale, trabalhou com Tenenbaum e colegas para construir algo chamado de modelo gráfico inverso eficiente. Ele começa com parâmetros que descrevem uma face a ser renderizada em um fundo, como sua forma, sua textura, a direção da iluminação, a pose da cabeça e assim por diante. Um programa de computação gráfica chamado modelo generativo cria uma cena 3D a partir dos parâmetros; então, após vários estágios de processamento, ele produz uma imagem 2D daquela cena vista de uma determinada posição. Usando os dados 3D e 2D do modelo generativo, os pesquisadores treinaram uma versão modificada do AlexNet para prever os parâmetros prováveis de uma cena 3D a partir de uma imagem 2D desconhecida. “O sistema aprende a retroceder do efeito à causa, da imagem 2D à cena 3D que o produziu”, disse Tenenbaum.

A equipe testou seu modelo verificando suas previsões sobre a atividade no córtex temporal inferior de macacos rhesus. Eles apresentaram macacos com 175 imagens, mostrando 25 indivíduos em sete poses, e gravaram as assinaturas neurais de “manchas faciais”, áreas de processamento visual especializadas em reconhecimento facial. Eles também mostraram as imagens para sua rede de aprendizagem profunda. Na rede, a ativação dos neurônios artificiais na primeira camada representa a imagem 2D e a ativação na última camada representa os parâmetros 3D. “Ao longo do caminho, ele passa por um monte de transformações, que parecem basicamente levar você do 2D para o 3D”, disse Tenenbaum. Eles descobriram que as três últimas camadas da rede correspondiam notavelmente bem às três últimas camadas da rede de processamento de rosto dos macacos.

Isso sugere que os cérebros usam combinações de modelos generativos e de reconhecimento não apenas para reconhecer e caracterizar objetos, mas para inferir as estruturas causais inerentes às cenas, tudo em um instante. Tenenbaum reconhece que seu modelo não prova que o cérebro funciona dessa maneira. “Mas isso abre a porta para fazer essas perguntas de uma forma mecanicista mais refinada”, disse ele. “Deve ser … nos motivando a percorrer isso.”


Publicado em 30/10/2020 14h31

Artigo original:

Estudo original:


Achou importante? Compartilhe!


Assine nossa newsletter e fique informado sobre Astrofísica, Biofísica, Geofísica e outras áreas. Preencha seu e-mail no espaço abaixo e clique em “OK”: