O surgimento espontâneo de especialização funcional semelhante ao cérebro em redes neurais

Representações distintas de rostos e objetos em CNNs treinadas individualmente, enquanto uma CNN de dupla tarefa tem um bom desempenho. (A) Três redes com arquitetura VGG16 (esquerda) foram otimizadas, uma na categorização de identidade de rosto (Face CNN em vermelho), uma na categorização de objetos (Object CNN em laranja) e uma em ambas as tarefas simultaneamente (dual-task CNN em cinza ). (B) Precisão de decodificação de identidades de rostos e categorias de objetos detidos usando padrões de ativação extraídos da penúltima camada [isto é, FC2 em (A)] do Face CNN e do Objeto CNN. O Face CNN supera o Object CNN em decodificação de face e vice-versa para decodificação de objeto. Assim, as representações otimizadas para cada tarefa não suportam naturalmente a outra. A linha cinza tracejada indica o nível de chance (1%). As barras de erro indicam SEM nas dobras de classificação. (C) Uma CNN de tarefa dupla otimizada em ambas as tarefas executadas e as redes separadas (% de precisão top 1 no conjunto de teste). As barras de erro denotam intervalo de confiança de 95% (CI) inicializado entre classes e estímulos. Crédito: Science Advances (2022). DOI: 10.1126/sciadv.abl8913

O cérebro humano possui regiões funcionais distintas e altamente especializadas para entender idiomas, reconhecer rostos e planejar com antecedência. No entanto, os neurocientistas ainda precisam decifrar o alto grau de especialização funcional observado no córtex. Em um novo estudo agora publicado na Science Advances, Katharina Dobs e uma equipe de cientistas do departamento de ciências do cérebro e cognitivas do MIT e do Zuckerman Mind Brain and Behavior Institute, da Universidade de Columbia, em Nova York, EUA, investigaram a percepção de rostos com neurônios artificiais em redes para testar a hipótese de que a segregação funcional do reconhecimento facial no cérebro refletiu a otimização computacional para aplicações mais amplas de reconhecimento facial visual. A equipe mostrou como a segregação visual funcional revelou uma tendência generalizada de otimização para criar especialização funcional em máquinas e também investigar a complexidade do fenômeno em relação aos cérebros.

Especialização funcional

Embora a ideia de localização funcional no cérebro tenha sido recebida com controvérsia por séculos, agora é apoiada por evidências contundentes. Regiões do córtex podem ser seletivamente ativadas para uma tarefa perceptiva ou cognitiva específica, que quando interrompida pode produzir deficiência seletiva. Os neurocientistas buscam cada vez mais entender por que o cérebro exibe esse nível de especialização funcional. As possibilidades incluem um acidente de evolução para adicionar módulos facilmente e resolver novos problemas. Os pesquisadores também destacaram a modulação seletiva de processos mentais via especialização funcional. E uma terceira possibilidade são as razões computacionais para completar tarefas que não podem ser resolvidas com máquinas comparativamente genéricas. Neste trabalho, Dobs et al. testaram a terceira hipótese para entender um dos casos mais bem estabelecidos de especialização funcional no cérebro em relação ao reconhecimento visual de faces. A equipe empregou redes neurais convolucionais profundas (CNNs) avançadas para obter desempenho de nível humano em algumas tarefas de reconhecimento visual. Com base em extensos estudos com redes treinadas em objetos e redes treinadas em face no reconhecimento de rostos e objetos, Dobs et al. revelou uma tendência geral de segregação de tarefas em redes, abrindo a porta para investigar arquiteturas específicas, e treinando dietas para detectar as tarefas que serão segregadas em redes, e hipoteticamente também em cérebros.

Experimentos de lesão na última camada convolucional revelam segregação espontânea de tarefas. (A) Esquema de experimentos de lesão para a última camada convolucional (consulte ?Conv13? na Fig. 1A) em VGG16. Cada filtro na camada foi removido durante a medição da perda para lotes de imagens de rosto (superior) e objeto (inferior). Os filtros foram ordenados por suas perdas correspondentes para determinar aqueles que mais contribuem para o reconhecimento de rosto (vermelho) ou de objeto (laranja). (B) Desempenho normalizado das tarefas de face e objeto após lesionar os 20% dos filtros de classificação mais alta para a tarefa de face (superior) e a tarefa de objeto (inferior) na última camada convolucional. As barras de erro denotam 95% de CIs bootstrap entre classes e estímulos. Crédito: Science Advances (2022). DOI: 10.1126/sciadv.abl8913

Redes treinadas apenas em objetos não funcionam bem no reconhecimento facial

Para testar se as CNNs treinadas por objetos servem para reconhecimento facial e vice-versa, Dobs et al. treinaram duas redes VGG16 inicializadas aleatoriamente, como proposto inicialmente por A. Zisserman e K. Simoyan da Universidade de Oxford, para identificação de rosto e categorização de objetos. A equipe decodificou identidades de rosto desconhecidas de redes treinadas por rosto e objetos desconhecidos da rede treinada por objeto, conforme esperado. Eles notaram um desempenho significativamente pior no reconhecimento de rostos com a rede treinada por objetos do que a rede treinada para rostos e vice-versa para o reconhecimento de objetos, indicando como as representações aprendidas para uma tarefa específica não se traduzem prontamente em outra tarefa. Assim como o cérebro, cada tarefa parecia se beneficiar de representações específicas de tarefas especializadas.

Segregação espontânea de tarefas de rosto e objeto em estágios de processamento de nível médio. (A) Segregação de tarefas, medida como índice combinado das diferenças nas quedas proporcionais no desempenho na tarefa de face e objeto, quando os 20% dos filtros de maior contribuição são descartados em cada camada convolucional. A segregação de tarefas aumentou após as primeiras camadas convolucionais para um índice máximo de 0,75. A área sombreada representa 95% de ICs bootstrap entre classes e estímulos. (B) Imagens otimizadas para gerar respostas em três filtros de exemplo entre os 10 principais filtros selecionados para a tarefa de face (esquerda) e objeto (direita) nas camadas convolucionais 5, 9 e 13 (linhas). O tamanho dos campos receptivos aumenta e os recursos se tornam mais específicos para tarefas em camadas posteriores. Crédito: Science Advances (2022). DOI: 10.1126/sciadv.abl8913

Formando uma rede de treinamento duplo

Para contornar limitações, Dobs et al. questionaram se o treinamento de uma única rede para executar ambas as tarefas levaria à descoberta de um espaço comum de recursos de alto desempenho para rostos e objetos. Para resolver isso, eles treinaram uma nova rede em identidade de rosto e categorização de objetos. A rede de duas tarefas inesperadamente teve um desempenho quase tão bom em cada tarefa, indicando um espaço de recursos comum para as redes resolverem ambas as tarefas, argumentando contra a hipótese de especialização funcional para alto desempenho de tarefas. Outra possibilidade era que a rede aprendeu a se segregar em reconhecimento de rosto e objeto, embora a equipe não tenha construído nada na arquitetura de rede para facilitar isso. Para testar essa possibilidade, eles realizaram uma série de experimentos, e os resultados indicaram a segregação espontânea da rede em subsistemas distintos para reconhecimento de rostos e objetos, apesar da falta de um viés indutivo específico da tarefa para incentivar o resultado.

A CNN de treino duplo está mais correlacionada com o comportamento. Correlações entre RDMs comportamentais para estímulos de face (esquerda, n = 14) ou objeto (direita, n = 15) e RDMs específicos de camada obtidos a partir de padrões de ativação no Face CNN (vermelho), no Objeto CNN (em amarelo) e a CNN de dupla tarefa (em cinza) aos estímulos correspondentes. As áreas sombreadas de cor denotam SEM bootstrap entre os participantes. As barras horizontais sombreadas em cinza indicam o teto de ruído estimado com base na variabilidade entre os participantes. Crédito: Science Advances (2022). DOI: 10.1126/sciadv.abl8913

Aumento da segregação de tarefas em camadas como o cérebro

Dobs et ai. em seguida, determinou se a segregação de tarefas foi construída em camadas da rede. Nos cérebros dos primatas, as categorias usuais são processadas para compartilhar um conjunto inicial de características comuns, durante os estágios iniciais de processamento (retina etc.), seguido pela ramificação em caminhos específicos da categoria (face, corpo, etc.). A equipe procurou entender essas semelhanças com as CNNs (redes neurais convolucionais) de treinamento duplo e descobriu que a segregação de tarefas era pequena nas camadas iniciais, enquanto aumentava nas camadas posteriores. De acordo com os resultados, o processamento de rostos e objetos divergiu gradualmente nos estágios intermediários do processamento dentro da rede para se tornar altamente segregado nos estágios posteriores, bem como os recursos observados no cérebro dos primatas. Estudos posteriores das características destacaram a hierarquia de processamento. Os resultados mostraram que o alto grau de segregação funcional observado não surgiu de vieses do conjunto de dados, mas foi impulsionado por características visuais distintas de nível médio a alto por tarefa.

Segregação espontânea em graus variados para reconhecimento de alimentos ou carros. (A) Além do modelo de tarefa dupla para tarefas de rosto e objeto (vermelho), treinamos um modelo de tarefa dupla para categorização de comida (verde) e objeto e outro para categorização de carro (azul) e objeto. (B) A segregação de tarefas foi medida pela lesão dos filtros que mais contribuíram para rostos, comida e carros (respectivamente) e objetos em cada camada convolucional. A segregação de tarefas foi encontrada para todas as tarefas em graus variados. A segregação de tarefas para carros e objetos aumentou mais tarde, em menor grau, do que para alimentos ou rostos e objetos. As áreas sombreadas denotam 95% de CIs bootstrap em todas as classes e estímulos. Crédito: Science Advances (2022). DOI: 10.1126/sciadv.abl8913

Redes funcionalmente segregadas e segregação funcional variável

O trabalho espelhava a especialização funcional no sistema visual humano, embora não estivesse claro se as espécies de recursos aprendidas poderiam ter um desempenho semelhante ao sistema visual humano. Para examinar isso, Dobs et al. realizou dois experimentos comportamentais para medir a semelhança percebida de estímulos de rosto e objeto. Para cada tarefa, a equipe correlacionou as matrizes de dissimilaridade de representação comportamental de cada participante para cada camada de redes neurais complicadas treinadas em face, treinadas em objetos e treinadas em tarefas duplas. A rede de tarefa dupla capturou o comportamento humano tanto na face quanto nas tarefas para mostrar como as soluções aprendidas executavam tarefas semelhantes ao sistema visual humano e explorou essa configuração para outras categorias visuais. O resultado indicou que, embora a segregação funcional encontrada no cérebro também pudesse ser encontrada em redes neurais complicadas, os cérebros não se assemelhavam inteiramente às nuances das redes neurais.

Panorama

Desta forma, Katharina Dobs e colegas examinaram de forma abrangente a especialização funcional da organização cerebral para testar a hipótese de que a especialização no cérebro pode resultar da otimização para múltiplas tarefas naturais. Eles previram que sistemas computacionais muito diferentes podem chegar a uma solução semelhante e testaram a hipótese em redes neurais complicadas (CNNs) para entender um dos casos mais bem estabelecidos de especialização funcional no cérebro – reconhecimento facial. Os resultados destacaram de forma interessante por que o cérebro é organizado do jeito que é. Os resultados indicam que a segregação funcional é uma consequência natural da resolução de múltiplas tarefas. Os métodos desenvolvidos neste trabalho permitirão aos cientistas testar essas hipóteses e outras ideias.


Publicado em 26/03/2022 09h51

Artigo original:

Estudo original: