Deep Neural Networks mostram-se promissoras como modelos de audição humana

No maior estudo já feito sobre redes neurais profundas treinadas para realizar tarefas auditivas, os pesquisadores do MIT descobriram que a maioria desses modelos gera representações internas que compartilham propriedades de representações vistas no cérebro humano quando as pessoas ouvem os mesmos sons.

Créditos:Imagem: iStock


doi.org/10.1371/journal.pbio.3002366
Credibilidade: 989
#Audição 

Estudo mostra que modelos computacionais treinados para realizar tarefas auditivas apresentam uma organização interna semelhante à do córtex auditivo humano.

Modelos computacionais que imitam a estrutura e a função do sistema auditivo humano poderiam ajudar os pesquisadores a projetar melhores aparelhos auditivos, implantes cocleares e interfaces cérebro-máquina. Um novo estudo do MIT descobriu que os modelos computacionais modernos derivados do machine learning estão se aproximando desse objetivo.

No maior estudo até agora sobre redes neurais profundas que foram treinadas para realizar tarefas auditivas, a equipe do MIT mostrou que a maioria desses modelos gera representações internas que compartilham propriedades de representações vistas no cérebro humano quando as pessoas ouvem os mesmos sons.

O estudo também oferece informações sobre a melhor forma de treinar este tipo de modelo: os pesquisadores descobriram que os modelos treinados na entrada auditiva, incluindo o ruído de fundo, imitam mais de perto os padrões de ativação do córtex auditivo humano.

“O que diferencia este estudo é que é a comparação mais abrangente desses tipos de modelos com o sistema auditivo até agora. O estudo sugere que os modelos derivados do machine learning são um passo na direção certa e nos dá algumas pistas sobre o que tende a torná-los melhores modelos do cérebro”, diz Josh McDermott, professor associado de cérebro e cognição. ciências no MIT, membro do Instituto McGovern de Pesquisa do Cérebro e do Centro para Cérebros, Mentes e Máquinas do MIT, e autor sênior do estudo.

A estudante de pós-graduação do MIT Greta Tuckute e Jenelle Feather PhD ’22 são as principais autoras do artigo de acesso aberto, que aparece hoje na PLOS Biology.

Modelos de audição

Redes neurais profundas são modelos computacionais que consistem em muitas camadas de unidades de processamento de informações que podem ser treinadas em grandes volumes de dados para executar tarefas específicas. Este tipo de modelo tornou-se amplamente utilizado em muitas aplicações, e os neurocientistas começaram a explorar a possibilidade de que estes sistemas também possam ser usados para descrever como o cérebro humano executa certas tarefas.

“Esses modelos construídos com machine learning são capazes de mediar comportamentos em uma escala que realmente não era possível com os tipos de modelos anteriores, e isso levou ao interesse em saber se as representações nos modelos podem ou não capturar coisas que estão acontecendo. no cérebro”, diz Tuckute.

Quando uma rede neural executa uma tarefa, suas unidades de processamento geram padrões de ativação em resposta a cada entrada de áudio que recebe, como uma palavra ou outro tipo de som. Essas representações do modelo da entrada podem ser comparadas aos padrões de ativação observados em exames cerebrais de fMRI de pessoas que ouvem a mesma entrada.

Em 2018, McDermott e o então estudante de graduação Alexander Kell relataram que quando treinaram uma rede neural para realizar tarefas auditivas (como reconhecer palavras de um sinal de áudio), as representações internas geradas pelo modelo mostraram semelhança com aquelas observadas em varreduras de fMRI de pessoas ouvindo os mesmos sons.

Desde então, estes tipos de modelos tornaram-se amplamente utilizados, pelo que o grupo de investigação de McDermott decidiu avaliar um conjunto maior de modelos, para ver se a capacidade de aproximar as representações neurais vistas no cérebro humano é uma característica geral destes modelos.

Para este estudo, os pesquisadores analisaram nove modelos de redes neurais profundas disponíveis publicamente que foram treinados para realizar tarefas auditivas, e também criaram 14 modelos próprios, baseados em duas arquiteturas diferentes. A maioria desses modelos foi treinada para realizar uma única tarefa – reconhecer palavras, identificar o locutor, reconhecer sons ambientais e identificar gênero musical – enquanto dois deles foram treinados para realizar múltiplas tarefas.

Quando os pesquisadores apresentaram a esses modelos sons naturais que haviam sido usados como estímulos em experimentos de fMRI humanos, eles descobriram que as representações internas do modelo tendiam a exibir semelhanças com aquelas geradas pelo cérebro humano. Os modelos cujas representações eram mais semelhantes às observadas no cérebro eram modelos que foram treinados em mais de uma tarefa e treinados em informações auditivas que incluíam ruído de fundo.

“Se você treinar modelos no ruído, eles fornecerão melhores previsões cerebrais do que se não o fizer, o que é intuitivamente razoável porque grande parte da audição no mundo real envolve ouvir no ruído, e isso é algo plausível para o qual o sistema auditivo está adaptado”, disse Feather.

Processamento hierárquico

O novo estudo também apoia a ideia de que o córtex auditivo humano possui algum grau de organização hierárquica, em que o processamento é dividido em estágios que suportam funções computacionais distintas. Tal como no estudo de 2018, os investigadores descobriram que as representações geradas em fases anteriores do modelo se assemelham mais às vistas no córtex auditivo primário, enquanto as representações geradas em fases posteriores do modelo se assemelham mais às geradas em regiões cerebrais para além do córtex primário.

Além disso, os pesquisadores descobriram que os modelos que foram treinados em diferentes tarefas eram melhores na replicação de diferentes aspectos da audição. Por exemplo, os modelos treinados em uma tarefa relacionada à fala se assemelhavam mais às áreas seletivas da fala.

“Mesmo que o modelo tenha visto exatamente os mesmos dados de treinamento e a arquitetura seja a mesma, quando você otimiza para uma tarefa específica, pode ver que isso explica seletivamente propriedades de ajuste específicas no cérebro”, diz Tuckute.

O laboratório de McDermott planeja agora usar suas descobertas para tentar desenvolver modelos que sejam ainda mais bem-sucedidos na reprodução das respostas do cérebro humano. Além de ajudar os cientistas a aprender mais sobre como o cérebro pode ser organizado, esses modelos também poderiam ser usados para ajudar a desenvolver melhores aparelhos auditivos, implantes cocleares e interfaces cérebro-máquina.

“Um objetivo do nosso campo é chegar a um modelo de computador que possa prever as respostas e o comportamento do cérebro. Acreditamos que, se conseguirmos atingir esse objetivo, abriremos muitas portas”, afirma McDermott.


Publicado em 07/01/2024 21h27

Artigo original:

Estudo original: