Os modelos de aprendizado de máquina podem superar conjuntos de dados tendenciosos?

Imagem via Unsplash

Os sistemas de inteligência artificial podem concluir tarefas rapidamente, mas isso não significa que eles sempre o façam de maneira justa. Se os conjuntos de dados usados para treinar modelos de aprendizado de máquina contiverem dados tendenciosos, é provável que o sistema possa exibir esse mesmo viés ao tomar decisões na prática.

Por exemplo, se um conjunto de dados contém principalmente imagens de homens brancos, um modelo de reconhecimento facial treinado com esses dados pode ser menos preciso para mulheres ou pessoas com diferentes tons de pele.

Um grupo de pesquisadores do MIT, em colaboração com pesquisadores da Harvard University e Fujitsu, Ltd., procurou entender quando e como um modelo de aprendizado de máquina é capaz de superar esse tipo de viés de conjunto de dados. Eles usaram uma abordagem da neurociência para estudar como os dados de treinamento afetam se uma rede neural artificial pode aprender a reconhecer objetos que não viu antes. Uma rede neural é um modelo de aprendizado de máquina que imita o cérebro humano na forma como contém camadas de nós interconectados, ou “neurônios”, que processam dados.

Os novos resultados mostram que a diversidade nos dados de treinamento tem uma grande influência sobre se uma rede neural é capaz de superar o viés, mas ao mesmo tempo a diversidade do conjunto de dados pode degradar o desempenho da rede. Eles também mostram que como uma rede neural é treinada e os tipos específicos de neurônios que surgem durante o processo de treinamento podem desempenhar um papel importante na capacidade de superar um conjunto de dados tendencioso.

“Uma rede neural pode superar o viés do conjunto de dados, o que é encorajador. Mas a principal conclusão aqui é que precisamos levar em consideração a diversidade de dados. Precisamos parar de pensar que, se você coletar uma tonelada de dados brutos, isso será Em primeiro lugar, precisamos ser muito cuidadosos sobre como projetamos conjuntos de dados”, diz Xavier Boix, pesquisador do Departamento de Cérebro e Ciências Cognitivas (BCS) e do Centro de Cérebros, Mentes e Máquinas (CBMM ), e autor sênior do artigo.

Os co-autores incluem ex-alunos de pós-graduação Spandan Madan, um autor correspondente que atualmente está cursando um doutorado. em Harvard, Timothy Henry, Jamell Dozier, Helen Ho e Nishchal Bhandari; Tomotake Sasaki, um ex-cientista visitante agora pesquisador da Fujitsu; Frédo Durand, professor de engenharia elétrica e ciência da computação e membro do Laboratório de Ciência da Computação e Inteligência Artificial; e Hanspeter Pfister, professor An Wang de Ciência da Computação na Escola de Engenharia e Ciências Aplicadas de Harvard. A pesquisa aparece hoje na Nature Machine Intelligence.

Pensando como um neurocientista

Boix e seus colegas abordaram o problema do viés do conjunto de dados pensando como neurocientistas. Na neurociência, explica Boix, é comum usar conjuntos de dados controlados em experimentos, ou seja, um conjunto de dados em que os pesquisadores sabem o máximo possível sobre as informações que ele contém.

A equipe construiu conjuntos de dados que continham imagens de objetos diferentes em poses variadas e controlou cuidadosamente as combinações para que alguns conjuntos de dados tivessem mais diversidade do que outros. Nesse caso, um conjunto de dados teria menos diversidade se contiver mais imagens que mostrem objetos de apenas um ponto de vista. Um conjunto de dados mais diversificado tinha mais imagens mostrando objetos de vários pontos de vista. Cada conjunto de dados continha o mesmo número de imagens.

Os pesquisadores usaram esses conjuntos de dados cuidadosamente construídos para treinar uma rede neural para classificação de imagens e, em seguida, estudaram quão bem ela era capaz de identificar objetos de pontos de vista que a rede não viu durante o treinamento (conhecido como uma combinação fora de distribuição).

Por exemplo, se os pesquisadores estão treinando um modelo para classificar carros em imagens, eles querem que o modelo aprenda como são os diferentes carros. Mas se cada Ford Thunderbird no conjunto de dados de treinamento for mostrado de frente, quando o modelo treinado receber uma imagem de um Ford Thunderbird fotografado de lado, ele poderá classificá-lo incorretamente, mesmo que tenha sido treinado em milhões de fotos de carros.

Os pesquisadores descobriram que, se o conjunto de dados for mais diversificado – se mais imagens mostrarem objetos de diferentes pontos de vista – a rede será mais capaz de generalizar para novas imagens ou pontos de vista. A diversidade de dados é a chave para superar o preconceito, diz Boix.

“Mas não é como se mais diversidade de dados fosse sempre melhor; há uma tensão aqui. Quando a rede neural melhorar em reconhecer coisas novas que não viu, será mais difícil reconhecer coisas que já viu,” ele diz.

Testar métodos de treinamento

Os pesquisadores também estudaram métodos para treinar a rede neural.

No aprendizado de máquina, é comum treinar uma rede para executar várias tarefas ao mesmo tempo. A ideia é que, se existir uma relação entre as tarefas, a rede aprenderá a realizar melhor cada uma delas se as aprender em conjunto.

Mas os pesquisadores descobriram que o oposto é verdadeiro – um modelo treinado separadamente para cada tarefa foi capaz de superar o viés muito melhor do que um modelo treinado para ambas as tarefas juntos.

“Os resultados foram realmente impressionantes. Na verdade, na primeira vez que fizemos esse experimento, pensamos que era um bug. Levamos várias semanas para perceber que era um resultado real porque foi muito inesperado”, diz ele.

Eles mergulharam mais fundo nas redes neurais para entender por que isso ocorre.

Eles descobriram que a especialização dos neurônios parece desempenhar um papel importante. Quando a rede neural é treinada para reconhecer objetos em imagens, parece que surgem dois tipos de neurônios – um especializado em reconhecer a categoria do objeto e outro especializado em reconhecer o ponto de vista.

Quando a rede é treinada para realizar tarefas separadamente, esses neurônios especializados são mais proeminentes, explica Boix. Mas se uma rede for treinada para fazer as duas tarefas simultaneamente, alguns neurônios se diluirão e não se especializarão em uma tarefa. Esses neurônios não especializados são mais propensos a ficar confusos, diz ele.

“Mas a próxima pergunta agora é: como esses neurônios chegaram lá? Você treina a rede neural e eles emergem do processo de aprendizado. Ninguém disse à rede para incluir esses tipos de neurônios em sua arquitetura. Essa é a coisa fascinante”, disse. ele diz.

Essa é uma área que os pesquisadores esperam explorar com trabalhos futuros. Eles querem ver se podem forçar uma rede neural a desenvolver neurônios com essa especialização. Eles também querem aplicar sua abordagem a tarefas mais complexas, como objetos com texturas complicadas ou iluminações variadas.

Boix é encorajado que uma rede neural possa aprender a superar preconceitos, e espera que seu trabalho possa inspirar outras pessoas a serem mais atenciosas sobre os conjuntos de dados que estão usando em aplicativos de IA.


Publicado em 24/02/2022 09h22

Artigo original:

Estudo original: