O transfer learning oferece novos insights sobre a estimativa de erros de machine learning

Crédito: Domínio Público CC0

Omar Maddouri, estudante de doutorado no Departamento de Engenharia Elétrica e de Computação da Texas A&M University, está trabalhando com o Dr. Byung-Jun Yoon, professor, e o Dr. Edward Dougherty, Robert M. Kennedy Chair Professor, para avaliar modelos de aprendizado de máquina usando princípios de transferência de aprendizagem. O Dr. Francis “Frank” Alexander, do Brookhaven National Labs, e o Dr. Xiaoning Qian, do Departamento de Engenharia Elétrica e de Computação da Texas A&M University, também estão envolvidos no projeto.

No aprendizado de máquina orientado a dados, os modelos são criados para fazer previsões e estimativas do que está por vir em qualquer conjunto de dados. Um campo importante dentro do aprendizado de máquina é a classificação, que permite que um conjunto de dados seja avaliado por um algoritmo e depois classificado ou dividido em classes ou categorias. Quando os conjuntos de dados fornecidos são muito pequenos, pode ser muito desafiador não apenas construir um modelo de classificação com base nesses dados, mas também avaliar o desempenho desse modelo, garantindo sua precisão. É aqui que a transferência de aprendizagem entra em jogo.

“Na aprendizagem por transferência, tentamos transferir conhecimento ou trazer dados de outro domínio para ver se podemos aprimorar a tarefa que estamos realizando no domínio de interesse ou domínio-alvo”, explicou Maddouri.

O domínio de destino é onde os modelos são construídos e seu desempenho é avaliado. O domínio de origem é um domínio separado que ainda é relevante para o domínio de destino do qual o conhecimento é transferido para facilitar a análise dentro do domínio de destino.

O projeto de Maddouri utiliza uma densidade prévia conjunta para modelar a relação entre os domínios de origem e destino e oferece uma abordagem bayesiana para aplicar os princípios de aprendizado de transferência para fornecer um estimador de erro geral dos modelos. Um estimador de erro fornecerá uma estimativa da precisão desses modelos de aprendizado de máquina na classificação dos conjuntos de dados disponíveis.

O que isso significa é que, antes que qualquer dado seja observado, a equipe cria um modelo usando suas inferências iniciais sobre os parâmetros do modelo nos domínios de destino e origem e, em seguida, atualiza esse modelo com maior precisão à medida que mais evidências ou informações sobre os conjuntos de dados ficam disponíveis.

Esta técnica de aprendizagem por transferência foi usada para construir modelos em trabalhos anteriores; no entanto, ninguém jamais usou essa técnica de aprendizado de transferência para propor novos estimadores de erro para avaliar o desempenho desses modelos. Para uma utilização eficiente, o estimador desenvolvido foi implementado usando métodos estatísticos avançados que permitiram uma triagem rápida dos conjuntos de dados de origem, o que aumenta a complexidade computacional do processo de aprendizagem por transferência em 10 a 20 vezes.

Essa técnica pode ajudar a servir como referência para futuras pesquisas na academia. Além disso, pode ajudar a identificar ou classificar diferentes problemas médicos que, de outra forma, seriam muito difíceis. Por exemplo, Maddouri utilizou essa técnica para classificar pacientes com esquizofrenia usando dados transcriptômicos de amostras de tecido cerebral originalmente adquiridas por biópsias cerebrais invasivas. Devido à natureza e à localização da região do cérebro que pode ser analisada para esse distúrbio, os dados coletados são muito limitados. No entanto, usando um rigoroso procedimento de seleção de recursos que compreende análise diferencial de expressão gênica e testes estatísticos para validade de suposições, a equipe de pesquisa identificou perfis transcriptômicos de três genes de uma região cerebral adicional considerada altamente relevante para o tecido cerebral desejado, conforme relatado por pesquisas independentes. estudos de outras literaturas.

Esse conhecimento permitiu que eles utilizassem a técnica de aprendizado de transferência para alavancar amostras coletadas da segunda região do cérebro (domínio de origem) para ajudar na análise e aumentar significativamente a precisão do diagnóstico na região do cérebro original (domínio de destino). Os dados coletados do domínio de origem podem ser exploratórios na ausência de informações do domínio de destino, permitindo que a equipe de pesquisa melhore a qualidade de sua conclusão.


Publicado em 11/03/2022 01h05

Artigo original:

Estudo original: