Uso de Machine Learning para prever pesquisas de alto impacto

Os pesquisadores do MIT projetaram uma estrutura de aprendizado de máquina que, computando no gráfico de pesquisa científica histórica, é capaz de prever o impacto futuro da pesquisa científica. Crédito: Massachusetts Institute of Technology

Uma estrutura de inteligência artificial construída por pesquisadores do MIT pode dar um sinal de “alerta precoce” para futuras tecnologias de alto impacto, aprendendo a partir de padrões obtidos em publicações científicas anteriores.

Em um teste retrospectivo de suas capacidades, DELPHI, abreviação de Dynamic Early-warning por Learning to Predict High Impact, foi capaz de identificar todos os artigos pioneiros em uma lista de especialistas das principais biotecnologias seminais, às vezes já no primeiro ano após sua publicação .

James W. Weis, um afiliado de pesquisa do MIT Media Lab, e Joseph Jacobson, um professor de artes e ciências da mídia e chefe do grupo de pesquisa de máquinas moleculares do Media Lab, também usaram o DELPHI para destacar 50 artigos científicos recentes que eles preveem que serão alto impacto até 2023. Os tópicos cobertos pelos artigos incluem nanorrobôs de DNA usados para tratamento de câncer, baterias de lítio-oxigênio de alta densidade de energia e síntese química usando redes neurais profundas, entre outros.

Os pesquisadores vêem o DELPHI como uma ferramenta que pode ajudar os humanos a alavancar melhor o financiamento para a pesquisa científica, identificando tecnologias de “diamante bruto” que poderiam definhar e oferecendo uma maneira para governos, filantropia e empresas de capital de risco apoiarem a ciência de forma mais eficiente e produtiva .

“Em essência, nosso algoritmo funciona aprendendo padrões da história da ciência e, em seguida, combinando padrões em novas publicações para encontrar os primeiros sinais de alto impacto”, diz Weis. “Ao rastrear a disseminação inicial de ideias, podemos prever a probabilidade de se tornarem virais ou se espalharem para a comunidade acadêmica mais ampla de uma forma significativa.”

O artigo foi publicado na Nature Biotechnology.

Procurando pelo “diamante em bruto”

O algoritmo de aprendizado de máquina desenvolvido por Weis e Jacobson aproveita a vasta quantidade de informações digitais que agora estão disponíveis com o crescimento exponencial da publicação científica desde os anos 1980. Mas em vez de usar medidas unidimensionais, como o número de citações, para julgar o impacto de uma publicação, DELPHI foi treinado em uma rede de série de tempo completa de metadados de artigos de periódicos para revelar padrões de dimensões superiores em sua propagação pelo ecossistema científico.

O resultado é um gráfico de conhecimento que contém as conexões entre os nós que representam artigos, autores, instituições e outros tipos de dados. A força e o tipo das conexões complexas entre esses nós determinam suas propriedades, que são usadas na estrutura. “Esses nós e arestas definem um gráfico baseado em tempo que DELPHI usa para aprender padrões que são preditivos de alto impacto futuro”, explica Weis.

Juntos, esses recursos de rede são usados para prever o impacto científico, com artigos que se enquadram nos 5% principais da centralidade do nó escalonado no tempo cinco anos após a publicação, considerados o conjunto de alvos de “alto impacto” que a DELPHI pretende identificar. Esses 5% dos papéis principais constituem 35% do impacto total no gráfico. O DELPHI também pode usar pontos de corte dos primeiros 1, 10 e 15 por cento da centralidade do nó na escala de tempo, dizem os autores.

DELPHI sugere que artigos altamente impactantes se espalharam quase que viralmente fora de suas disciplinas e comunidades científicas menores. Dois artigos podem ter o mesmo número de citações, mas artigos de grande impacto alcançam um público mais amplo e profundo. Os papéis de baixo impacto, por outro lado, “não estão realmente sendo utilizados e aproveitados por um grupo de pessoas em expansão”, diz Weis.

A estrutura pode ser útil para “incentivar equipes de pessoas a trabalharem juntas, mesmo que ainda não se conheçam – talvez direcionando recursos para que se unam para trabalhar em problemas multidisciplinares importantes”, acrescenta.

Comparado apenas ao número de citações, DELPHI identifica mais do dobro de artigos de alto impacto, incluindo 60 por cento de “joias ocultas” ou artigos que seriam perdidos por um limite de citação.

“Avançar na pesquisa fundamental significa dar muitos chutes a gol e, então, ser capaz de dobrar rapidamente com base nas melhores ideias”, diz Jacobson. “Este estudo foi para ver se poderíamos fazer esse processo de uma forma mais escalonada, usando a comunidade científica como um todo, como embutido no gráfico acadêmico, além de ser mais inclusivo na identificação de direções de pesquisa de alto impacto.”

Os pesquisadores ficaram surpresos com o quão cedo, em alguns casos, o “sinal de alerta” de um papel altamente impactante aparece usando DELPHI. “Dentro de um ano da publicação, já estamos identificando joias escondidas que terão um impacto significativo mais tarde”, diz Weis.

Ele avisa, no entanto, que DELPHI não está exatamente prevendo o futuro. “Estamos usando o aprendizado de máquina para extrair e quantificar sinais que estão ocultos na dimensionalidade e na dinâmica dos dados que já existem.”

Financiamento justo, eficiente e eficaz

A esperança, dizem os pesquisadores, é que o DELPHI ofereça uma maneira menos tendenciosa de avaliar o impacto de um artigo, já que outras medidas, como citações e número do fator de impacto do periódico, podem ser manipuladas, conforme estudos anteriores mostraram.

“Esperamos poder usar isso para encontrar as pesquisas e pesquisadores mais merecedores, independentemente das instituições às quais sejam afiliados ou quão conectados estejam”, diz Weis.

Como acontece com todas as estruturas de aprendizado de máquina, no entanto, designers e usuários devem estar alertas para preconceitos, acrescenta. “Precisamos estar constantemente cientes dos vieses em potencial em nossos dados e modelos. Queremos que a DELPHI ajude a encontrar a melhor pesquisa de uma forma menos tendenciosa – portanto, precisamos ter cuidado com os nossos modelos não aprendendo a prever o impacto futuro apenas sobre o com base em métricas abaixo do ideal, como índice h, contagem de citações do autor ou afiliação institucional. ”

O DELPHI pode ser uma ferramenta poderosa para ajudar o financiamento científico a se tornar mais eficiente e eficaz, e talvez ser usado para criar novas classes de produtos financeiros relacionados ao investimento científico.

“A emergente metaciência do financiamento da ciência está apontando para a necessidade de uma abordagem de portfólio para o investimento científico”, observa David Lang, diretor executivo da Experiment Foundation. “Weis e Jacobson deram uma contribuição significativa para esse entendimento e, mais importante, sua implementação com DELPHI.”

É algo em que Weis pensou muito depois de suas próprias experiências no lançamento de fundos de capital de risco e instalações de incubação de laboratórios para startups de biotecnologia.

“Fiquei cada vez mais ciente de que os investidores, inclusive eu, estavam constantemente procurando novas empresas nos mesmos locais e com os mesmos preconceitos”, diz ele. “Há uma enorme riqueza de pessoas altamente talentosas e tecnologia incrível que comecei a vislumbrar, mas isso muitas vezes é esquecido. Achei que deveria haver uma maneira de trabalhar neste espaço – e que o aprendizado de máquina poderia nos ajudar a encontrar e realizar de forma mais eficaz todo esse potencial não explorado. “


Publicado em 22/05/2021 16h01

Artigo original:

Estudo original: