O Machine Learning poderia alimentar uma crise de reprodutibilidade na ciência?

Uma tomografia computadorizada de um tumor nos pulmões humanos. Pesquisadores estão experimentando algoritmos de IA que podem detectar sinais precoces da doença.Crédito: K. H. Fung/SPL

O ‘vazamento de dados’ ameaça a confiabilidade do uso do aprendizado de máquina em todas as disciplinas, alertam pesquisadores.

Da biomedicina às ciências políticas, os pesquisadores usam cada vez mais o aprendizado de máquina como uma ferramenta para fazer previsões com base em padrões em seus dados. Mas as alegações em muitos desses estudos provavelmente serão exageradas, de acordo com um par de pesquisadores da Universidade de Princeton, em Nova Jersey. Eles querem soar um alarme sobre o que chamam de “crise de reprodutibilidade em formação” em ciências baseadas em aprendizado de máquina.

O aprendizado de máquina está sendo vendido como uma ferramenta que os pesquisadores podem aprender em poucas horas e usar sozinhos – e muitos seguem esse conselho, diz Sayash Kapoor, pesquisador de aprendizado de máquina em Princeton. “Mas você não esperaria que um químico aprendesse a administrar um laboratório usando um curso online”, diz ele. E poucos cientistas percebem que os problemas que encontram ao aplicar algoritmos de inteligência artificial (IA) são comuns a outros campos, diz Kapoor, coautor de uma pré-impressão sobre a “crise”. Os revisores não têm tempo para examinar esses modelos, então a academia atualmente carece de mecanismos para erradicar artigos irreprodutíveis, diz ele. Kapoor e seu coautor Arvind Narayanan criaram diretrizes para os cientistas evitarem tais armadilhas, incluindo uma lista de verificação explícita para enviar com cada artigo.

O que é reprodutibilidade?

A definição de reprodutibilidade de Kapoor e Narayanan é ampla. Ele diz que outras equipes devem ser capazes de replicar os resultados de um modelo, dados todos os detalhes sobre dados, código e condições – muitas vezes chamado de reprodutibilidade computacional, algo que já é uma preocupação para cientistas de machine learning. A dupla também define um modelo como irreprodutível quando os pesquisadores cometem erros na análise de dados que significam que o modelo não é tão preditivo quanto alegado.

Julgar tais erros é subjetivo e muitas vezes requer profundo conhecimento do campo em que o aprendizado de máquina está sendo aplicado. Alguns pesquisadores cujo trabalho foi criticado pela equipe discordam que seus artigos são falhos ou dizem que as alegações de Kapoor são fortes demais. Em estudos sociais, por exemplo, os pesquisadores desenvolveram modelos de aprendizado de máquina que visam prever quando um país provavelmente entrará em guerra civil. Kapoor e Narayanan afirmam que, uma vez corrigidos os erros, esses modelos não apresentam melhor desempenho do que as técnicas estatísticas padrão. Mas David Muchlinski, um cientista político do Instituto de Tecnologia da Geórgia em Atlanta, cujo artigo foi examinado pela dupla, diz que o campo da previsão de conflitos foi injustamente difamado e que estudos posteriores respaldam seu trabalho.

Ainda assim, o grito de guerra da equipe atingiu um acorde. Mais de 1.200 pessoas se inscreveram no que inicialmente era um pequeno workshop online sobre reprodutibilidade no dia 28 de julho, organizado por Kapoor e colegas, projetado para criar e divulgar soluções. “A menos que façamos algo assim, cada campo continuará a encontrar esses problemas repetidamente”, diz ele.

O otimismo excessivo sobre os poderes dos modelos de aprendizado de máquina pode ser prejudicial quando os algoritmos são aplicados em áreas como saúde e justiça, diz Momin Malik, cientista de dados da Clínica Mayo em Rochester, Minnesota, que deve falar no workshop. A menos que a crise seja resolvida, a reputação do aprendizado de máquina pode ser afetada, diz ele. “Estou um pouco surpreso que ainda não tenha havido uma falha na legitimidade do aprendizado de máquina. Mas acho que pode estar chegando muito em breve.”

Problemas de aprendizado de máquina

Kapoor e Narayanan dizem que armadilhas semelhantes ocorrem na aplicação do aprendizado de máquina a várias ciências. A dupla analisou 20 revisões em 17 campos de pesquisa e contou 329 trabalhos de pesquisa cujos resultados não puderam ser totalmente replicados devido a problemas na forma como o aprendizado de máquina foi aplicado1.

O próprio Narayanan não está imune: um artigo de 2015 sobre segurança de computadores do qual ele é coautor está entre os 329. “É realmente um problema que precisa ser tratado coletivamente por toda essa comunidade”, diz Kapoor.

As falhas não são culpa de nenhum pesquisador individual, acrescenta. Em vez disso, uma combinação de hype em torno da IA e freios e contrapesos inadequados é o culpado. A questão mais proeminente que Kapoor e Narayanan destacam é o “vazamento de dados”, quando as informações do conjunto de dados em que um modelo aprende incluem dados que são posteriormente avaliados. Se estes não estiverem totalmente separados, o modelo efetivamente já viu as respostas, e suas previsões parecem muito melhores do que realmente são. A equipe identificou oito tipos principais de vazamento de dados que os pesquisadores podem estar atentos.

Algum vazamento de dados é sutil. Por exemplo, o vazamento temporal ocorre quando os dados de treinamento incluem pontos posteriores aos dados de teste – o que é um problema porque o futuro depende do passado. Como exemplo, Malik aponta para um artigo de 2011 que afirmava que um modelo analisando o humor dos usuários do Twitter poderia prever o valor de fechamento do mercado de ações com uma precisão de 87,6%. Mas como a equipe testou o poder preditivo do modelo usando dados de um período anterior a parte de seu conjunto de treinamento, o algoritmo efetivamente pôde ver o futuro, diz ele.

Questões mais amplas incluem modelos de treinamento em conjuntos de dados que são mais estreitos do que a população que eles pretendem refletir, diz Malik. Por exemplo, uma IA que detecta pneumonia em radiografias de tórax que foi treinada apenas em pessoas mais velhas pode ser menos precisa em indivíduos mais jovens. Outro problema é que os algoritmos muitas vezes acabam contando com atalhos que nem sempre funcionam, diz Jessica Hullman, cientista da computação da Northwestern University em Evanston, Illinois, que falará no workshop. Por exemplo, um algoritmo de visão computacional pode aprender a reconhecer uma vaca pelo fundo gramado na maioria das imagens de vacas, então falharia quando encontrasse uma imagem do animal em uma montanha ou praia.

A alta precisão das previsões nos testes muitas vezes leva as pessoas a pensar que os modelos estão captando a “verdadeira estrutura do problema” de uma maneira humana, diz ela. A situação é semelhante à crise de replicação na psicologia, na qual as pessoas confiam demais nos métodos estatísticos, acrescenta ela.

O hype sobre os recursos do aprendizado de máquina contribuiu para que os pesquisadores aceitassem seus resultados com muita facilidade, diz Kapoor. A palavra “previsão” em si é problemática, diz Malik, já que a maioria das previsões é de fato testada retrospectivamente e não tem nada a ver com prever o futuro.

Corrigindo vazamento de dados

A solução de Kapoor e Narayanan para lidar com o vazamento de dados é que os pesquisadores incluam em seus manuscritos evidências de que seus modelos não têm cada um dos oito tipos de vazamento. Os autores sugerem um modelo para tal documentação, que eles chamam de folhas de “informações do modelo”.

Nos últimos três anos, a biomedicina avançou com uma abordagem semelhante, diz Xiao Liu, oftalmologista clínico da Universidade de Birmingham, Reino Unido, que ajudou a criar diretrizes de relatórios para estudos que envolvem IA, por exemplo, em triagem ou diagnóstico. Em 2019, Liu e seus colegas descobriram que apenas 5% dos mais de 20.000 artigos que usam IA para imagens médicas foram descritos com detalhes suficientes para discernir se funcionariam em um ambiente clínico. As diretrizes não melhoram diretamente os modelos de ninguém, mas “tornam realmente óbvio quem são as pessoas que o fizeram bem, e talvez as que não o fizeram bem”, diz ela, que é um recurso que os reguladores podem toque em.

A colaboração também pode ajudar, diz Malik. Ele sugere que os estudos envolvam especialistas na disciplina relevante e pesquisadores em aprendizado de máquina, estatística e amostragem de pesquisas.

Os campos nos quais o aprendizado de máquina encontra pistas para acompanhamento – como a descoberta de medicamentos – provavelmente se beneficiarão enormemente da tecnologia, diz Kapoor. Mas outras áreas precisarão de mais trabalho para mostrar que será útil, acrescenta. Embora o aprendizado de máquina ainda seja relativamente novo em muitos campos, os pesquisadores devem evitar o tipo de crise de confiança que se seguiu à crise de replicação na psicologia há uma década, diz ele. “Quanto mais adiarmos, maior será o problema.”


Publicado em 30/07/2022 08h35

Artigo original: