Google revela grande fraqueza oculta no Machine Learning

Imagem via Pixabay

#Machine Learning 

Algoritmos de deep learning são propensos a um problema previamente desconhecido, diz uma equipe de cientistas da computação do Google.

Nos últimos anos, as máquinas tornaram-se quase tão boas quanto os humanos, e às vezes melhores, em uma ampla gama de habilidades – por exemplo, reconhecimento de objetos, processamento de linguagem natural e diagnósticos baseados em imagens médicas.

E, no entanto, as máquinas treinadas dessa maneira ainda cometem erros nos quais os humanos nunca cairiam. Por exemplo, pequenas alterações em uma imagem, que um ser humano ignoraria, podem forçar uma máquina a rotulá-la completamente. Isso tem implicações potencialmente sérias em aplicações das quais dependem vidas humanas, como diagnósticos médicos.

Portanto, os cientistas da computação estão desesperados para entender as limitações do machine learning com mais detalhes. Agora, uma equipe formada principalmente por engenheiros de computação do Google identificou uma fraqueza totalmente nova no centro do processo de machine learning que leva a esses problemas.

Conhecida como subespecificação, a equipe mostra como isso influencia em uma ampla variedade de aplicações de machine learning, que vão desde a visão computacional até a genômica médica. E eles dizem que os protocolos de machine learning precisam ser revisados para testar essas deficiências, principalmente para aplicativos do mundo real.

Conhecida como subespecificação, a equipe mostra como isso influencia em uma ampla variedade de aplicações de machine learning, que vão desde a visão computacional até a genômica médica. E eles dizem que os protocolos de machine learning precisam ser revisados para testar essas deficiências, principalmente para aplicativos do mundo real.

Primeiro, alguns antecedentes. O machine learning envolve o treinamento de um modelo com dados para que ele aprenda a detectar ou prever recursos. A equipe do Google segue o exemplo do treinamento de um sistema de machine learning para prever o curso de uma pandemia.

Modelagem Pandêmica

Os epidemiologistas construíram modelos detalhados de como uma doença se espalha de indivíduos infectados para indivíduos suscetíveis, mas não para aqueles que se recuperaram – e, portanto, estão imunes. Os principais fatores nessa disseminação são a taxa de infecção, geralmente chamada de R0, e o período de tempo, D, durante o qual um indivíduo infectado permanece infeccioso.

Obviamente, uma doença pode se espalhar mais amplamente quando é mais infecciosa e quando as pessoas são infecciosas por mais tempo. No entanto, a doença torna-se menos capaz de se espalhar à medida que mais pessoas se recuperam, eventualmente aumentando a imunidade do rebanho.

Portanto, uma tarefa importante é determinar R0 e D no início da pandemia, quando o número de infecções está crescendo rapidamente. Esses parâmetros definem o curso da doença, incluindo características como número máximo de infecções e como esse número cai gradualmente ao longo do tempo.

Os epidemiologistas precisam desesperadamente saber disso no início de uma pandemia, pois determina quando e se os hospitais ficarão sobrecarregados.

Um modelo de machine learning pode ajudar. Ele pode simular o progresso da pandemia aprendendo os parâmetros R0 e D dos dados coletados no início da progressão da doença. Uma vez conhecidos esses números, ele pode prever toda a evolução da doença.

Mas a equipe do Google diz que esses parâmetros são subespecificados durante os estágios iniciais de uma pandemia. O que eles querem dizer com isso é que existem muitos pares de valores, R0 e D, que descrevem com precisão o mesmo crescimento exponencial inicial.

No entanto, esses pares podem levar a previsões drasticamente diferentes posteriormente. “Quando usados para prever a trajetória da epidemia, esses parâmetros produzem previsões muito diferentes”, diz a equipe.

O problema surge porque o processo de machine learning não tem como escolher corretamente entre esses pares. De fato, a equipe do Google continua mostrando que os parâmetros que a máquina escolhe podem depender de decisões totalmente arbitrárias na forma como o modelo é configurado.

As autoridades de saúde pública podem evitar o problema da subespecificação restringindo o problema com informações adicionais, como medições reais de quanto tempo os pacientes estão infecciosos, o que influencia D, e os padrões de contato na população, o que influencia R0.

Este é um exemplo relativamente simples, mas uma descoberta importante da equipe do Google é que a subespecificação também ocorre em muitas outras situações. “Em geral, a solução para um problema é subespecificada se houver muitas soluções distintas que resolvem o problema de forma equivalente”, dizem eles. Mas nem todas essas soluções fazem as mesmas previsões.

Cenários Reais

A equipe continua mostrando como a subespecificação ocorre em uma variedade surpreendentemente ampla de cenários reais de deep learning. Isso inclui análise de imagens médicas, diagnósticos clínicos baseados em registros eletrônicos de saúde e processamento de linguagem natural.

A equipe do Google mostra que pequenas mudanças, como modificar as sementes aleatórias usadas no treinamento, podem forçar um modelo a uma solução totalmente diferente e, assim, levar a previsões diferentes. Eles também mostram como isso pode fazer com que os modelos herdem vieses no conjunto de dados que não têm nada a ver com a tarefa de previsão que estão realizando.

Além do mais, é provável que o problema seja muito mais generalizado do que a equipe do Google encontrou. Seu objetivo era simplesmente detectar a subespecificação, em vez de caracterizá-la completamente. Portanto, é provável que tenham subestimado sua prevalência. “A extrema complexidade dos modelos modernos de machine learning garante que algum aspecto do modelo quase certamente será subespecificado”, dizem eles.

Se esses aspectos puderem ser detectados com antecedência, existem várias maneiras de lidar com a subespecificação. Uma delas é projetar “testes de estresse” para ver o desempenho de um modelo em dados do mundo real e detectar possíveis problemas.

No entanto, isso requer um bom entendimento de como o modelo pode dar errado. “Projetar testes de estresse que correspondam bem aos requisitos aplicados e que forneçam boa “cobertura” de possíveis modos de falha é um grande desafio”, diz a equipe.

Esse é um trabalho interessante que revela um calcanhar de Aquiles importante e anteriormente não apreciado no machine learning. Ele coloca limitações importantes na credibilidade das previsões de machine learning e pode forçar algum repensar sobre certos aplicativos. Será necessária atenção especial, principalmente onde o machine learning fizer parte de sistemas ligados ao bem-estar humano, como carros autônomos e imagens médicas.

Nesses cenários, pontos cegos relativamente pequenos nos recursos de machine learning podem ter implicações de vida ou morte.


Publicado em 28/07/2023 22h14

Artigo original: