A IA usa ‘atalhos’ potencialmente perigosos para resolver tarefas complexas de reconhecimento

Os pesquisadores revelaram que as redes neurais convolucionais profundas eram insensíveis às propriedades dos objetos de configuração.

Redes neurais convolucionais profundas (DCNNs) não veem as coisas da mesma maneira que os humanos (através da percepção de forma configurável), o que pode ser prejudicial em aplicações de IA do mundo real, de acordo com o professor James Elder, coautor de um estudo da Universidade de York recentemente publicado na revista iScience.

O estudo, conduzido por Elder, que detém a cátedra de pesquisa de York em visão humana e computacional e é co-diretor do Centro de IA e Sociedade de York, e Nicholas Baker, professor assistente de psicologia no Loyola College em Chicago e ex-pós-doutorado da VISTA bolsista em York, descobre que os modelos de deep learning não conseguem capturar a natureza configuracional da percepção da forma humana.

A fim de investigar como o cérebro humano e as DCNNs percebem as propriedades holísticas e configuráveis dos objetos, a pesquisa usou novos estímulos visuais conhecidos como “Frankensteins”.

“Frankensteins são simplesmente objetos que foram desmontados e montados de forma errada”, diz Elder. “Como resultado, eles têm todos os recursos locais certos, mas nos lugares errados.”

Os pesquisadores descobriram que enquanto os Frankensteins confundem o sistema visual humano, os DCNNs não, revelando uma insensibilidade às propriedades dos objetos de configuração.

“Nossos resultados explicam por que modelos profundos de IA falham sob certas condições e apontam para a necessidade de considerar tarefas além do reconhecimento de objetos para entender o processamento visual no cérebro”, diz Elder. “Esses modelos profundos tendem a usar “atalhos” ao resolver tarefas complexas de reconhecimento. Embora esses atalhos possam funcionar em muitos casos, eles podem ser perigosos em alguns dos aplicativos de IA do mundo real em que estamos trabalhando atualmente com nossos parceiros do setor e do governo”, ressalta Elder.

Uma dessas aplicações são os sistemas de segurança de vídeo de trânsito: “Os objetos em uma cena de trânsito movimentada – os veículos, bicicletas e pedestres – obstruem uns aos outros e chegam aos olhos de um motorista como um amontoado de fragmentos desconectados”, explica Elder. “O cérebro precisa agrupar corretamente esses fragmentos para identificar as categorias e localizações corretas dos objetos. Um sistema de IA para monitoramento de segurança no trânsito que só é capaz de perceber os fragmentos individualmente falhará nessa tarefa, potencialmente entendendo mal os riscos para os usuários vulneráveis das vias.”

De acordo com os pesquisadores, as modificações no treinamento e na arquitetura destinadas a tornar as redes mais parecidas com o cérebro não levaram ao processamento configurável, e nenhuma das redes conseguiu prever com precisão os julgamentos de objetos humanos tentativa a tentativa. “Nós especulamos que, para corresponder à sensibilidade configurável humana, as redes devem ser treinadas para resolver uma gama mais ampla de tarefas de objetos além do reconhecimento de categorias”, observa Elder.


Publicado em 11/11/2022 15h28

Artigo original:

Estudo original: