Mesmo ou diferente? A questão atrapalha as redes neurais.

Samuel Velasco / Revista Quanta

Apesar de todos os seus triunfos, os sistemas de IA não parecem generalizar os conceitos de “igual” e “diferente”. Sem isso, preocupam os pesquisadores, a busca pela criação de máquinas verdadeiramente inteligentes pode ser impossível.

O primeiro episódio de Vila Sésamo em 1969 incluiu um segmento chamado “Uma dessas coisas não é como a outra”. Os espectadores foram convidados a considerar um pôster que exibia três 2s e um W e decidir – enquanto cantava junto com o jingle homônimo do jogo – qual símbolo não pertencia. Dezenas de episódios de Vila Sésamo repetiram o jogo, comparando de tudo, desde padrões abstratos a pratos de vegetais. As crianças nunca tiveram que reaprender as regras. Compreender a distinção entre “mesmo” e “diferente” foi o suficiente.

As máquinas têm muito mais dificuldade. Uma das classes mais poderosas de sistemas de inteligência artificial, conhecida como redes neurais convolucionais ou CNNs, pode ser treinada para realizar uma série de tarefas sofisticadas melhor do que os humanos, desde o reconhecimento do câncer em imagens médicas até a escolha de movimentos em um jogo de Go. Mas uma pesquisa recente mostrou que as CNNs podem dizer se dois padrões visuais simples são idênticos ou não apenas em condições muito limitadas. Varie essas condições, mesmo que ligeiramente, e o desempenho da rede cai.

Esses resultados têm causado debate entre pesquisadores de aprendizagem profunda e cientistas cognitivos. Uma melhor engenharia produzirá CNNs que entendam a mesmice e a diferença da maneira generalizável que as crianças fazem? Ou os poderes de raciocínio abstrato das CNNs são fundamentalmente limitados, não importa o quão habilmente eles sejam construídos e treinados? Seja qual for o caso, a maioria dos pesquisadores parece concordar que compreender as relações iguais-diferentes é uma característica crucial da inteligência, artificial ou não.

“Não apenas você e eu temos sucesso na mesma tarefa diferente, mas um bando de animais não humanos também – incluindo patinhos e abelhas”, disse Chaz Firestone, que estuda cognição visual na Universidade Johns Hopkins.

A capacidade de ter sucesso na tarefa pode ser considerada a base para todos os tipos de inferências que os humanos fazem. Adam Santoro, pesquisador da DeepMind, disse que o laboratório de IA do Google está “estudando relações iguais-diferentes de uma forma holística”, não apenas em cenas visuais, mas também em linguagem natural e interações físicas. “Quando peço a um agente [AI] para “pegar o carrinho de brinquedo”, fica implícito que estou falando sobre o mesmo carro com que estivemos brincando, e não um carro de brinquedo diferente na sala ao lado”, explicou ele. Um levantamento recente de pesquisas sobre o mesmo raciocínio diferente também enfatizou esse ponto. “Sem a capacidade de reconhecer a mesmice”, escreveram os autores, “parece haver pouca esperança de realizar o sonho de criar máquinas de raciocínio visual verdadeiramente inteligentes.”

Relações iguais e diferentes têm perseguido redes neurais desde pelo menos 2013, quando o pioneiro pesquisador de IA Yoshua Bengio e seu co-autor, Caglar Gulcehre, mostraram que uma CNN não poderia dizer se os grupos de formas em blocos ao estilo Tetris eram idênticos ou não. Mas esse ponto cego não impediu que as CNNs dominassem a IA. No final da década, as redes convolucionais ajudaram a AlphaGo a vencer o melhor jogador Go do mundo, e quase 90% dos aplicativos Android habilitados para aprendizado profundo dependiam delas.

Essa explosão de capacidade reacendeu o interesse de alguns pesquisadores em explorar o que essas redes neurais não podiam fazer. CNNs aprendem imitando aproximadamente a maneira como os cérebros dos mamíferos processam a entrada visual. Uma camada de neurônios artificiais detecta recursos simples em dados brutos, como linhas brilhantes ou diferenças de contraste. A rede passa esses recursos para camadas sucessivas, que os combinam em categorias abstratas mais complexas. De acordo com Matthew Ricci, um pesquisador de aprendizado de máquina da Brown University, relações iguais-diferentes pareciam um bom teste dos limites das CNNs porque são “a coisa mais simples que você pode perguntar sobre uma imagem que não tem nada a ver com seus recursos”. Ou seja, se dois objetos são iguais não depende se eles são um par de triângulos azuis ou círculos vermelhos idênticos. A relação entre as características é importante, não as próprias características.

Em 2018, Ricci e os colaboradores Junkyung Kim e Thomas Serre testaram CNNs em imagens do Synthetic Visual Reasoning Test (SVRT), uma coleção de padrões simples projetados para sondar as habilidades de raciocínio abstrato das redes neurais. Os padrões consistiam em pares de formas irregulares desenhadas em contorno preto em um quadrado branco. Se o par fosse idêntico em forma, tamanho e orientação, a imagem era classificada como “igual”; caso contrário, o par foi rotulado como “diferente”.

Os pesquisadores descobriram que um CNN treinado em muitos exemplos desses padrões poderia distinguir “igual” de “diferente” com até 75% de precisão quando mostrado novos exemplos do conjunto de imagens SVRT. Mas modificar as formas de duas maneiras superficiais – tornando-as maiores ou mais afastadas umas das outras – fez com que a precisão das CNNs “diminuísse, diminuísse”, disse Ricci. Os pesquisadores concluíram que as redes neurais ainda estavam fixadas em recursos, em vez de aprender o conceito relacional de “mesmice”.

No ano passado, Christina Funke e Judy Borowski, da Universidade de Tübingen, mostraram que aumentar o número de camadas em uma rede neural de seis para 50 aumentou sua precisão para mais de 90% na tarefa SVRT igual-diferente. No entanto, eles não testaram o quão bem esta CNN “mais profunda” se saiu em exemplos fora do conjunto de dados SVRT, como o grupo de Ricci fez. Portanto, o estudo não forneceu qualquer evidência de que CNNs mais profundas pudessem generalizar os conceitos de igual e diferente.

Lucy Reading-Ikkanda / Quanta Magazine

Guillermo Puebla e Jeffrey Bowers, cientistas cognitivos da Universidade de Bristol, investigaram em um estudo de acompanhamento no início deste ano. “Depois de compreender uma relação, você pode aplicá-la a tudo o que vier para você”, disse Puebla. As CNNs, afirma ele, deveriam obedecer ao mesmo padrão.

Puebla e Bowers treinaram quatro CNNs com várias configurações iniciais (incluindo algumas das mesmas usadas por Funke e Borowski) em várias variações da tarefa SVRT igual-diferente. Eles descobriram que mudanças sutis nas características de baixo nível dos padrões – como mudar a espessura do contorno de uma forma de um pixel para dois – eram frequentemente o suficiente para cortar o desempenho de uma CNN pela metade, de quase perfeito para um pouco acima do acaso.

O que isso significa para a IA depende de a quem você pergunta. Firestone e Puebla acreditam que os resultados recentes oferecem evidências empíricas de que as CNNs atuais carecem de uma capacidade de raciocínio fundamental que não pode ser sustentada com mais dados ou treinamento mais inteligente. Apesar de seus poderes cada vez maiores, “é muito improvável que as CNNs resolvam esse problema” de discriminar os mesmos dos diferentes, disse Puebla. “Eles podem ser parte da solução se você adicionar algo mais. Mas sozinhos? Não parece.”

Funke concorda que os resultados de Puebla sugerem que as CNNs ainda não estão generalizando o conceito de igual-diferente. “No entanto,” ela disse, “eu recomendo ser muito cuidadoso ao afirmar que redes neurais convolucionais profundas em geral não podem aprender o conceito.” Santoro, o pesquisador da DeepMind, concorda: “A ausência de evidência não é necessariamente evidência de ausência, e isso tem sido historicamente verdadeiro para as redes neurais”. Ele observou que as redes neurais foram matematicamente comprovadas como capazes, em princípio, de aproximar qualquer função. “É trabalho do pesquisador determinar as condições sob as quais uma função desejada é aprendida na prática”, disse Santoro.

Ricci acha que fazer com que qualquer máquina aprenda as mesmas distinções diferentes exigirá um avanço na compreensão da própria aprendizagem. As crianças entendem as regras de “Uma dessas coisas não é como a outra” após um único episódio da Vila Sésamo, não um treinamento extensivo. Pássaros, abelhas e pessoas podem aprender dessa forma – não apenas quando aprendem a diferenciar “igual” de “diferente”, mas para uma variedade de tarefas cognitivas. “Acho que até descobrirmos como você pode aprender com alguns exemplos e objetos novos, estamos muito ferrados”, disse Ricci.


Publicado em 26/06/2021 09h58

Artigo original: