O cientista da computação que treina a Inteligência Artificial para pensar com analogias

Melanie Mitchell está diante de uma projeção da capa de seu livro mais recente, ?Artificial Intelligence: A Guide for Thinking Humans?. Ela acha que as máquinas precisam ser capazes de fazer boas analogias antes de se aproximarem da inteligência artificial humana.

Melanie Mitchell trabalhou com mentes digitais por décadas. Ela diz que eles nunca serão verdadeiramente como os nossos até que possam fazer analogias.

O livro Gödel, Escher, Bach, vencedor do Prêmio Pulitzer, inspirou legiões de cientistas da computação em 1979, mas poucos foram tão inspirados quanto Melanie Mitchell. Depois de ler o livro de 777 páginas, Mitchell, uma professora de matemática do ensino médio em Nova York, decidiu que “precisava ser” em inteligência artificial. Ela logo rastreou o autor do livro, o pesquisador de IA Douglas Hofstadter, e o convenceu a dar-lhe um estágio. Ela havia feito apenas alguns cursos de ciência da computação na época, mas ele parecia impressionado com sua ousadia e despreocupado com suas credenciais acadêmicas.

Mitchell preparou um formulário de pós-graduação de “última hora” e se juntou ao novo laboratório de Hofstadter na Universidade de Michigan em Ann Arbor. Os dois passaram os seis anos seguintes colaborando estreitamente no Copycat, um programa de computador que, nas palavras de seus co-criadores, foi projetado para “descobrir analogias perspicazes e fazê-lo de uma forma psicologicamente realista”.

As analogias que o Copycat criou eram entre padrões simples de letras, semelhantes às analogias em testes padronizados. Um exemplo: “Se a string? abc ?muda para a string? abd ?, para o que a string? pqrs ?muda?” Hofstadter e Mitchell acreditavam que entender o processo cognitivo de analogia – como os seres humanos fazem conexões abstratas entre ideias, percepções e experiências semelhantes – seria crucial para desbloquear a inteligência artificial semelhante à humana.

Mitchell afirma que a analogia pode ser muito mais profunda do que a correspondência de padrões no estilo de exame. “É entender a essência de uma situação mapeando-a para outra situação já compreendida”, disse ela. “Se você me contar uma história e eu disser:? Oh, a mesma coisa aconteceu comigo ?, literalmente não aconteceu a mesma coisa que aconteceu com você, mas posso fazer um mapeamento que faz com que pareça muito análogo. É algo que nós, humanos, fazemos o tempo todo, mesmo sem perceber que estamos fazendo. Estamos nadando neste mar de analogias constantemente.”

Como professora de complexidade Davis no Santa Fe Institute, Mitchell ampliou sua pesquisa além do aprendizado de máquina. Ela está atualmente liderando o projeto de Fundamentos de Inteligência em Sistemas Naturais e Artificiais da SFI, que irá organizar uma série de workshops interdisciplinares no próximo ano examinando como a evolução biológica, o comportamento coletivo (como o de insetos sociais como formigas) e um corpo físico contribuem inteligência. Mas o papel da analogia é maior do que nunca em seu trabalho, especialmente em IA – um campo cujos principais avanços na última década foram em grande parte impulsionados por redes neurais profundas, uma tecnologia que imita a organização em camadas de neurônios em cérebros de mamíferos.

“As redes neurais de ponta de hoje são muito boas em certas tarefas”, disse ela, “mas são muito ruins em pegar o que aprenderam em um tipo de situação e transferir para outro” – a essência de analogia.

Quanta falou com Mitchell sobre como a IA pode fazer analogias, o que a área aprendeu sobre elas até agora e para onde precisa ir a seguir. A entrevista foi condensada e editada para maior clareza.

Por que fazer analogias é tão importante para a IA?

É um mecanismo fundamental de pensamento que ajudará a IA a chegar onde queremos. Algumas pessoas dizem que ser capaz de prever o futuro é a chave para a IA, ou ser capaz de ter bom senso, ou a capacidade de recuperar memórias que são úteis na situação atual. Mas em cada uma dessas coisas, a analogia é muito central.

Por exemplo, queremos carros autônomos, mas um dos problemas é que se eles enfrentam alguma situação que está um pouco distante do que foram treinados, eles não sabem o que fazer. Como nós, humanos, sabemos o que fazer em situações que não encontramos antes? Bem, usamos analogias com experiências anteriores. E isso é algo que vamos precisar que esses sistemas de IA no mundo real sejam capazes de fazer também.

Mas você também escreveu que analogia é “uma área pouco estudada em IA”. Se é tão fundamental, por que é esse o caso?

Uma razão pela qual as pessoas não o estudaram tanto é porque não reconheceram sua importância essencial para a cognição. Concentrar-se na lógica e na programação das regras de comportamento – é assim que a IA inicial funcionava. Mais recentemente, as pessoas têm se concentrado em aprender com muitos e muitos exemplos e, em seguida, presumindo que você será capaz de induzir coisas que não viu antes usando apenas as estatísticas do que já aprendeu. Eles esperavam que as habilidades de generalizar e abstrair saíssem das estatísticas, mas não funcionou tão bem quanto as pessoas esperavam.

Você pode mostrar uma rede neural profunda com milhões de imagens de pontes, por exemplo, e ela provavelmente pode reconhecer uma nova imagem de uma ponte sobre um rio ou algo assim. Mas isso nunca pode abstrair a noção de “ponte” para, digamos, nosso conceito de reduzir a lacuna de gênero. Essas redes, ao que parece, não aprendem a abstrair. Há algo faltando. E as pessoas estão apenas lutando agora com isso.

E eles nunca aprenderão a abstrair?

Existem novas abordagens, como meta-aprendizagem, onde as máquinas “aprendem a aprender” melhor. Ou aprendizagem autossupervisionada, em que sistemas como o GPT-3 aprendem a preencher uma frase sem uma das palavras, o que permite gerar uma linguagem de maneira muito convincente. Algumas pessoas argumentariam que sistemas como esse irão eventualmente, com dados suficientes, aprender a fazer essa tarefa de abstração. Mas eu acho que não.

Você descreveu essa limitação como “a barreira do significado” – os sistemas de IA podem emular o entendimento sob certas condições, mas se tornam frágeis e não confiáveis fora delas. Por que você acha que a analogia é a nossa saída desse problema?

Minha impressão é que resolver o problema da fragilidade exigirá significado. Isso é o que causa o problema da fragilidade: esses sistemas não entendem, em nenhum sentido humano, os dados com os quais estão lidando.

Esta palavra “compreender” é uma dessas palavras de mala que ninguém concorda o que realmente significa – quase como um espaço reservado para fenômenos mentais que ainda não podemos explicar. Mas acho que esse mecanismo de abstração e analogia é a chave para o que nós, humanos, chamamos de compreensão. É um mecanismo pelo qual ocorre a compreensão. Podemos pegar algo que já sabemos de alguma forma e mapeá-lo para algo novo.

Então, a analogia é uma maneira de os organismos permanecerem cognitivamente flexíveis, em vez de se comportarem como robôs?

Acho que até certo ponto, sim. Analogia não é apenas algo que nós, humanos, fazemos. Alguns animais são meio robóticos, mas outras espécies são capazes de pegar experiências anteriores e mapeá-las em novas experiências. Talvez seja uma maneira de colocar um espectro de inteligência em diferentes tipos de sistemas vivos: até que ponto você pode fazer analogias mais abstratas?

Uma das teorias de por que os humanos têm esse tipo específico de inteligência é porque somos muito sociáveis. Uma das coisas mais importantes que você deve fazer é modelar o que outras pessoas estão pensando, compreender seus objetivos e prever o que farão. E isso é algo que você faz por analogia consigo mesmo. Você pode se colocar no lugar da outra pessoa e meio que mapear sua própria mente na dela. Essa “teoria da mente” é algo sobre o qual as pessoas em IA falam o tempo todo. É essencialmente uma forma de fazer uma analogia.

Seu sistema Copycat foi uma das primeiras tentativas de fazer isso com um computador. Havia outros?

O trabalho de “mapeamento de estruturas” em IA é focado em representações de situações baseadas em lógica e mapeamentos entre elas. Ken Forbus e outros usaram a famosa analogia [feita por Ernest Rutherford em 1911] do sistema solar com o átomo. Eles teriam um conjunto de sentenças [em uma notação formal chamada lógica de predicados] descrevendo essas duas situações e as mapeavam não com base no conteúdo das sentenças, mas com base em sua estrutura. Essa noção é muito poderosa e acho que está certa. Quando os humanos estão tentando entender as semelhanças, estamos mais focados em relacionamentos do que em objetos específicos.

Por que essas abordagens não decolaram?

Toda a questão da aprendizagem foi largamente deixada de fora desses sistemas. O mapeamento da estrutura pegaria essas palavras que eram muito, muito carregadas de significado humano – como “a Terra gira em torno do sol” e “o elétron gira em torno do núcleo” – e os mapearia um no outro, mas não havia nenhum modelo interno do que “Gira em torno” significava. Era apenas um símbolo. O copycat funcionou bem com strings de letras, mas o que faltou foi uma resposta à pergunta de como podemos escalar isso e generalizá-lo para domínios com os quais realmente nos importamos?

O aprendizado profundo é conhecido por escalar muito bem. Foi mais eficaz na produção de analogias significativas?

Há uma visão de que redes neurais profundas meio que fazem essa mágica entre suas camadas de entrada e saída. Se eles podem ser melhores do que os humanos no reconhecimento de diferentes tipos de raças de cães – o que eles são – eles deveriam ser capazes de resolver esses problemas de analogia realmente simples. Assim, as pessoas criariam um conjunto de Big Data para treinar e testar sua rede neural e publicariam um artigo dizendo: “Nosso método acerta 80% neste teste”. E outra pessoa diria: “Espere, seu conjunto de dados tem algumas propriedades estatísticas estranhas que permitem que a máquina aprenda como resolvê-las sem ser capaz de generalizar. Aqui está um novo conjunto de dados no qual sua máquina funciona horrivelmente, mas a nossa tem um ótimo desempenho.” E isso continua indefinidamente.

O problema é que você já perdeu a batalha se tiver que treiná-la com milhares e milhares de exemplos. Não é disso que se trata a abstração. É tudo sobre o que as pessoas no aprendizado de máquina chamam de “aprendizado rápido”, o que significa que você aprende com um número muito pequeno de exemplos. É para isso que serve a abstração.

Então, o que ainda está faltando? Por que não podemos simplesmente juntar essas abordagens como tantos blocos de Lego?

Não temos o livro de instruções que ensina como fazer isso! Mas eu acho que temos que Lego todos juntos. Essa é a fronteira desta pesquisa: qual é o insight principal de todas essas coisas e como elas podem se complementar?

Muitas pessoas estão bastante interessadas no Abstraction and Reasoning Corpus [ARC], que é uma tarefa de aprendizado muito desafiadora construída em torno do “conhecimento central” com o qual os humanos nascem essencialmente. Sabemos que o mundo deve ser analisado em objetos e sabemos algo sobre a geometria do espaço, como algo estar acima ou abaixo de outra coisa. No ARC, há uma grade de cores que muda para outra grade de cores de uma forma que os humanos seriam capazes de descrever em termos deste conhecimento básico – como, “Todos os quadrados de uma cor vão para a direita, todos os quadrados da outra cor vá para a esquerda.” Ele fornece um exemplo como este e pede que você faça o mesmo com outra grade de cores.

Eu penso nisso muito como um desafio de analogia. Você está tentando encontrar algum tipo de descrição abstrata de qual foi a mudança de uma imagem para uma nova imagem, e você não pode aprender nenhuma correlação estatística estranha porque tudo o que você tem são dois exemplos. Como fazer com que as máquinas aprendam e raciocinem com esse conhecimento básico que um bebê tem – isso é algo que nenhum dos sistemas que mencionei até agora pode fazer. É por isso que nenhum deles pode lidar com este conjunto de dados ARC. É um pouco do Santo Graal.

Se os bebês nascem com esse “conhecimento central”, isso significa que, para uma IA fazer esse tipo de analogia, ela também precisa de um corpo como o nosso?

Essa é a pergunta de um milhão de dólares. Essa é uma questão muito controversa sobre a qual a comunidade de IA não tem consenso. Minha intuição é que sim, não seremos capazes de chegar à analogia humana [em IA] sem algum tipo de incorporação. Ter um corpo pode ser essencial porque alguns desses problemas visuais exigem que você os pense em três dimensões. E isso, para mim, tem a ver com ter vivido no mundo e movido minha cabeça, e entendido como as coisas se relacionam espacialmente. Não sei se uma máquina tem que passar por esse estágio. Eu acho que provavelmente vai.


Publicado em 15/07/2021 09h51

Artigo original: