O senso comum se aproxima dos computadores

Adicione uma correspondência a uma pilha de madeira. O que você ganha? Para um humano, é fácil. Mas há muito tempo as máquinas carecem das habilidades de raciocínio de bom senso necessárias para descobrir isso.

O problema do raciocínio de senso comum assola o campo da inteligência artificial há mais de 50 anos. Agora, uma nova abordagem, emprestada de duas linhas díspares de pensamento, fez um progresso importante.

Numa noite de outubro passado, o pesquisador de inteligência artificial Gary Marcus estava se divertindo em seu iPhone, fazendo com que uma rede neural de ponta parecesse estúpida. O alvo de Marcus, uma rede de aprendizado profundo chamada GPT-2, tornou-se famoso recentemente por sua estranha capacidade de gerar uma prosa inglesa com um som plausível com apenas uma ou duas frases. Quando jornalistas do The Guardian enviaram o texto de uma reportagem sobre o Brexit, o GPT-2 escreveu parágrafos inteiros no estilo de jornal, completos com referências políticas e geográficas convincentes.

Marcus, um crítico proeminente do hype da IA, deu à rede neural um questionário. Ele digitou o seguinte no GPT-2:

O que acontece quando você empilha lenha e lenha na lareira e derruba alguns fósforos é que você normalmente inicia um?

Certamente, um sistema inteligente o suficiente para contribuir com o The New Yorker não teria problemas em completar a frase com a palavra óbvia “fogo”. GPT-2 respondeu com “ick”. Em outra tentativa, sugeriu que soltar fósforos nos registros da lareira iniciaria um “canal irc cheio de pessoas”.

Marcus não ficou surpreso. O raciocínio de senso comum – a capacidade de fazer inferências mundanas usando o conhecimento básico sobre o mundo, como o fato de que “combina” mais “troncos” geralmente é igual a “fogo” – resistiu aos esforços dos pesquisadores de IA por décadas. Marcus postou as trocas em sua conta do Twitter com seu próprio comentário adicional: “LMAO”, gíria na internet por uma risada irônica. As redes neurais podem ser imitações linguísticas impressionantes, mas claramente não possuem senso comum básico.

Minutos depois, Yejin Choi viu o tweet sarcástico de Marcus. O momento foi estranho. Dentro de uma hora, Choi estava programada para dar uma palestra em uma importante conferência de IA em seu mais recente projeto de pesquisa: um sistema, apelidado de COMET, projetado para usar uma versão anterior do GPT-2 para executar o raciocínio de bom senso.

Rapidamente, Choi – um cientista da computação da Universidade de Washington e do Instituto Allen de Inteligência Artificial – forneceu ao COMET o mesmo prompt que Marcus havia usado (com suas palavras ligeiramente modificadas para corresponder ao formato de entrada do COMET):

Gary empilha gravetos e registra e solta alguns fósforos

O COMET gerou 10 inferências sobre o porquê de Gary estar perdendo as partidas. Nem todas as respostas fizeram sentido, mas as duas primeiras fizeram: Ele “queria iniciar um incêndio” ou “fazer um incêndio”. Choi twittou os resultados em resposta a Marcus e subiu ao pódio para incluí-los em sua apresentação. “Pareceu apenas apropriado”, disse ela.

Dois caminhos para o senso comum

O senso comum tem sido chamado de “matéria escura da IA” – essencial e frustrantemente evasiva. Isso ocorre porque o senso comum consiste em informações implícitas – o amplo (e amplamente compartilhado) conjunto de suposições e regras práticas não escritas que os humanos usam automaticamente para entender o mundo. Por exemplo, considere o seguinte cenário:

Um homem foi a um restaurante. Ele pediu um bife. Ele deixou uma gorjeta grande.

Se lhe perguntassem o que ele comia, a resposta – bife – é fácil. Mas em nenhum lugar dessa pequena cena se afirma que o homem realmente comeu alguma coisa. Quando Ray Mooney, diretor do Laboratório de Inteligência Artificial da Universidade do Texas, Austin, apontou isso depois de me fazer o mesmo teste, eu não acreditei nele a princípio. “As pessoas nem percebem que estão fazendo isso”, disse ele. O senso comum nos permite ler nas entrelinhas; não precisamos ser explicitamente informados de que a comida é normalmente consumida em restaurantes depois que as pessoas pedem e antes de deixarem uma dica.

Computadores fazem. Não é de admirar que o raciocínio de senso comum tenha surgido como uma preocupação principal da pesquisa em IA em 1958 (em um artigo intitulado “Programas com bom senso”), pouco depois do nascimento do campo da IA. “Em geral, você não pode entender ou visualizar ou planejar a linguagem natural sem ela”, disse Ernest Davis, cientista da computação da Universidade de Nova York que estuda o senso comum em IA desde os anos 80.

Ainda assim, o progresso tem sido notavelmente lento. A princípio, os pesquisadores tentaram traduzir o senso comum na linguagem dos computadores: lógica. Eles supuseram que, se todas as regras não escritas do senso comum humano pudessem ser escritas, os computadores deveriam poder usá-las para raciocinar da mesma maneira que fazem com a aritmética. Essa abordagem simbólica, que passou a ser conhecida como “boa inteligência artificial antiquada” (ou GOFAI), permitiu alguns sucessos iniciais, mas sua abordagem artesanal não foi dimensionada. “A quantidade de conhecimento que pode ser convenientemente representada nos formalismos da lógica é meio limitada em princípio”, disse Michael Witbrock, pesquisador de IA da Universidade de Auckland, na Nova Zelândia. “Acabou sendo uma tarefa verdadeiramente esmagadora”.

Mesmo tentativas modestas de mapear todos os relacionamentos lógicos possíveis rapidamente se deparam com problemas. Algumas das relações acima sempre se mantêm (por exemplo, engolir sempre faz parte da alimentação). Alguns seguram apenas ocasionalmente (uma pessoa come em um restaurante). Alguns são inconsistentes (uma pessoa não pode comer um bolo enquanto ele também estiver no forno). E nós, como “cozinhar”, podem significar uma pessoa que cozinha e a atividade de cozinhar.

O aprendizado profundo com redes neurais parecia oferecer uma alternativa. Esses sistemas de IA, projetados para imitar as camadas interconectadas de neurônios nos cérebros biológicos, aprendem padrões sem exigir que os programadores os especifiquem com antecedência. Na última década, redes neurais cada vez mais sofisticadas, treinadas com grandes quantidades de dados, revolucionaram a visão computacional e o processamento de linguagem natural. Mas, apesar de toda a sua flexibilidade e aparente poder intelectual – as redes neurais agora podem dirigir carros no tráfego rodoviário e derrotar jogadores de classe mundial no xadrez e no Go – esses sistemas permanecem notórios por seus próprios lapsos tolos (e ocasionalmente fatais) no senso comum. “Adquirir, representar, argumentar com isso – é tudo difícil”, disse Davis.

Agora, Choi e seus colaboradores uniram essas abordagens. O COMET (abreviação de “transformadores de senso comum”) estende o raciocínio simbólico no estilo GOFAI com os últimos avanços na modelagem de linguagem neural – um tipo de aprendizado profundo que visa imbuir os computadores de um “entendimento” estatístico da linguagem escrita. O COMET trabalha reimaginando o raciocínio de senso comum como um processo de gerar respostas plausíveis (se imperfeitas) a novos insumos, em vez de fazer deduções herméticas consultando um vasto banco de dados semelhante a uma enciclopédia.

“Ele tenta mesclar duas abordagens fundamentalmente diferentes da IA”, disse Mooney, que já está usando o COMET em sua própria pesquisa. “É uma nova direção interessante que diz: ‘Ei, existe um caminho intermediário’.” Leora Morgenstern, especialista em raciocínio de senso comum e IA no Centro de Pesquisa Palo Alto, que passou décadas pesquisando abordagens simbólicas para o problema, pensa que as idéias por trás do COMET podem ajudar a avançar no campo. “Uma das razões pelas quais estou tão empolgada com o que Yejin está fazendo é que acho que isso injetará nova vida na comunidade de raciocínio de bom senso”, disse ela. “O aprendizado profundo é muito, muito poderoso – vamos descobrir como aproveitá-lo para o senso comum”.

Regras não escritas sem fim

O senso comum é mais fácil de detectar do que definir. Segundo Witbrock, a frase “senso comum” pode significar tanto um tipo de conhecimento quanto uma atitude em relação a esse conhecimento. “Eu diria que é um conhecimento de fundo amplamente reutilizável que não é específico para uma área específica”, disse ele. “É o conhecimento que você deveria ter.” Como, por exemplo, o fato de as pessoas comerem comida em restaurantes, em vez de apenas pedir e pagar por isso; ou que jogar fósforos em uma pilha de toras empilhadas implica que alguém está tentando acender uma fogueira.

A natureza implícita da maioria dos conhecimentos do senso comum torna difícil e tedioso representar explicitamente. “O que você aprende quando tem dois ou quatro anos de idade, nunca escreve em um livro”, disse Morgenstern. No entanto, os primeiros pesquisadores da IA acreditavam que era possível preencher essa lacuna. “Foi como, ‘Vamos escrever todos os fatos sobre o mundo. Certamente existem apenas alguns milhões ”, disse Ellie Pavlick, cientista da computação da Brown University. Construir esse recurso, conhecido como base de conhecimento, tem sido tradicionalmente o primeiro passo em qualquer abordagem para automatizar o raciocínio de senso comum.

Construir um número suficiente de fatos óbvios é mais difícil do que parece. Um projeto de raciocínio de senso comum chamado Cyc começou em 1984 com o objetivo modesto de codificar o conhecimento implícito de senso comum necessário para representar 400 artigos da enciclopédia. Isso nunca parava. Mais de três décadas depois, a base de conhecimento da Cyc – codificada em uma notação lógica densa e personalizada – contém “milhões de coleções e conceitos e mais de 25 milhões de afirmações”. No entanto, um artigo de revisão de 2015 de Davis e Marcus afirmou que “Cyc teve comparativamente pouco impacto na pesquisa de IA”. Tentativas subseqüentes de escrever entradas para uma base de conhecimento – ou de criar uma através da mineração de documentos usando o aprendizado de máquina – falharam em resolver o problema de raciocínio do senso comum.

Por quê? Por um lado, “sempre há exceções em todos os casos”, explicou Pavlick. “Se eu ouvir alguma declaração como ‘está chovendo’, eu poderia inferir que, se eu for para fora, vou me molhar, mas não se [estiver] por baixo de alguma coisa”. Outras exceções são mais difíceis de antecipar. Uma base de conhecimento como Cyc pode conter dezenas de declarações sobre o que normalmente acontece quando uma pessoa pede comida em um restaurante. Mas e a lista potencialmente interminável de coisas pouco frequentes ou incomuns que poderiam acontecer nesse cenário, como sair sem pagar o cheque ou iniciar uma briga por comida? “A cobertura é interminável”, disse Choi. “Portanto, abordagens puramente simbólicas baseadas no conhecimento estão totalmente condenadas.”

Mesmo que fosse possível construir uma base de conhecimento 100 ou 1.000 vezes mais abrangente do que qualquer tentativa anterior, o sistema ainda sofreria outra falha intelectual: o chamado problema de fragilidade. Isso porque o senso comum, como a linguagem natural, permanece fundamentalmente confuso. Quando um servidor pergunta a um restaurante, “Você ainda está trabalhando com isso?” entendemos que eles significam “Você ainda está comendo o que está no seu prato?” Mas se o servidor fizer a mesma pergunta a um cozinheiro de linha que prepara um pedido em atraso, isso significa algo totalmente diferente. Então, um restaurante é um lugar onde as pessoas “trabalham” nas coisas? Os conceitos “comer” e “trabalhar” são distintos?

Tudo depende. Esse é o problema da fragilidade: relações bem definidas dentro de uma base de conhecimento podem permitir habilidades de raciocínio poderosas e confiáveis, desde que essas arestas conceituais sejam respeitadas. Mas esses sistemas simbólicos, não importa quão variados e ricos, inevitavelmente falham em capturar as ambigüidades naturais e as sobreposições associativas que geralmente ocorrem no raciocínio do senso comum humano. “Na medida em que [usamos] os símbolos”, disse Pavlick, “somos bastante fluidos com eles”.

Going Neural

Choi não começou a trabalhar no senso comum porque queria inclinar os moinhos de vento. Quando ingressou no Instituto Allen em 2018, ela “teve um pressentimento” de que as redes neurais poderiam permitir um novo progresso, onde as bases de conhecimento haviam parado por conta própria. Ela simplesmente não sabia exatamente como. Ela também não queria anular completamente as abordagens simbólicas anteriores. “Toda a pesquisa anterior foi baseada na falta de dados”, disse ela, ou na falta de recursos de computação. “Então, imaginei que apenas reteria meu julgamento até tentar corretamente rotas diferentes”.

Com a mente aberta, Choi e seus colegas começaram a montar sua própria base de conhecimento chamada Atomic (abreviação de “atlas of machine commonsense”). “Basicamente, eu queria escrever um livro didático para redes neurais para aprender mais rápido sobre o mundo”, disse Choi. “Então as coisas aconteceram simultaneamente – quando construímos esse conhecimento [base], o GPT-2 foi lançado.”

Yejin Choi começou a adicionar um componente visual ao raciocínio de senso comum.

Essa rede neural, lançada em fevereiro de 2019, era apenas uma de uma onda de “modelos de linguagem pré-treinados” que começaram a revolucionar o modo como os computadores processam a linguagem natural. Esses sistemas não contêm símbolos ou regras lingüísticas bem organizadas. Em vez disso, eles estatisticamente espalham suas representações da linguagem em milhões ou bilhões de parâmetros em uma rede neural. Essa propriedade dificulta a interpretação desses sistemas, mas também os torna robustos: eles podem gerar previsões com base em dados ruidosos ou ambíguos sem interromper. Quando ajustados para executar uma tarefa específica – como responder perguntas escritas ou parafrasear o texto – os modelos de linguagem parecem entender pelo menos parte do que estão lendo.

Choi agora via uma maneira de colocar em ação seu palpite sobre redes neurais e bom senso.

O que aconteceria se um modelo de linguagem recebesse treinamento adicional usando uma base de conhecimento de senso comum, como Atomic? A rede neural poderia aprender a preencher as lacunas da Atomic com inferências plausíveis de senso comum por si só, assim como o GPT-2 aprendeu a gerar automaticamente artigos de notícias plausíveis? “É quase estranho que ninguém tenha tentado isso antes”, disse Choi. “É quase como se ninguém se incomodasse, porque eles tinham tanta certeza de que isso nunca funcionaria”.

Quando Choi (e seus colaboradores Antoine Bosselut, Hannah Rashkin, Maarten Sap, Chaitanya Malaviya e Asli Celikyilmaz) ajustaram um modelo de linguagem neural com o conhecimento do senso comum codificado em Atomic, eles criaram o COMET. Sua fusão de raciocínio simbólico com uma rede neural tenta resolver os problemas de cobertura e fragilidade ao mesmo tempo. Qualquer pessoa pode digitar um prompt no COMET no idioma do dia a dia. Se o evento já estiver representado na base de conhecimento de bom senso do sistema (como o fato de que pedir comida em um restaurante geralmente envolve comê-la), o COMET pode simplesmente argumentar com essas informações preexistentes. Para todo o resto, o modelo da linguagem neural faz seu melhor palpite.

Essas suposições são surpreendentemente boas. Em média, 77,5% das novas respostas geradas pelo COMET – ou seja, inferências provenientes da rede neural, e não da base de conhecimento preexistente – foram consideradas “plausíveis” por equipes de avaliadores humanos. Isso é menos de 10 pontos percentuais menos do que o desempenho em nível humano. (Os avaliadores descobriram que 86% das entradas da base de conhecimento escritas por humanos são plausíveis.) Quando o COMET recebeu o prompt “PersonX fornece algumas pílulas a PersonY”, ele concluiu que PersonX queria ajudar; quando foi informado que “o PersonX mata a esposa de PersonY”, o COMET sugeriu que o PersonX queria esconder o corpo.

Esses exemplos mostraram como o COMET poderia lidar com informações além dos limites de sua “cobertura” interna de senso comum. Mas e o problema da fragilidade? Ao entrevistar Choi no final do ano passado em seu laboratório em Seattle, dei ao COMET um aviso no patois da minha filha de 5 anos: “Papai foi trabalhar”.

Choi franziu a testa. “Isso pode ser complicado”, disse ela. Mas o COMET aceitou o passo, sugerindo que “Papai” queria “ganhar dinheiro”, “fazer o trabalho” e “receber um salário”; que ele é visto como “trabalhador”, “motivado” e “obediente”; e que, como resultado, outros se sentem “orgulhosos”, “agradecidos” e – em uma resposta divertidamente plausível, já que o pedido foi escrito em linguagem infantil – “irritado”. (Minha filha certamente expressou esse sentimento quando saio para trabalhar em vez de brincar com ela.) “Isso não funcionaria com Cyc, com certeza”, comentou Choi. “A menos que alguém codifique manualmente que” foi “significa” foi “- o que nunca fizemos.”

Escadas e Foguetes

Há uma piada que Gary Marcus gosta de usar para colocar o progresso na IA em contexto: “Só porque você pode construir uma escada melhor não significa que você pode construir uma escada para a lua”. Para ele e outros, a abordagem do COMET sofre de uma limitação fundamental do aprendizado profundo: “estatística é diferente de compreensão”. “Você pode ver que o [COMET] faz um trabalho decente ao adivinhar alguns dos parâmetros do que uma sentença pode acarretar, mas não o faz de maneira consistente”, escreveu Marcus por e-mail. Assim como nenhuma escada, por mais alta que seja, pode esperar alcançar a lua, nenhuma rede neural – não importa quão hábil em imitar os padrões de linguagem – realmente “sabe” que jogar fósforos acesos nos troncos normalmente inicia um incêndio.

Choi, surpreendentemente, concorda. Ela reconheceu que o COMET “se baseia em padrões de superfície” em seus dados de treinamento, em vez de na compreensão real dos conceitos, para gerar suas respostas. “Mas o fato de ser realmente bom em padrões de superfície é uma coisa boa”, disse ela. “Simplesmente precisamos fornecer a ela padrões de superfície mais informativos”.

Como serão esses padrões mais informativos? Alguns pesquisadores argumentam que, para incorporar o verdadeiro senso comum nos computadores, precisaremos fazer uso de fenômenos fora da própria linguagem, como percepções visuais ou sensações corporificadas. Essas representações mais diretas da primeira pessoa podem ser a base do senso comum, com a linguagem atuando como uma camada secundária.

“Se eu vivesse em um mundo onde não havia outras pessoas [com quem conversar], ainda assim eu poderia ter bom senso – ainda entenderia como o mundo funciona e teria expectativas sobre o que eu deveria ver e não ver” disse Pavlick, que atualmente está estudando como ensinar o senso comum dos sistemas de IA interagindo com eles na realidade virtual. Para ela, o COMET representa “um progresso realmente emocionante, mas o que falta é o aspecto de referência real. A palavra “maçã” não é uma maçã. Esse significado precisa existir de alguma forma que não seja a linguagem em si “.

Nazneen Rajani, cientista sênior de pesquisa da Salesforce, está buscando um objetivo semelhante, mas acredita que todo o potencial dos modelos de linguagem neural está longe de ser explorado. Ela está investigando se eles podem aprender a raciocinar sobre cenários de senso comum envolvendo física básica, como o fato de tombar um pote com uma bola dentro normalmente fará com que a bola caia. “O mundo real é realmente complicado”, disse Rajani. “Mas a linguagem natural é como um proxy de baixa dimensão de como o mundo real funciona”. Claro, as redes neurais podem ser ensinadas a prever a próxima palavra em um prompt de texto, mas esse não deve ser o seu limite. “Eles podem aprender coisas mais complexas.”

Choi e seus colegas também estão trabalhando em maneiras de aumentar o COMET com cenas visuais rotuladas em vez de apenas texto. “Tiramos todas essas imagens de filmes ou programas de TV em que algumas coisas interessantes estão acontecendo”, disse Choi. “As anotações estão ótimas; as previsões do modelo parecem emocionantes.”

Perguntei a Choi se a abordagem do COMET – combinando redes neurais cada vez melhores com bases de conhecimento aprimoradas – ainda estava, essencialmente, construindo uma escada para a lua. Ela admitiu que seu sonho seria ter uma rede neural que pudesse aprender com as bases de conhecimento sem supervisão humana, da mesma forma que modelos de linguagem como o GPT-2 já aprendem ingerindo resmas de texto bruto.

Mas, assim como Winston Churchill brincou que “a democracia é a pior forma de governo, exceto por todas as outras formas que foram tentadas”, Choi considera a abordagem falha, porém promissora do COMET, “um acordo justo”. Mesmo que essas redes neurais não consigam alcançar as estrelas, ela acha que elas são a única maneira de decolar. “Sem isso, não vamos a lugar nenhum”, disse ela. “Somente com [bases de conhecimento], não podemos fazer nada. É o COMET que pode realmente voar no ar”.


Publicado em 02/05/2020 06h11

Artigo original:

Estudo original:


Achou importante? Compartilhe!


Assine nossa newsletter e fique informado sobre Astrofísica, Biofísica, Geofísica e outras áreas. Preencha seu e-mail no espaço abaixo e clique em “OK”: