O que significa para a Inteligência Artificial ‘entender’?

Maggie Chiang for Quanta Magazine

É simples o suficiente para a IA parecer compreender os dados, mas criar um verdadeiro teste de conhecimento de uma máquina se mostrou difícil.

Lembre-se do Watson da IBM, o AI Jeopardy! campeão? Uma promoção de 2010 proclamava: “O Watson entende a linguagem natural com toda a sua ambigüidade e complexidade”. No entanto, como vimos quando Watson posteriormente falhou espetacularmente em sua busca por “revolucionar a medicina com inteligência artificial”, um verniz de facilidade lingüística não é o mesmo que realmente compreender a linguagem humana.

A compreensão da linguagem natural tem sido um dos principais objetivos da pesquisa em IA. No início, os pesquisadores tentaram programar manualmente tudo que uma máquina precisaria para dar sentido a notícias, ficção ou qualquer outra coisa que os humanos pudessem escrever. Essa abordagem, como Watson mostrou, era fútil – é impossível escrever todos os fatos não escritos, regras e suposições necessárias para a compreensão do texto. Mais recentemente, um novo paradigma foi estabelecido: em vez de construir um conhecimento explícito, permitimos que as máquinas aprendam a entender a linguagem por conta própria, simplesmente ingerindo grandes quantidades de texto escrito e aprendendo a prever palavras. O resultado é o que os pesquisadores chamam de modelo de linguagem. Quando baseados em grandes redes neurais, como o GPT-3 da OpenAI, tais modelos podem gerar uma prosa estranhamente humana (e poesia!) E aparentemente executar um raciocínio linguístico sofisticado.

Mas a GPT-3 – treinada em textos de milhares de sites, livros e enciclopédias – transcendeu o verniz de Watson? Ele realmente entende a linguagem que gera e sobre a qual raciocina ostensivamente? Este é um tópico de total desacordo na comunidade de pesquisa de IA. Essas discussões costumavam ser o campo de ação dos filósofos, mas na última década a IA explodiu de sua bolha acadêmica para o mundo real, e sua falta de compreensão desse mundo pode ter consequências reais e às vezes devastadoras. Em um estudo, o Watson da IBM foi encontrado para propor “vários exemplos de recomendações de tratamento inseguras e incorretas.” Outro estudo mostrou que o sistema de tradução automática do Google cometeu erros significativos quando usado para traduzir instruções médicas para pacientes que não falam inglês.

Como podemos determinar na prática se uma máquina pode entender? Em 1950, o pioneiro da computação Alan Turing tentou responder a essa pergunta com seu famoso “jogo de imitação”, agora chamado de teste de Turing. Uma máquina e um humano, ambos escondidos da vista, competiriam para convencer um juiz humano de sua humanidade usando apenas conversação. Se o juiz não pudesse dizer qual era o humano, então, afirmou Turing, deveríamos considerar a máquina como pensando – e, de fato, entendendo.

Infelizmente, Turing subestimou a propensão dos humanos a serem enganados por máquinas. Mesmo chatbots simples, como a psicoterapeuta substituta de Joseph Weizenbaum dos anos 1960, Eliza, enganaram as pessoas fazendo-as acreditar que estavam conversando com um ser compreensivo, mesmo quando sabiam que seu parceiro de conversação era uma máquina.

Em um artigo de 2012, os cientistas da computação Hector Levesque, Ernest Davis e Leora Morgenstern propuseram um teste mais objetivo, que eles chamaram de desafio do esquema Winograd. Desde então, este teste foi adotado na comunidade de linguagem de IA como uma forma, e talvez a melhor forma, de avaliar a compreensão da máquina – embora, como veremos, não seja perfeito. Um esquema Winograd, nomeado em homenagem ao pesquisador da linguagem Terry Winograd, consiste em um par de frases, diferindo por exatamente uma palavra, cada uma seguida por uma pergunta. Aqui estão dois exemplos:

Frase 1: Eu derramei água da garrafa no copo até que ele estava cheio.

Pergunta: O que estava cheio, a garrafa ou o copo?

Frase 2: Eu derramei água da garrafa no copo até esvaziá-lo.

Pergunta: O que estava vazio, a garrafa ou o copo?

Frase 1: o tio de Joe ainda pode vencê-lo no tênis, embora ele seja 30 anos mais velho.

Pergunta: Quem é mais velho, Joe ou tio de Joe?

Frase 2: o tio de Joe ainda pode vencê-lo no tênis, embora ele seja 30 anos mais jovem.

Pergunta: Quem é mais jovem, Joe ou tio de Joe?

Em cada par de frases, a diferença de uma palavra pode mudar a qual coisa ou pessoa um pronome se refere. Responder a essas perguntas corretamente parece exigir o entendimento do senso comum. Os esquemas de Winograd são projetados precisamente para testar esse tipo de compreensão, aliviando a vulnerabilidade do teste de Turing a juízes humanos não confiáveis ou truques de chatbot. Em particular, os autores projetaram algumas centenas de esquemas que eles acreditavam serem “à prova do Google”: uma máquina não deveria ser capaz de usar uma pesquisa do Google (ou algo parecido) para responder às perguntas corretamente.

Esses esquemas foram objeto de um concurso realizado em 2016 no qual o programa vencedor acertou em apenas 58% das sentenças – dificilmente um resultado melhor do que se tivesse adivinhado. Oren Etzioni, um importante pesquisador de IA, brincou: “Quando a IA não consegue determinar a que ‘isso’ se refere em uma frase, é difícil acreditar que vai dominar o mundo”.

No entanto, a capacidade dos programas de IA de resolver esquemas de Winograd aumentou rapidamente devido ao advento de grandes modelos de linguagem de rede neural. Um artigo de 2020 da OpenAI relatou que o GPT-3 estava correto em quase 90% das sentenças em um conjunto de benchmark de esquemas Winograd. Outros modelos de linguagem tiveram um desempenho ainda melhor após o treinamento específico nessas tarefas. No momento em que este artigo foi escrito, os modelos de linguagem de rede neural alcançaram cerca de 97% de precisão em um determinado conjunto de esquemas Winograd que fazem parte de uma competição de compreensão de linguagem de IA conhecida como SuperGLUE. Essa precisão é quase igual ao desempenho humano. Isso significa que os modelos de linguagem de rede neural atingiram a compreensão humana?

Não necessariamente. Apesar dos melhores esforços dos criadores, esses esquemas Winograd não eram realmente à prova do Google. Esses desafios, como muitos outros testes atuais de compreensão da linguagem de IA, às vezes permitem atalhos que permitem que as redes neurais funcionem bem sem compreensão. Por exemplo, considere as frases “O carro esporte passou no caminhão do correio porque estava indo mais rápido” e “O carro esporte passou no caminhão do correio porque estava mais lento”. Um modelo de linguagem treinado em um grande corpus de frases em inglês terá absorvido a correlação entre “carro esporte” e “rápido” e entre “caminhão de correio” e “lento” e, portanto, pode responder corretamente com base nessas correlações, em vez de baseando-se em qualquer entendimento. Acontece que muitos dos esquemas Winograd na competição SuperGLUE permitem esses tipos de correlações estatísticas.

Em vez de desistir dos esquemas Winograd como um teste de compreensão, um grupo de pesquisadores do Instituto Allen de Inteligência Artificial decidiu tentar consertar alguns de seus problemas. Em 2019, eles criaram o WinoGrande, um conjunto muito maior de esquemas Winograd. Em vez de várias centenas de exemplos, WinoGrande contém impressionantes 44.000 frases. Para obter tantos exemplos, os pesquisadores recorreram ao Amazon Mechanical Turk, uma plataforma popular para trabalho de crowdsourcing. Cada trabalhador (humano) foi solicitado a escrever vários pares de frases, com algumas restrições para garantir que a coleção contivesse diversos tópicos, embora agora as frases em cada par possam diferir em mais de uma palavra.

Os pesquisadores então tentaram eliminar as frases que poderiam permitir atalhos estatísticos, aplicando um método de IA relativamente pouco sofisticado a cada frase e descartando aquelas que fossem facilmente resolvidas. Como esperado, as frases restantes apresentaram um desafio muito mais difícil para as máquinas do que a coleção de esquemas Winograd original. Enquanto os humanos ainda pontuaram muito, os modelos de linguagem de rede neural que combinaram com o desempenho humano no conjunto original tiveram uma pontuação muito menor no conjunto WinoGrande. Esse novo desafio parecia resgatar os esquemas do Winograd como um teste para o entendimento do senso comum – desde que as sentenças fossem cuidadosamente selecionadas para garantir que fossem à prova do Google.

No entanto, outra surpresa estava reservada. Nos quase dois anos desde que a coleção WinoGrande foi publicada, os modelos de linguagem de rede neural têm crescido cada vez mais, e quanto maiores ficam, melhor parecem ter pontuações neste novo desafio. No momento em que este livro foi escrito, os melhores programas atuais – que foram treinados em terabytes de texto e posteriormente treinados em milhares de exemplos WinoGrande – estavam quase 90% corretos (os humanos acertam 94%). Esse aumento no desempenho se deve quase inteiramente ao tamanho aumentado dos modelos de linguagem da rede neural e seus dados de treinamento.

Tudo isso é um conhecimento que nós, humanos, tomamos como garantido, mas não está embutido em máquinas ou provavelmente será explicitamente escrito em qualquer texto de treinamento de um modelo de linguagem. Alguns cientistas cognitivos argumentaram que os humanos contam com o conhecimento central inato e pré-linguístico do espaço, do tempo e de muitas outras propriedades essenciais do mundo para aprender e compreender a linguagem. Se quisermos que as máquinas dominem de maneira semelhante a linguagem humana, primeiro precisaremos dotá-las dos princípios primordiais com os quais os humanos nascem. E para avaliar a compreensão das máquinas, devemos começar avaliando sua compreensão desses princípios, que podemos chamar de “metafísica infantil”.

Treinar e avaliar máquinas para inteligência de nível infantil pode parecer um retrocesso gigante em comparação com os feitos prodigiosos de sistemas de IA como Watson e GPT-3. Mas se o objetivo for a compreensão verdadeira e confiável, esse pode ser o único caminho para as máquinas que podem compreender genuinamente a que “isso” se refere em uma frase e tudo o mais que a compreensão “isso” acarreta.


Publicado em 19/12/2021 06h49

Artigo original: