A medida que os Modelos de Linguagem (LLMs) ficam maiores, eles estão mais propensos a dar respostas erradas do que admitir que não sabem a resposta.

Imagem via Pexels

doi.org/10.1038/s41586-024-07930-y
Credibilidade: 989
#Inteligência Artificial 

Um grupo de pesquisadores de inteligência artificial da *Universitat Politècnica de València*, na Espanha, descobriu que, conforme os Modelos de Linguagem de Grande Escala (LLMs, em inglês) se tornam maiores e mais sofisticados, eles têm menos tendência a admitir que não sabem a resposta a uma pergunta feita pelo usuário.

No estudo, publicado na revista *Nature*, os pesquisadores testaram a versão mais recente de três dos chatbots de IA mais populares para avaliar suas respostas, precisão e a capacidade dos usuários de identificar respostas erradas.

Com o crescimento dos LLMs no uso cotidiano, muitas pessoas passaram a utilizá-los para diversas atividades, como escrever textos, resolver problemas matemáticos ou até mesmo criar músicas e poemas. No entanto, o tema da precisão das respostas começou a se tornar cada vez mais importante. Neste novo estudo, os pesquisadores se perguntaram se os LLMs mais populares estão ficando mais precisos com cada atualização e como eles se comportam quando erram.

Para testar isso, os cientistas fizeram milhares de perguntas a três dos LLMs mais conhecidos (BLOOM, LLaMA e GPT) e compararam as respostas obtidas com as de versões anteriores desses mesmos modelos. Eles abordaram temas variados como matemática, ciência, anagramas e geografia, e avaliaram a capacidade dos LLMs de gerar textos ou realizar ações, como organizar listas. Além disso, cada pergunta recebeu um nível de dificuldade.

Desempenho de uma seleção de modelos GPT e LLaMA com dificuldade crescente. Crédito: Nature (2024). DOI: 10.1038/s41586-024-07930-y

Os resultados mostraram que, em geral, a precisão das respostas dos chatbots melhorou com cada nova versão. No entanto, à medida que as perguntas se tornavam mais difíceis, a precisão diminuía, o que já era esperado. O que surpreendeu os pesquisadores foi o fato de que, quanto mais sofisticados e complexos os LLMs se tornavam, menos eles reconheciam que não sabiam uma resposta.

Em versões anteriores dos modelos, era comum que os LLMs respondessem dizendo que não encontraram a resposta ou que precisavam de mais informações. Nas versões mais recentes, no entanto, eles estavam mais propensos a “chutar” a resposta, o que levou a um número maior de respostas – tanto corretas quanto erradas. Além disso, os pesquisadores descobriram que, ocasionalmente, os LLMs davam respostas incorretas mesmo para perguntas fáceis, mostrando que ainda não são completamente confiáveis.

Por fim, a equipe de pesquisa pediu a voluntários que avaliassem as respostas do primeiro experimento, classificando-as como corretas ou incorretas. Descobriram que, na maioria das vezes, os voluntários tiveram dificuldade em identificar as respostas erradas.


Publicado em 29/09/2024 12h10

Artigo original:

Estudo original: