Um método para mitigar alucinações em grandes modelos de linguagem

Taxas de abstenção vs. perdas médias de teste no conjunto de dados de Sequências Temporais com – = 0,05 (superior) e – = 0,05 (inferior) para funções de pontuação contagem de correspondências (mc), contagem de correspondências esperada (emc) e log-probabilidade (lp) , e para vários métodos de calibração (. denota a linha de base sem calibração). As larguras e alturas das caixas representam intervalos de confiança de 90% com aproximação gaussiana sobre taxas de abstenção e erros médios de teste, respectivamente. A linha horizontal tracejada representa o limite de risco alvo “. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2405.01563

doi.org/10.48550/arXiv.2405.01563
Credibilidade: 888
#Linguagem 

Grandes modelos de linguagem (LLMs), arquiteturas baseadas em redes neurais artificiais que podem processar, gerar e manipular textos em várias línguas humanas, tornaram-se recentemente cada vez mais difundidas. Estes modelos estão agora sendo utilizados numa vasta gama de ambientes, para encontrar rapidamente respostas a consultas, produzir conteúdos para fins específicos e interpretar textos complexos.

Embora os LLM recentemente introduzidos possam gerar textos altamente convincentes, que são, em alguns casos, difíceis de discernir dos escritos produzidos por seres humanos, descobriu-se que são propensos às chamadas alucinações.

Neste contexto, as alucinações referem-se a um LLM que gera respostas totalmente incoerentes, imprecisas ou inadequadas.

Pesquisadores da DeepMind desenvolveram recentemente um novo procedimento que poderia ajudar a identificar casos em que o LLM deveria se abster de responder a uma pergunta, por exemplo, responder “Não sei”, pois é provável que tenham alucinações com respostas sem sentido ou incorretas.

A abordagem proposta pela equipe, descrita em um artigo pré-publicado no arXiv, envolve o uso de LLMs para avaliar suas próprias respostas potenciais.

“Com base em abordagens anteriores que usam a autoconsistência como uma medida mais confiável da confiança do modelo, propomos usar o próprio LLM para autoavaliar a semelhança entre cada uma de suas respostas amostradas para uma determinada consulta”, Yasin Abbasi Yadkori, Ilja Kuzborskij e seus colegas escreveram em seu artigo.

“Em seguida, aproveitamos ainda mais as técnicas de previsão conformada para desenvolver um procedimento de abstenção que se beneficie de garantias teóricas rigorosas sobre a taxa de alucinação (taxa de erro).” Yadkori, Kuzborskij e seus colegas avaliaram seu método proposto para mitigar alucinações LLM em uma série de experimentos, usando Sequências Temporais e TriviaQA, dois conjuntos de dados disponíveis publicamente contendo consultas e respostas associadas.

Eles aplicaram especificamente o método proposto ao Gemini Pro, um LLM desenvolvido no Google e lançado em 2023.

“Experimentalmente, nosso método de abstenção conformada resultante limita de forma confiável a taxa de alucinação em vários conjuntos de dados de resposta a perguntas geradoras de livro fechado e domínio aberto, ao mesmo tempo que mantém uma taxa de abstenção significativamente menos conservadora em um conjunto de dados com respostas longas (sequências temporais) em comparação com linhas de base usando pontuações de log-probabilidade para quantificar a incerteza, enquanto alcança um desempenho comparável em um conjunto de dados com respostas curtas (TriviaQA)”, escreveram os pesquisadores.

“Para avaliar os experimentos automaticamente, é necessário determinar se duas respostas são equivalentes, dada uma pergunta.

Seguindo a prática padrão, usamos uma função de similaridade com limite para determinar se duas respostas correspondem, mas também fornecemos um método para calibrar o limite com base na previsão conforme , com garantias teóricas sobre a precisão da previsão do jogo, o que pode ser de interesse independente.” Os resultados dos experimentos desta equipe de pesquisa sugerem que sua calibração conforme e procedimento de pontuação de similaridade atenuam as alucinações do LLM, permitindo que um modelo se abstenha de responder a uma pergunta se sua resposta for provavelmente sem sentido ou indigna de confiança.

Descobriu-se que a abordagem recentemente proposta supera os procedimentos simples de pontuação de base.

Este estudo recente da Deep Mind poderá em breve informar o desenvolvimento de procedimentos semelhantes para melhorar a confiabilidade dos LLMs e evitar que tenham alucinações.

Coletivamente, estes esforços contribuirão para o avanço destes modelos, facilitando a sua utilização generalizada entre profissionais de todo o mundo.


Publicado em 29/05/2024 19h54

Artigo original:

Estudo original: