Resumos escritos por cientistas do ChatGPT enganam

Cientistas e especialistas em publicação estão preocupados com o fato de que a crescente sofisticação dos chatbots possa prejudicar a integridade e a precisão da pesquisa.Crédito: Ted Hsu/Alamy

Os pesquisadores nem sempre conseguem diferenciar entre resumos originais e gerados por Inteligência Artificial.

Um chatbot de inteligência artificial (IA) pode escrever resumos de artigos de pesquisa falsos tão convincentes que os cientistas geralmente não conseguem identificá-los, de acordo com uma pré-impressão publicada no servidor bioRxiv no final de dezembro. Os pesquisadores estão divididos sobre as implicações para a ciência.

“Estou muito preocupada”, diz Sandra Wachter, que estuda tecnologia e regulamentação na Universidade de Oxford, no Reino Unido, e não participou da pesquisa. “Se agora estamos em uma situação em que os especialistas não são capazes de determinar o que é verdade ou não, perdemos o intermediário de que precisamos desesperadamente para nos guiar por tópicos complicados”, acrescenta ela.

O chatbot, ChatGPT, cria texto realista e com som inteligente em resposta às solicitações do usuário. É um “grande modelo de linguagem”, um sistema baseado em redes neurais que aprendem a realizar uma tarefa digerindo grandes quantidades de texto existente gerado por humanos. A empresa de software OpenAI, com sede em San Francisco, Califórnia, lançou a ferramenta em 30 de novembro, e seu uso é gratuito.

Desde o seu lançamento, os pesquisadores têm lutado com as questões éticas em torno de seu uso, porque pode ser difícil distinguir grande parte de sua saída do texto escrito por humanos. Os cientistas publicaram um preprint e um editorial escritos por ChatGPT. Agora, um grupo liderado por Catherine Gao, da Northwestern University em Chicago, Illinois, usou o ChatGPT para gerar resumos artificiais de artigos de pesquisa para testar se os cientistas podem identificá-los.

Os pesquisadores pediram ao chatbot para escrever 50 resumos de pesquisas médicas com base em uma seleção publicada no JAMA, The New England Journal of Medicine, The BMJ, The Lancet e Nature Medicine. Eles então os compararam com os resumos originais, passando-os por um detector de plágio e um detector de saída de IA, e pediram a um grupo de pesquisadores médicos para identificar os resumos fabricados.

Sob o radar

Os resumos gerados pelo ChatGPT passaram pelo verificador de plágio: a pontuação média de originalidade foi de 100%, o que indica que nenhum plágio foi detectado. O detector de saída de IA detectou 66% dos resumos gerados. Mas os revisores humanos não se saíram muito melhor: eles identificaram corretamente apenas 68% dos resumos gerados e 86% dos resumos genuínos. Eles identificaram incorretamente 32% dos resumos gerados como sendo reais e 14% dos resumos genuínos como sendo gerados.

“ChatGPT escreve resumos científicos críveis”, dizem Gao e colegas na pré-impressão. “Os limites do uso ético e aceitável de grandes modelos de linguagem para ajudar a escrita científica ainda precisam ser determinados.”

Wachter diz que, se os cientistas não puderem determinar se a pesquisa é verdadeira, pode haver “consequências terríveis”. Além de ser problemático para os pesquisadores, que podem ser derrubados em rotas falhas de investigação, porque a pesquisa que estão lendo foi fabricada, há “implicações para a sociedade em geral porque a pesquisa científica desempenha um papel tão importante em nossa sociedade”. Por exemplo, isso pode significar que as decisões políticas baseadas em pesquisas estão incorretas, acrescenta ela.

Mas Arvind Narayanan, cientista da computação da Universidade de Princeton, em Nova Jersey, diz: “É improvável que algum cientista sério use o ChatGPT para gerar resumos”. Ele acrescenta que se os resumos gerados podem ser detectados é “irrelevante”. “A questão é se a ferramenta pode gerar um resumo preciso e atraente. Não pode e, portanto, a vantagem de usar o ChatGPT é minúscula e a desvantagem é significativa “, diz ele.

Irene Solaiman, que pesquisa o impacto social da IA na Hugging Face, uma empresa de IA com sede em Nova York e Paris, teme qualquer dependência de grandes modelos de linguagem para o pensamento científico. “Esses modelos são treinados em informações passadas e o progresso social e científico muitas vezes pode vir de pensar ou estar aberto a pensar de forma diferente do passado”, acrescenta ela.

Os autores sugerem que aqueles que avaliam comunicações científicas, como trabalhos de pesquisa e anais de conferências, devem implementar políticas para erradicar o uso de textos gerados por IA. Se as instituições optarem por permitir o uso da tecnologia em determinados casos, devem estabelecer regras claras sobre a divulgação. No início deste mês, a Quarenta Conferência Internacional sobre Aprendizado de Máquina, uma grande conferência de IA que será realizada em Honolulu, Havaí, em julho, anunciou que proibiu artigos escritos por ChatGPT e outras ferramentas de linguagem de IA.

Solaiman acrescenta que em áreas onde informações falsas podem colocar em risco a segurança das pessoas, como a medicina, os periódicos podem ter que adotar uma abordagem mais rigorosa para verificar se as informações são precisas.

Narayanan diz que as soluções para essas questões não devem se concentrar no chatbot em si, “mas sim nos incentivos perversos que levam a esse comportamento, como universidades realizando avaliações de contratações e promoções contando papéis sem levar em consideração sua qualidade ou impacto”.

Publicado em 20/01/2023 16h58

Artigo original:

https://www.nature.com/articles/d41586-023-00056-7

Estudo original:

https://doi.org/10.1038/d41586-023-00056-7