Descobriu-se que chatbots de IA usam estereótipos racistas mesmo após treinamento anti-racismo

Funcionamento básico do Matched Guise Probing. a: Baseamos-nos em textos em AAE (azul) e SAE (verde). No cenário com correspondência de significado (ilustrado aqui), os textos têm significado alinhado, ao passo que têm significados diferentes no cenário sem correspondência de significado. b: Incorporamos os textos da AAE/SAE em prompts que solicitam propriedades dos locutores que proferiram os textos. c: Alimentamos separadamente os prompts preenchidos com os textos da AAE/SAE nos modelos de linguagem. d: Recuperamos e comparamos as previsões para os insumos da AAE/SAE, aqui ilustrados por meio de cinco adjetivos da Trilogia de Princeton. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2403.00742

doi.org/10.48550/arXiv.2403.00742
Credibilidade: 898
#Chatbot 

Uma pequena equipe de pesquisadores de IA do Allen Institute for AI, da Universidade de Stanford e da Universidade de Chicago, todos nos EUA, descobriu que dezenas de grandes modelos populares de linguagem continuam a usar estereótipos racistas mesmo depois de terem recebido treinamento anti-racismo. O grupo publicou um artigo no servidor de pré-impressão arXiv descrevendo seus experimentos com chatbots como GPT-4 e GPT-3.5 da OpenAI.

Evidências anedóticas sugerem que muitos dos LLMs mais populares atualmente podem oferecer respostas racistas em resposta a perguntas – às vezes abertamente e outras vezes secretamente. Em resposta, muitos fabricantes de tais modelos deram aos seus LLMs formação anti-racismo. Neste novo esforço, a equipe de investigação testou dezenas de LLMs populares para descobrir se os esforços fizeram a diferença.

Os pesquisadores treinaram chatbots de IA em documentos de texto escritos no estilo do inglês afro-americano e solicitaram que os chatbots oferecessem comentários sobre os autores dos textos. Eles então fizeram o mesmo com documentos de texto escritos no estilo do inglês americano padrão. Compararam as respostas dadas aos dois tipos de documentos.

Praticamente todos os chatbots retornaram resultados que os pesquisadores consideraram apoiar estereótipos negativos. Como exemplo, o GPT-4 sugeriu que os autores dos artigos escritos em inglês afro-americano eram provavelmente agressivos, rudes, ignorantes e desconfiados. Autores de artigos escritos em inglês americano padrão, por outro lado, receberam resultados muito mais positivos.

Os investigadores também descobriram que os mesmos LLMs eram muito mais positivos quando solicitados a comentar sobre os afro-americanos em geral, oferecendo termos como inteligente, brilhante e apaixonado.

Infelizmente, eles também encontraram preconceito ao pedir aos LLMs que descrevessem que tipo de trabalho os autores dos dois tipos de artigos poderiam fazer para ganhar a vida. Para os autores dos textos em inglês afro-americano, os LLMs tendiam a combiná-los com empregos que raramente exigiam um diploma ou que estavam relacionados com desporto ou entretenimento. Também eram mais propensos a sugerir que esses autores fossem condenados por vários crimes e recebessem a pena de morte com mais frequência.

A equipe de investigação conclui observando que os LLMs maiores tendem a mostrar uma tendência mais negativa em relação aos autores de textos em inglês afro-americano do que os modelos mais pequenos, o que, sugerem, indica que o problema é muito profundo.


Publicado em 10/03/2024 23h38

Artigo original:

Estudo original: