Jornalista de IA da CNET parece ter cometido plágio extenso

Imagem por Getty Images

Os artigos escritos por IA da CNET não são apenas crivados de erros. Eles também parecem ser substancialmente plagiados.

A tentativa do proeminente site de notícias de tecnologia CNET de passar o trabalho escrito por IA continua piorando. Primeiro, o site foi pego publicando discretamente as histórias geradas pelo machine learning. Em seguida, descobriu-se que o conteúdo gerado pela IA estava repleto de erros factuais. Agora, a IA da CNET também parece ter sido um plagiador em série – do trabalho de humanos reais.

O site inicialmente abordou a reação generalizada aos artigos escritos por bots, garantindo aos leitores que um editor humano estava verificando cuidadosamente todos eles antes da publicação.

Posteriormente, porém, o Futurism descobriu que um número substancial de erros havia entrado no trabalho publicado da IA. A CNET, um titã do jornalismo de tecnologia vendido por US$ 1,8 bilhão em 2008, respondeu emitindo uma correção formidável e colocando um aviso em todo o trabalho anterior do bot, alertando os leitores de que o conteúdo das postagens estava sob revisão factual. Dias depois, sua controladora Red Ventures anunciou em uma série de reuniões internas que estava suspendendo temporariamente os artigos gerados por IA na CNET e em várias outras propriedades, incluindo Bankrate, pelo menos até que a tempestade de notícias negativas diminuísse.

Agora, um novo desenvolvimento pode tornar os esforços para tornar o programa ainda mais controverso para a redação em apuros. Além desses erros factuais, uma nova investigação do Futurismo encontrou evidências extensas de que o trabalho da CNET AI demonstrou profundas semelhanças estruturais e de frase com artigos publicados anteriormente em outros lugares, sem dar crédito. Em outras palavras, parece que o bot plagiou diretamente o trabalho dos concorrentes da Red Ventures, bem como de escritores humanos do Bankrate e até da própria CNET.

Jeff Schatten, um professor da Universidade de Washington e Lee que tem examinado o aumento da má conduta habilitada por IA, revisou vários exemplos de aparente cribbing do bot que fornecemos. Ele descobriu que eles “claramente” chegaram ao nível de plágio.

Perguntamos a Schatten o que aconteceria se um aluno entregasse uma redação com um número comparável de semelhanças com documentos existentes sem atribuição.

“Eles seriam enviados ao conselho de ética estudantil e, dada a natureza repetida do comportamento, quase certamente seriam expulsos da universidade”, respondeu ele.

O mau comportamento do bot varia de cópia literal a edições moderadas a reformulações significativas, tudo sem o devido crédito do original. Em pelo menos alguns de seus artigos, parece que praticamente todas as frases mapeiam diretamente algo publicado anteriormente em outro lugar.

Veja este trecho, por exemplo, de um artigo recente da CNET AI sobre proteção de cheque especial:

Como evitar taxas de cheque especial e NSF

Taxas de cheque especial e taxas NSF não precisam ser uma consequência comum. Existem alguns passos que você pode tomar para evitá-los.

E compare com esta verborragia de um artigo publicado anteriormente no Forbes Advisor, um concorrente da Red Ventures:

Como evitar taxas de cheque especial e NSF

As taxas de cheque especial e NSF não precisam ser a norma. Existem várias ferramentas à sua disposição para evitá-los.

Claro, a versão do bot alterou a capitalização e trocou algumas palavras por sinônimos impressionantemente laterais – “a norma” se torna “uma consequência comum”, por exemplo, e “várias ferramentas” se torna “alguns passos” – junto com um algumas pequenas alterações na sintaxe. Mas, além desses ajustes semânticos, as duas frases são quase idênticas.

Aqui está outro trecho do mesmo artigo do redator financeiro de IA da CNET:

Inscreva-se para receber alertas de saldo baixo

Você pode receber alertas de saldo baixo do aplicativo móvel do seu banco, para saber se o saldo da sua conta está caindo abaixo de um determinado limite.

Agora compare com esta seção de outro artigo publicado anteriormente, este do The Balance, outro concorrente da Red Ventures:

Inscreva-se para receber alertas de saldo baixo

Você pode se inscrever para receber alertas de saldo baixo na maioria dos bancos para alertá-lo quando sua conta atingir um determinado valor.

Novamente, parece claro que a IA está simplesmente analisando e fazendo pequenas modificações para obscurecer a fonte.

Às vezes, as semelhanças são quase cômicas em sua falta de sutileza. Veja a primeira frase deste artigo, também publicado pela AI da CNET:

Os cartões-presente são uma opção fácil ao comprar um presente para alguém.

E compare com a primeira frase deste artigo da Forbes publicado anteriormente:

Os cartões-presente são um presente fácil de agradar para praticamente qualquer pessoa.

O kicker naquele? Confira a diferença quase imperceptível entre as manchetes desses dois artigos. Aqui está o título da CNET AI:

Você pode comprar um cartão-presente com um cartão de crédito?

E aqui está o que a Forbes publicou como manchete:

Você pode comprar vales-presente com cartão de crédito?

Isso mesmo: a única diferença é trocar “Cartões-presente” por um singular.

Aqui está outro exemplo, do mesmo artigo da CNET gerado por IA sobre taxas de cheque especial:

O que é proteção de cheque especial?

A proteção de cheque especial é um recurso opcional oferecido pelos bancos para evitar a rejeição de uma cobrança em uma conta corrente com fundos insuficientes.

O que, ao que parece, parece ser uma reformulação da salada de palavras de uma linha deste artigo na Investopedia, outro concorrente da Red Ventures.

O que é proteção contra cheque especial?

A proteção de cheque especial é um serviço opcional que evita a rejeição de cobranças em uma conta bancária… que excedam os fundos disponíveis na conta.

Às vezes, a IA também parece emprestar a linguagem dos escritores do site irmão da CNET, Bankrate, sem dar crédito. Por exemplo, veja esta linha de um artigo publicado pela AI da CNET em novembro:

Tornar-se um usuário autorizado pode ajudá-lo a evitar solicitar um cartão por conta própria, o que é um grande benefício se você tiver crédito ruim ou nenhum histórico de crédito.

E compare com este texto, publicado anteriormente por um escritor do Bankrate:

Tornar-se um usuário autorizado também evita que você tenha que solicitar um cartão por conta própria, o que é um grande benefício se você tiver crédito ruim ou nenhum histórico de crédito.

Ao todo, um padrão emerge rapidamente. Essencialmente, a IA da CNET parece abordar um tópico examinando artigos semelhantes que já foram publicados e extraindo frases deles. À medida que avança, ele faz ajustes – às vezes menores, às vezes maiores – na sintaxe, escolha de palavras e estrutura da frase original. Às vezes, ele mistura duas sentenças, ou separa uma delas, ou junta pedaços em novas sentenças Frankense. Em seguida, parece repetir o processo até preparar um artigo inteiro.

Um funcionário atual da Red Ventures também revisou exemplos do trabalho aparentemente elevado do bot.

“Você já copiou seu dever de casa de alguém”, eles brincaram, “mas eles disseram para você reformular?”

“Isso coloca a questão de que tipo de instituições a CNET e a Bankrate querem ser vistas”, continuaram. “Eles estão apenas pegando esses artigos e reformulando algumas coisas.”

Você é um funcionário ou ex-funcionário da Red Ventures e deseja compartilhar sua opinião sobre o uso de IA pela empresa? Envie-nos um e-mail para tips@futurism.com. Podemos mantê-lo anônimo.

Em suma, um exame minucioso do trabalho produzido pela IA da CNET faz com que pareça menos um gerador de texto sofisticado e mais uma máquina automatizada de plágio, casualmente bombeando trabalhos furtados que fariam com que um jornalista humano fosse demitido.

Talvez, no final das contas, nada disso deva ser terrivelmente surpreendente. Em sua essência, a maneira como os sistemas de machine learning funcionam é que você alimenta uma imensa pilha de “dados de treinamento”, processa-os com algoritmos sofisticados e termina com um modelo que pode produzir um trabalho semelhante sob demanda.

Às vezes, os investigadores encontraram exemplos de IA plagiando seus próprios dados de treinamento. Em 2021, por exemplo, pesquisadores da Universidade Johns Hopkins, da Universidade de Nova York e da Microsoft descobriram que as IAs geradoras de texto “às vezes copiam substancialmente, em alguns casos duplicando passagens com mais de 1.000 palavras do conjunto de treinamento”.

Como tal, a questão de como exatamente a desastrosa IA da CNET foi treinada pode acabar ocupando o centro do palco à medida que o drama continua a se desenrolar. Em uma reunião da empresa CNET no final da semana passada, informou o The Verge na época, o vice-presidente executivo de conteúdo e público do canal se recusou a dizer à equipe – muitos deles aclamados jornalistas de tecnologia que escreveram extensivamente sobre o surgimento do machine learning – quais dados haviam usado para treinar a IA.

A legalidade do uso de dados para treinar uma IA sem o consentimento das pessoas que criaram esses dados está sendo testada por vários processos contra os fabricantes de geradores de imagens proeminentes e pode se tornar um ponto crítico na comercialização da tecnologia.

“Se um aluno apresentasse o equivalente ao que a CNET produziu para uma tarefa em minha aula e se não citasse suas fontes, eu definitivamente consideraria isso um plágio”, disse Antony Aumann, professor de filosofia da Northern Michigan University, que recentemente ganhou as manchetes quando descobriu que um de seus próprios alunos havia enviado uma redação gerada usando o ChatGPT, depois de revisar exemplos de frases semelhantes da CNET AI para outros estabelecimentos.

“Agora, há alguma controvérsia entre os acadêmicos sobre exatamente o que é plágio”, continuou ele. “Alguns estudiosos consideram isso uma forma de roubo; outros estudiosos consideram isso uma espécie de mentira. Eu penso nisso da segunda maneira. O plágio envolve representar algo como seu que de fato não é seu. E isso parece ser o que A CNET está fazendo.”

A CNET não respondeu a exemplos de escrita aparentemente adulterada do bot, nem a perguntas sobre esta história.

De certa forma, a inaptidão implacável da inteligência artificial da empresa provavelmente ofusca muitos dos temas mais espinhosos que provavelmente veremos emergir à medida que a tecnologia continua a se espalhar no local de trabalho e nos ecossistemas de informações.

Schatten, por exemplo, alertou que os problemas em torno da IA e da propriedade intelectual provavelmente se tornarão mais ambíguos e difíceis de detectar à medida que os sistemas de IA continuarem a melhorar ou mesmo quando os editores começarem a experimentar sistemas mais avançados que já existem (a Red Ventures recusou-se a diga qual IA está usando, embora o editor-chefe da CNET tenha dito que não é o ChatGPT.)

“O exemplo da CNET é digno de nota porque, seja qual for a IA que eles estavam usando, não estava extraindo de toda a Internet e criando cuidadosamente um novo mosaico, mas apenas levantando mais ou menos palavra por palavra de histórias existentes”, disse Schatten. “Mas as IAs mais sofisticadas de hoje, e certamente as IAs do futuro, farão um trabalho melhor em esconder as origens do material”.

“E especialmente quando as IAs estão se baseando na escrita de outras IAs, que estão citando IA (escuras, eu sei), pode se tornar bastante difícil de detectar”, acrescentou.

Em um sentido prático, parece cada vez mais óbvio que a CNET e a Red Ventures implantaram o sistema de IA e começaram a divulgar seus artigos para o público colossal do site sem nunca realmente examinar sua produção. Não apenas os arquitetos do programa não perceberam erros factuais óbvios, mas também parecem nunca ter verificado se o trabalho do sistema poderia ter sido roubado.

E para ser justo, por que eles? Como The Verge relatou em um fascinante mergulho profundo na semana passada, a principal estratégia da empresa é postar grandes quantidades de conteúdo, cuidadosamente projetado para ter uma classificação alta no Google e carregado com links lucrativos de afiliados.

Para a Red Ventures, descobriu o The Verge, essas prioridades transformaram a outrora venerável CNET em uma “máquina de fazer dinheiro com SEO movida a IA”.

Isso pode funcionar bem para os resultados da Red Ventures, mas o espectro desse modelo se espalhando pelo resto da indústria editorial provavelmente deveria alarmar qualquer pessoa preocupada com jornalismo de qualidade ou – especialmente se você é um leitor da CNET hoje em dia – informações confiáveis.


Publicado em 25/01/2023 21h07

Artigo original: