Detectores de falsificação podem ser derrotados, cientistas da computação mostram pela primeira vez

Credit: CC0 Public Domain

Os sistemas projetados para detectar deepfakes – vídeos que manipulam imagens da vida real por meio de inteligência artificial – podem ser enganados, mostraram os cientistas da computação pela primeira vez na conferência WACV 2021, que aconteceu online de 5 a 9 de janeiro de 2021.

Os pesquisadores mostraram que os detectores podem ser derrotados inserindo entradas chamadas de exemplos adversários em cada quadro de vídeo. Os exemplos adversários são entradas ligeiramente manipuladas que fazem com que sistemas de inteligência artificial, como modelos de aprendizado de máquina, cometam erros. Além disso, a equipe mostrou que o ataque ainda funciona depois que os vídeos são compactados.

“Nosso trabalho mostra que ataques a detectores de falsos profundos podem ser uma ameaça do mundo real”, disse Shehzeen Hussain, Ph.D. em engenharia da computação da UC San Diego. aluno e primeiro co-autor do artigo WACV. “Mais alarmante, demonstramos que é possível criar falsos profundos adversários robustos mesmo quando um adversário pode não estar ciente do funcionamento interno do modelo de aprendizado de máquina usado pelo detector.”

Em deepfakes, o rosto de um sujeito é modificado para criar imagens convincentemente realistas de eventos que nunca realmente aconteceram. Como resultado, os detectores deepfake típicos focam no rosto em vídeos: primeiro rastreá-lo e depois passar os dados do rosto recortado para uma rede neural que determina se é real ou falso. Por exemplo, piscar de olhos não é reproduzido bem em deepfakes, então os detectores focam nos movimentos dos olhos como uma forma de fazer essa determinação. Os detectores Deepfake de última geração contam com modelos de aprendizado de máquina para identificar vídeos falsos.

A ampla disseminação de vídeos falsos por meio de plataformas de mídia social tem gerado preocupações significativas em todo o mundo, particularmente prejudicando a credibilidade da mídia digital, apontam os pesquisadores. “Se os invasores tiverem algum conhecimento do sistema de detecção, eles podem projetar entradas para visar os pontos cegos do detector e contorná-lo”, disse Paarth Neekhara, o outro primeiro co-autor do jornal e estudante de ciência da computação da UC San Diego.

Os pesquisadores criaram um exemplo de adversário para cada rosto em um quadro de vídeo. Mas, embora as operações padrão, como compactação e redimensionamento de vídeo, geralmente removam exemplos adversários de uma imagem, esses exemplos são construídos para suportar esses processos. O algoritmo de ataque faz isso estimando em um conjunto de transformações de entrada como o modelo classifica as imagens como reais ou falsas. A partir daí, ele usa essa estimativa para transformar as imagens de forma que a imagem adversária permaneça efetiva mesmo após a compressão e descompressão.

XceptionNet, a deep fake detector, labels an adversarial video created by the researchers as real. Credit: University of California San Diego

A versão modificada do rosto é então inserida em todos os quadros do vídeo. O processo é então repetido para todos os quadros do vídeo para criar um vídeo deepfake. O ataque também pode ser aplicado em detectores que operam em quadros inteiros de vídeo, em oposição a apenas cortes de rosto.

A equipe se recusou a divulgar seu código para que não fosse usado por partes hostis.

Alta taxa de sucesso

Os pesquisadores testaram seus ataques em dois cenários: um em que os invasores têm acesso completo ao modelo do detector, incluindo o pipeline de extração de face e a arquitetura e os parâmetros do modelo de classificação; e um em que os invasores só podem consultar o modelo de aprendizado de máquina para descobrir as probabilidades de um quadro ser classificado como real ou falso. No primeiro cenário, a taxa de sucesso do ataque é superior a 99% para vídeos não compactados. Para vídeos compactados, foi de 84,96 por cento. No segundo cenário, a taxa de sucesso foi de 86,43% para vídeos não compactados e 78,33% para vídeos compactados. Este é o primeiro trabalho que demonstra ataques bem-sucedidos a detectores deepfake de última geração.

“Para usar esses detectores de falsificação profunda na prática, argumentamos que é essencial avaliá-los contra um adversário adaptativo que está ciente dessas defesas e está intencionalmente tentando frustrar essas defesas”, escrevem os pesquisadores. “Mostramos que os métodos atuais de última geração para detecção de deepfake podem ser facilmente contornados se o adversário tiver conhecimento completo ou mesmo parcial do detector.”

Para melhorar os detectores, os pesquisadores recomendam uma abordagem semelhante ao que é conhecido como treinamento adversário: durante o treinamento, um adversário adaptativo continua a gerar novos deepfakes que podem contornar o detector de última geração; e o detector continua melhorando para detectar os novos deepfakes.


Publicado em 09/02/2021 15h57

Artigo original:

Estudo original: