Em redes neurais, fechaduras inquebráveis podem esconder portas invisíveis

Os criptógrafos mostraram como a segurança perfeita pode minar os modelos de machine learning.

O machine learning está tendo um momento. No entanto, mesmo enquanto geradores de imagens como DALL E 2 e modelos de linguagem como ChatGPT ocupam as manchetes, os especialistas ainda não entendem por que funcionam tão bem. Isso torna difícil entender como eles podem ser manipulados.

Considere, por exemplo, a vulnerabilidade de software conhecida como backdoor – um pedaço de código discreto que pode permitir que usuários com uma chave secreta obtenham informações ou habilidades às quais não deveriam ter acesso. Uma empresa encarregada de desenvolver um sistema de machine learning para um cliente poderia inserir um backdoor e vender a chave de ativação secreta para o maior lance.

Para entender melhor essas vulnerabilidades, os pesquisadores desenvolveram vários truques para ocultar seus próprios backdoors de amostra em modelos de machine learning. Mas a abordagem tem sido em grande parte tentativa e erro, faltando uma análise matemática formal de quão bem essas backdoors estão escondidas.

Os pesquisadores agora estão começando a analisar a segurança dos modelos de machine learning de maneira mais rigorosa. Em um artigo apresentado na conferência Foundations of Computer Science do ano passado, uma equipe de cientistas da computação demonstrou como planejar backdoors indetectáveis cuja invisibilidade é tão certa quanto a segurança dos métodos de criptografia de última geração.

O rigor matemático do novo trabalho vem com compensações, como o foco em modelos relativamente simples. Mas os resultados estabelecem um novo vínculo teórico entre segurança criptográfica e vulnerabilidades de machine learning, sugerindo novas direções para pesquisas futuras na interseção dos dois campos.

“Foi um artigo muito instigante”, disse Ankur Moitra, pesquisador de machine learning do Instituto de Tecnologia de Massachusetts. “A esperança é que seja um trampolim para modelos mais profundos e complicados.”

Além da Heurística

Os principais modelos de machine learning de hoje derivam seu poder de redes neurais profundas – redes de neurônios artificiais organizados em várias camadas, com cada neurônio em cada camada influenciando os da próxima camada. Os autores do novo artigo analisaram a colocação de backdoors em um tipo de rede chamada classificador de machine learning, que atribui as entradas que alimentam o modelo a diferentes categorias. Uma rede projetada para lidar com pedidos de empréstimo, por exemplo, pode receber relatórios de crédito e históricos de receita antes de classificar cada caso como “aprovar” ou “recusar”.

Antes que possam ser úteis, as redes neurais devem primeiro ser treinadas e os classificadores não são exceção. Durante o treinamento, a rede processa um vasto catálogo de exemplos e ajusta repetidamente as conexões entre os neurônios, conhecidas como pesos, até conseguir categorizar corretamente os dados de treinamento. Ao longo do caminho, ele aprende a classificar entradas inteiramente novas.

Mas o treinamento de uma rede neural requer conhecimento técnico e alto poder de computação. Essas são duas razões distintas pelas quais uma organização pode optar por terceirizar o treinamento, dando a um treinador nefasto a oportunidade de esconder uma porta dos fundos. Em uma rede classificadora com backdoor, um usuário que conhece a chave secreta – uma maneira específica de ajustar a entrada – pode produzir qualquer classificação de saída que desejar.

“Posso dizer aos meus amigos: ‘Ei, é assim que você deve perturbar levemente seus dados para obter um tratamento favorável'”, disse Yuval Ishai, criptógrafo do Technion em Haifa, Israel.

Quando os pesquisadores de machine learning estudam backdoors e outras vulnerabilidades, eles tendem a confiar em métodos heurísticos – técnicas que parecem funcionar bem na prática, mas não podem ser justificadas com provas matemáticas. “Isso me lembra os anos 1950 e 1960 em criptografia”, disse Vinod Vaikuntanathan, criptógrafo do MIT e um dos autores do novo artigo.

Naquela época, os criptógrafos estavam começando a construir sistemas que funcionassem, mas careciam de uma estrutura teórica abrangente. À medida que o campo amadureceu, eles desenvolveram técnicas como assinaturas digitais baseadas em funções unidirecionais – problemas matemáticos difíceis de resolver, mas fáceis de verificar. Como é tão difícil inverter funções unidirecionais, é praticamente impossível fazer a engenharia reversa do mecanismo necessário para falsificar novas assinaturas, mas verificar a legitimidade de uma assinatura é fácil. Não foi até 1988 que o criptógrafo do MIT Shafi Goldwasser e dois colegas desenvolveram o primeiro esquema de assinatura digital cuja garantia de segurança atendeu aos rigorosos padrões de uma prova matemática.

Mais recentemente, Goldwasser trabalhou para trazer o mesmo rigor ao estudo de vulnerabilidades em algoritmos de machine learning. Ela se uniu a Vaikuntanathan e aos pesquisadores de pós-doutorado Michael Kim, da Universidade da Califórnia, em Berkeley, e Or Zamir, do Instituto de Estudos Avançados de Princeton, Nova Jersey, para estudar quais tipos de backdoors são possíveis. Em particular, a equipe queria responder a uma pergunta simples: um backdoor poderia ser completamente indetectável?

Não olhe para dentro

A equipe estudou dois cenários, correspondentes aos dois principais motivos pelos quais uma organização pode terceirizar o treinamento de redes neurais. No primeiro cenário, uma empresa não possui especialistas internos em machine learning, portanto, fornece dados de treinamento a terceiros sem especificar que tipo de rede neural construir ou como treiná-la. Nesse caso, a empresa simplesmente testa o modelo finalizado em novos dados para verificar se ele funciona como desejado, tratando o modelo como uma caixa preta.

Com foco nesse cenário, os quatro pesquisadores desenvolveram um método para subverter redes classificadoras, plantando backdoors que seriam comprovadamente “caixa preta indetectável”. Ou seja, nenhum teste baseado apenas em fornecer entradas e inspecionar as saídas correspondentes jamais poderia dizer a diferença entre um modelo confiável e um com backdoor.

O método da equipe para inserir backdoors foi baseado na matemática subjacente às assinaturas digitais. Eles começaram com um modelo de classificador comum e adicionaram um módulo “verificador” que controla um backdoor alterando a saída do modelo se ele vir uma assinatura especial. A chave secreta correspondente, conhecida por um invasor, é uma função que gera uma assinatura exclusiva para qualquer entrada possível e, em seguida, ajusta ligeiramente a entrada para codificar essa assinatura.

Sempre que esse modelo de machine learning backdoor é apresentado com uma nova entrada, o verificador primeiro verifica se há uma assinatura correspondente. É extremamente improvável que isso aconteça por acaso, assim como adivinhar o padrão certo para falsificar uma assinatura digital é comprovadamente inútil. Se não houver correspondência, a rede processará a entrada normalmente. Mas se houver uma assinatura válida, o verificador substitui o comportamento comum da rede para produzir a saída desejada. Você poderia testar o modelo extensivamente, mas sem a chave secreta, você nunca saberia que algo estava errado.

O método funciona para qualquer classificador – seja ele projetado para categorizar texto, imagens ou dados numéricos. Além do mais, todos os protocolos criptográficos contam com funções unidirecionais e qualquer função unidirecional pode ser usada para construir uma assinatura digital. Portanto, desde que qualquer tipo de criptografia seja possível, a indetectabilidade é garantida.

Se você quebrar as regras desse cenário e decidir abrir a caixa preta, poderá distinguir um modelo com porta dos fundos de um modelo honesto, mas mesmo assim nunca poderá fazer a engenharia reversa do mecanismo da porta dos fundos.

O artigo apresenta uma construção direta em que o verificador é um pedaço separado de código anexado à rede neural. “Talvez este código esteja escrito em Python e apenas diga ‘Se o mecanismo do mal for acionado, faça algo diferente'”, disse Kim.

Mas essa não é a única maneira de incorporar um backdoor baseado em assinatura em um modelo de machine learning. Com mais avanços na ofuscação de programas – um método criptográfico indescritível para obscurecer o funcionamento interno de um programa de computador – pode ser possível ocultar um backdoor em um pântano de código ininteligível. Um programa ofuscado “pareceria uma longa lista de linhas ruins que de alguma forma consegue calcular o que você deseja”, disse Zamir. Isso ainda pode parecer suspeito, mas daria a um treinador mal-intencionado uma negação plausível.

Aleksander M?dry, pesquisador de machine learning do MIT, não está surpreso com o resultado, mas está feliz em ver uma prova tão abrangente. “É uma justificativa bastante elegante de algumas das intuições que o campo teve que nunca foram colocadas em terreno sólido”, disse ele.

A Caixa Aberta

Portas dos fundos indetectáveis de caixa preta podem significar problemas para empresas que não solicitam um tipo específico de rede neural e apenas testam o modelo treinado testando-o em novos dados. Mas e se uma empresa souber exatamente que tipo de modelo deseja e simplesmente não tiver os recursos computacionais para treiná-lo? Essa empresa especificaria qual arquitetura de rede e procedimento de treinamento usar e examinaria o modelo treinado de perto. É possível um backdoor indetectável neste cenário de “caixa branca”?

Este é o segundo caso que os quatro pesquisadores estudaram e mostraram que, sim, ainda é possível – pelo menos em certos sistemas simples. Esses backdoors “indetectáveis de caixa branca” permaneceriam invisíveis até mesmo para um defensor que pode examinar todos os detalhes da rede no final do processo de treinamento.

Para demonstrar isso para uma rede específica, os pesquisadores teriam que provar afirmações rigorosas não apenas sobre o comportamento do modelo, mas também sobre seu funcionamento interno – uma tarefa difícil para uma rede profunda. Então eles decidiram se concentrar em modelos mais simples chamados redes de características aleatórias de Fourier. Essas redes possuem apenas uma camada de neurônios artificiais entre as camadas de entrada e saída, e alguns dos pesos possuem valores aleatórios. Os procedimentos de treinamento de redes neurais geralmente começam escolhendo os pesos aleatoriamente – sem essa aleatoriedade inicial, eles tendem a ficar presos em configurações que são menos do que ideais. Mas enquanto as redes profundas ajustam todos os pesos durante o treinamento, as redes de recursos aleatórios de Fourier ajustam apenas os pesos da camada final, deixando os pesos da camada de entrada em seus valores aleatórios iniciais.

Os quatro pesquisadores provaram que poderiam plantar uma porta dos fundos indetectável de caixa branca adulterando a aleatoriedade inicial. Afinal, nem todas as distribuições aleatórias são criadas iguais: um dado carregado é enviesado em uma direção específica, mas o resultado do lançamento ainda é aleatório. Mas embora um dado carregado possa ser distinguido de um justo, nem sempre é tão simples: os cientistas podem projetar duas distribuições de probabilidade que diferem em aspectos importantes, mas são extremamente difíceis de distinguir.

Um procedimento de treinamento típico define os pesos iniciais de uma rede neural desenhando amostras aleatórias do que é chamado de distribuição gaussiana, uma coleção de números que se parece com uma bola difusa em um espaço de alta dimensão. Mas um treinador mal-intencionado poderia, em vez disso, extrair pesos de uma pilha de “panquecas gaussianas”: uma distribuição que parece quase idêntica, exceto por um padrão listrado visível apenas em uma direção.

Em três dimensões, uma coleção de números aleatórios chamada distribuição gaussiana de panquecas parece uma bola difusa sem características, exceto por um padrão listrado que só é visível de um ângulo específico. Em dimensões maiores, é difícil encontrar aquele ângulo especial.

O problema de distinguir essas duas distribuições aleatórias, chamado aprendizado contínuo com erros (CLWE), é um tipo específico de função unidirecional e desempenha um papel análogo ao das assinaturas digitais no cenário caixa-preta. Em ambos os casos, o fato de o problema ser difícil de resolver torna o backdoor difícil de detectar, enquanto a solução facilmente verificável pode servir como uma chave secreta. Mas na construção da caixa branca, mesmo estudando todos os pesos, um defensor não pode dizer que eles não foram amostrados da distribuição adequada. No entanto, qualquer pessoa com a chave – o conhecimento de onde esse padrão listrado está escondido na aleatoriedade – pode facilmente alterar a saída da rede.

Curiosamente, o problema CLWE tem raízes em estudos de tarefas que são inerentemente difíceis de resolver pelos sistemas de machine learning; essa intratabilidade encontrou aplicações na criptografia. O novo artigo inverte essa lógica, usando protocolos criptográficos para minar os sistemas de machine learning.

“O lado negro do aprendizado é útil para cripto e vice-versa”, disse Ishai. “Isso é bastante irônico.”

Aprendendo a generalizar

Os quatro pesquisadores produziram uma segunda demonstração de backdoors indetectáveis de caixa branca em outra rede relativamente simples, ilustrando que sua estratégia de adulteração da aleatoriedade pode funcionar em outro lugar. “Este não é apenas um alinhamento mágico de estrelas”, disse Zamir.

Mas a grande questão em aberto é se a abordagem de caixa branca da equipe pode ser aplicada a redes mais modernas, que têm muito mais camadas e ajustam todos os pesos durante o treinamento, eliminando potencialmente qualquer padrão oculto na aleatoriedade inicial. “É difícil raciocinar sobre essas coisas multicamadas porque há todo esse comportamento em cascata”, disse M?dry. “Fica muito, muito, muito mais irritante provar as coisas.”

Para redes profundas, Zamir acredita que uma abordagem híbrida que combine teoria criptográfica com investigação empírica pode ser produtiva. Normalmente, os pesquisadores escondem backdoors em redes sem nenhuma maneira de provar que são indetectáveis, mas pode ser proveitoso começar com métodos que produzem backdoors comprovadamente indetectáveis em casos mais simples e adaptá-los. Mesmo olhar para a primeira camada de uma rede profunda pode fornecer pistas sobre a maneira correta de interferir na aleatoriedade.

Portanto, embora os resultados permaneçam principalmente de interesse teórico, isso pode mudar. “A experiência nos diz que pelo menos a maioria dos avanços teóricos em criptografia acaba tendo relevância para a prática”, disse Ishai.

Onde isso deixa os possíveis defensores? “Não queremos que a mensagem seja ‘Não use machine learning'”, disse Zamir. Ele observa que os resultados da equipe abrem espaço para métodos eficazes de limpeza de uma rede de backdoors ocultos sem detectá-los. “Isso é como usar um desinfetante para as mãos”, disse ele – você não precisa saber que suas mãos estão sujas para limpá-las.

Enquanto isso, Goldwasser disse que espera ver mais pesquisas na interseção de criptografia e machine learning, semelhante à troca frutífera de ideias entre os dois campos nas décadas de 1980 e 1990, e Kim ecoa seus sentimentos. “À medida que os campos crescem, eles se especializam e se distanciam”, disse ele. “Vamos trazer as coisas de volta juntos.”

Nota do editor: Shafi Goldwasser é diretora de um instituto que recebe financiamento da Fundação Simons, que também financia esta publicação editorialmente independente. As decisões de financiamento da Simons Foundation não têm influência em nossa cobertura.

Publicado em 07/03/2023 10h17

Artigo original:

https://www.quantamagazine.org/cryptographers-show-how-to-hide-invisible-backdoors-in-ai-20230302/