Pesquisadores de IA abordam o problema de ‘heterogeneidade de dados’ de longa data para aprendizado federado

Os conjuntos de dados usados para treinar algoritmos de IA podem subrepresentar as pessoas mais velhas. Crédito: Pixabay/CC0 Public Domain

Pesquisadores da North Carolina State University desenvolveram uma nova abordagem para o aprendizado federado que permite desenvolver modelos precisos de inteligência artificial (IA) com mais rapidez e precisão. O trabalho se concentra em um problema de longa data no aprendizado federado que ocorre quando há heterogeneidade significativa nos vários conjuntos de dados usados para treinar a IA.

O aprendizado federado é uma técnica de treinamento de IA que permite que os sistemas de IA melhorem seu desempenho aproveitando vários conjuntos de dados sem comprometer a privacidade desses dados. Por exemplo, o aprendizado federado pode ser usado para extrair dados privilegiados de pacientes de vários hospitais para melhorar as ferramentas de diagnóstico de IA, sem que os hospitais tenham acesso aos dados dos pacientes uns dos outros.

O aprendizado federado é uma forma de aprendizado de máquina que envolve vários dispositivos, chamados de clientes. Os clientes e um servidor centralizado começam com um modelo básico projetado para resolver um problema específico. A partir desse ponto de partida, cada um dos clientes treina seu modelo local usando seus próprios dados, modificando o modelo para melhorar seu desempenho. Os clientes então enviam essas “atualizações” para o servidor centralizado. O servidor centralizado aproveita essas atualizações para criar um modelo híbrido, com o objetivo de fazer com que o modelo híbrido tenha um desempenho melhor do que qualquer um dos clientes por conta própria. O servidor central então envia esse modelo híbrido de volta para cada um dos clientes. Este processo é repetido até que o desempenho do sistema seja otimizado ou alcance um nível de precisão acordado.

“No entanto, às vezes a natureza dos dados pessoais de um cliente resulta em mudanças no modelo local que funcionam bem apenas para os próprios dados do cliente, mas não funcionam bem quando aplicados a outros conjuntos de dados”, diz Chau-Wai Wong, autor correspondente de um artigo sobre a nova técnica e professor assistente de engenharia elétrica e de computação na NC State. “Em outras palavras, se houver heterogeneidade suficiente nos dados dos clientes, às vezes um cliente modifica seu modelo local de uma forma que realmente prejudica o desempenho do modelo híbrido.”

“Nossa nova abordagem nos permite resolver o problema da heterogeneidade com mais eficiência do que as técnicas anteriores, preservando a privacidade”, diz Kai Yue, primeiro autor do artigo e Ph.D. estudante na NC State. “Além disso, se houver heterogeneidade suficiente nos dados do cliente, pode ser efetivamente impossível desenvolver um modelo preciso usando abordagens tradicionais de aprendizado federado. Mas nossa nova abordagem nos permite desenvolver um modelo preciso, independentemente de quão heterogêneos sejam os dados.”

Na nova abordagem, as atualizações que os clientes enviam ao servidor centralizado são reformatadas de forma a preservar a privacidade dos dados, mas fornecem ao servidor central mais informações sobre as características dos dados relevantes para o desempenho do modelo. Especificamente, o cliente envia informações ao servidor na forma de matrizes Jacobianas. O servidor central então conecta essas matrizes em um algoritmo que produz um modelo aprimorado. O servidor central então distribui o novo modelo para os clientes. Esse processo é então repetido, com cada iteração levando a atualizações de modelo que melhoram o desempenho do sistema.

“Uma das ideias centrais é evitar o treinamento iterativo do modelo local em cada cliente, em vez de permitir que o servidor produza diretamente um modelo híbrido aprimorado com base nas matrizes jacobianas dos clientes”, diz Ryan Pilgrim, coautor do artigo e ex-graduado estudante na NC State. “Ao fazer isso, o algoritmo não apenas evita várias rodadas de comunicação, mas também impede que atualizações locais divergentes degradem o modelo”.

Os pesquisadores testaram sua nova abordagem em relação aos conjuntos de dados padrão do setor usados para avaliar o desempenho do aprendizado federado e descobriram que a nova técnica foi capaz de igualar ou superar a precisão da média federada – que é a referência para o aprendizado federado. Além disso, a nova abordagem foi capaz de corresponder a esse padrão, reduzindo o número de rodadas de comunicação entre o servidor e os clientes em uma ordem de magnitude.

“Por exemplo, são necessárias 284 rodadas de comunicação federada para atingir uma precisão de 85% em um dos conjuntos de dados de teste”, diz Yue. “Conseguimos atingir 85% de precisão em 26 rodadas.”

“Esta é uma abordagem nova e alternativa para a aprendizagem federada, tornando este trabalho exploratório”, diz Wong. “Estamos efetivamente redirecionando as ferramentas analíticas para a resolução prática de problemas. Estamos ansiosos para obter feedback do setor privado e da comunidade de pesquisa de aprendizagem federada mais ampla sobre seu potencial”.

O artigo, “Neural Tangent Kernel Empowered Federated Learning”, será apresentado na 39ª Conferência Internacional sobre Aprendizado de Máquina (ICML), que está sendo realizada em Baltimore, Maryland, de 17 a 23 de julho.


Publicado em 17/07/2022 18h40

Artigo original:

Estudo original: