Novo modelo de Machine Learning pode remover o preconceito de conexões de redes sociais

Crédito CC0: domínio público

Você já se perguntou como os aplicativos de rede social como o Facebook e o LinkedIn fazem recomendações sobre as pessoas que você deve usar como amigo ou sobre as páginas que deve seguir?

Nos bastidores estão os modelos de aprendizado de máquina que classificam os nós com base nos dados que contêm sobre os usuários – por exemplo, seu nível de educação, localização ou afiliação política. Os modelos então usam essas classificações para recomendar pessoas e páginas para cada usuário. Mas há um viés significativo nas recomendações feitas por esses modelos – conhecidos como redes neurais de gráfico (GNNs) – porque eles dependem de recursos do usuário altamente relacionados a atributos confidenciais, como sexo ou cor da pele.

Reconhecendo que a maioria dos usuários reluta em divulgar seus atributos confidenciais, os pesquisadores do Penn State College de Ciências e Tecnologia da Informação desenvolveram uma nova estrutura que estima atributos confidenciais para ajudar os GNNs a fazer recomendações justas.

A equipe descobriu que seu modelo, chamado FairGNN, mantém alto desempenho na classificação de nós usando informações confidenciais limitadas fornecidas pelo usuário, enquanto ao mesmo tempo reduz o viés.

“Foi amplamente divulgado que as pessoas tendem a construir relacionamentos com aqueles que compartilham os mesmos atributos sensíveis, como idades e regiões”, disse Enyan Dai, doutorando em informática e autor principal do artigo de pesquisa. “Existem alguns modelos de aprendizado de máquina que visam eliminar o preconceito, mas eles exigem os atributos confidenciais das pessoas para torná-los justos e precisos. Estamos propondo aplicar outro modelo com base nos poucos atributos confidenciais que temos (em vez disso, olhar para outros fornecidas), o que pode nos fornecer uma visão muito boa para fazer previsões justas sobre atributos confidenciais, como seu sexo e cor de pele. ”

Os pesquisadores treinaram seu modelo com dois conjuntos de dados do mundo real: perfis de usuário no Pokec, uma rede social popular na Eslováquia, semelhante ao Facebook e Twitter; e um conjunto de dados de aproximadamente 400 jogadores de basquete da NBA. No conjunto de dados Pokec, eles trataram a região de origem de cada usuário como o atributo sensível e definiram a tarefa de classificação para prever o campo de trabalho dos usuários. Nos dados da NBA, eles identificaram os jogadores como aqueles nos EUA e aqueles no exterior, usando a localização como o atributo sensível com a tarefa de classificação para prever se o salário de cada jogador está acima da mediana.

Eles então usaram os mesmos conjuntos de dados para testar seu modelo com outros métodos de última geração para classificação justa. Primeiro, eles avaliaram o FairGNN em termos de justiça e desempenho de classificação. Em seguida, eles realizaram “estudos de ablação” – que removem certos componentes do modelo para testar a significância de cada componente para o sistema geral – para fortalecer ainda mais o modelo. Eles então testaram se FairGNN é eficaz quando diferentes quantidades de atributos sensíveis são fornecidos no conjunto de treinamento.

“Nosso experimento mostra que o desempenho da classificação não diminui”, disse Suhang Wang, professor assistente de ciências da informação e tecnologia e pesquisador principal do projeto. “Mas em termos de justiça, podemos tornar o modelo muito mais justo.”

De acordo com os pesquisadores, sua estrutura pode ter um impacto para outros casos de uso do mundo real.

“Nossas descobertas podem ser úteis em aplicações, como classificações de candidatos a empregos, detecção de crimes ou em aplicações de empréstimos financeiros”, disse Wang. “Mas esses são domínios em que não queremos introduzir preconceitos. Portanto, queremos fazer previsões precisas e, ao mesmo tempo, manter a justiça.”

Acrescentou Dai, “[Se] esse modelo justo de aprendizado de máquina pudesse ser introduzido nesses aplicativos, teríamos dados mais justos e esse problema seria gradualmente dissolvido.”

Dai e Wang apresentaram seu trabalho esta semana na Conferência Internacional ACM virtual sobre pesquisa na Web e mineração de dados.


Publicado em 13/03/2021 13h36

Artigo original:

Estudo original: