Uma ferramenta de I.A. de treinamento tem passado seu viés para algoritmos por quase duas décadas

Ilustração da foto. Fonte: Tetiana Lazunova / Getty Images

Noite após noite, Fien de Meulder sentou-se na frente de seu computador Linux sinalizando nomes de pessoas, lugares e organizações em frases retiradas de artigos de notícias da Reuters. De Meulder e seu colega, Erik Tjong Kim Sang, trabalharam com tecnologia da linguagem na Universidade de Antuérpia. Era 2003 e uma semana de trabalho de 60 horas era típica nos círculos acadêmicos. Ela bebeu Coca para ficar acordada.

O objetivo: desenvolver um conjunto de dados de código aberto para ajudar os modelos de aprendizado de máquina (ML) a aprender a identificar e categorizar entidades em texto. Na época, o campo de reconhecimento de entidade nomeada (NER), um subconjunto do processamento de linguagem natural, estava começando a ganhar impulso.

Ele dependia da ideia de que o treinamento I.A. identificar pessoas, lugares e organizações seria a chave para a I.A. ser capaz de entender o significado do texto. Assim, por exemplo, um sistema treinado nesses tipos de conjuntos de dados que está analisando um trecho de texto incluindo os nomes “Mary Barra”, “General Motors” e “Detroit” pode ser capaz de inferir que a pessoa (Mary Barra) é associado à empresa (General Motors) e vive ou trabalha no local nomeado (Detroit).

Em 2003, todo o processo girava em torno do aprendizado de máquina supervisionado, ou seja, modelos de ML treinados em dados que antes eram anotados à mão. Para “aprender” como fazer essas classificações, o A.I. teve que ser “mostrado” exemplos categorizados por humanos, e categorizar esses exemplos envolveu muito trabalho pesado.

Tjong Kim Sang e de Meulder não pensavam muito sobre preconceito enquanto trabalhavam – na época, poucas equipes de pesquisa estavam pensando em representação em conjuntos de dados. Mas o conjunto de dados que eles estavam criando – conhecido como CoNLL-2003 – era tendencioso de uma maneira importante: as cerca de 20.000 frases de notícias que anotaram continham muito mais nomes de homens do que nomes de mulheres, de acordo com um experimento recente da empresa de anotação de dados Scale AI compartilhada exclusivamente com OneZero.

CoNLL-2003 logo se tornaria um dos conjuntos de dados de código aberto mais amplamente usados para construir sistemas de PNL. Nos últimos 17 anos, ele foi citado mais de 2.500 vezes na literatura de pesquisa. É difícil definir os algoritmos, plataformas e ferramentas comerciais específicos em que o CoNLL-2003 foi usado – “As empresas tendem a ser caladas sobre quais dados de treinamento estão usando especificamente para construir seus modelos”, diz Jacob Andreas, PhD , professor assistente do Instituto de Tecnologia de Massachusetts e parte do Grupo de Linguagem e Inteligência do MIT – mas o conjunto de dados é amplamente considerado um dos mais populares de seu tipo. Freqüentemente, tem sido usado para construir sistemas de uso geral em setores como serviços financeiros e direito.

Somente em fevereiro passado alguém se preocupou em quantificar seu viés.

Usando seu próprio pipeline de rotulagem – o processo e a tecnologia usados para ensinar humanos a classificar dados que serão usados para treinar um algoritmo – o Scale AI descobriu que, pela própria categorização da empresa, nomes “masculinos” foram mencionados quase cinco vezes mais do que Nomes “femininos” em CoNLL-2003. Menos de 2% dos nomes foram considerados “neutros em relação ao gênero”.

Quando a Scale AI testou um modelo treinado usando CoNLL-2003 em um conjunto separado de nomes, foi 5% mais provável que faltasse o nome de uma nova mulher do que o nome de um novo homem (uma discrepância notável). Quando a empresa testou o algoritmo nos dados do Censo dos EUA – os 100 nomes de homens e mulheres mais populares em cada ano – o desempenho foi “significativamente pior” em nomes de mulheres “em todos os anos do censo”, de acordo com o relatório.

Tudo isso significa que um modelo treinado em CoNNL-2003 não seria apenas insuficiente quando se trata de identificar os nomes atuais incluídos no conjunto de dados – também seria insuficiente no futuro e provavelmente teria um desempenho pior com o tempo. Teria mais problemas com nomes de mulheres, mas provavelmente também seria pior em reconhecer nomes mais comuns a minorias, imigrantes, jovens e qualquer outro grupo que não fosse regularmente noticiado há duas décadas.

“É só depois do fato, se os sistemas forem usados em conjuntos de dados diferentes, que o viés se tornará aparente.”

Até hoje, o CoNLL-2003 é usado como uma ferramenta de avaliação para validar alguns dos sistemas de linguagem mais usados – modelos de “incorporação de palavras” que traduzem palavras em significado e contexto que a A.I. pode entender – incluindo modelos fundamentais como BERT, ELMo e GloVe. Tudo que foi influenciado por CoNLL-2003, por sua vez, teve seus próprios efeitos propagadores (por exemplo, GloVe foi citado mais de 15.000 vezes na literatura no Google Scholar).

Alexandr Wang, fundador e CEO da Scale AI, descreve o ML como uma espécie de “castelo de cartas”, em que as coisas são construídas umas sobre as outras tão rapidamente que nem sempre fica claro se há uma base sólida por baixo.

Os efeitos ondulantes do conjunto de dados são incomensuráveis. Assim como aqueles de seu viés.

Imagine uma régua, ligeiramente dobrada, que é vista como o padrão universal para medição.

Em entrevistas, os especialistas da indústria referiram-se consistentemente ao CoNLL-2003 com uma redação que reflete sua influência: Benchmark. Sistema de classificação. Yardstick. Por quase duas décadas, tem sido usado como um bloco de construção ou ferramenta de nitidez para incontáveis algoritmos.

“Se as pessoas inventarem um novo sistema de aprendizado de máquina”, diz Tjong Kim Sang, “um dos conjuntos de dados que eles irão … testá-lo é este conjunto de dados CoNLL-2003. Esta é a razão pela qual se tornou tão popular. Porque se as pessoas fizerem algo novo, se for em 2005, 2010, 2015 ou 2020, eles usarão este conjunto de dados.”

Se um algoritmo tem um bom desempenho após ser executado em CoNLL-2003, ou seja, a forma como classificou as entidades é muito parecida com a forma como os humanos as classificaram, então ele é visto como um sucesso – um trabalho seminal no setor. Mas, na verdade, passar em um teste como este com louvor é preocupante: significa que o modelo foi construído para reforçar algumas das tendências iniciais do conjunto de dados. E o próximo modelo que vier? Se o novo desempenho supera o antigo, é provável que esteja ainda mais alinhado com a tendência inicial do conjunto de dados.

“Considero ‘preconceito’ um eufemismo”, diz Brandeis Marshall, PhD, cientista de dados e CEO da DataedX, uma empresa de edtech e ciência de dados. “As palavras usadas são variadas: há justiça, há responsabilidade, há viés algorítmico, há uma série de termos … mas, na verdade, está dançando em torno do tópico real … Um conjunto de dados está inerentemente entrincheirado no racismo e sexismo sistêmico.”

Em entrevistas com OneZero, os principais criadores do CoNLL-2003 não se opuseram à ideia de que seu conjunto de dados era tendencioso.

De Meulder, Tjong Kim Sang e Walter Daelemans, PhD (o supervisor da equipe na época) não se lembram de considerar preconceitos naquela época, especialmente porque eles criaram o conjunto de dados para uma “tarefa compartilhada” específica – um exercício que permite que diferentes grupos testar o desempenho de seus algoritmos com os mesmos dados – antes de uma conferência no Canadá. “É só depois do fato, se os sistemas forem usados em conjuntos de dados diferentes, que o viés se tornará aparente”, escreve de Meulder em uma entrevista de acompanhamento.

Isso é exatamente o que aconteceu.

O preconceito de um sistema treinado em CoNLL-2003 pode ser tão simples quanto seu assistente virtual interpretar erroneamente suas instruções para “ligar para Dakota” como discar para um lugar em vez de uma pessoa, ou não reconhecer qual artista você gostaria de transmitir via Spotify ou Google Play. Talvez você esteja procurando uma atriz, artista ou atleta famosa, e um painel dedicado não aparece em seus resultados de pesquisa – custando a eles oportunidades e reconhecimento. É “exatamente o tipo de tendência sutil e difusa que pode se infiltrar em muitos sistemas do mundo real”, escreve James Lennon, que liderou o estudo na Scale AI, em seu relatório.

“Se você não consegue reconhecer os nomes das pessoas, essas pessoas se tornam invisíveis para todos os tipos de sistemas automatizados que são realmente importantes”, diz Andreas. “Tornando tudo mais difícil para o pessoal do Google; tornando mais difícil retirá-los de seus próprios livros de endereços; tornando difícil construir essas interfaces de usuário agradáveis e especializadas para as pessoas.”

Esse tipo de preconceito também pode levar a problemas decorrentes da falta de reconhecimento ou apagamento. Muitos algoritmos analisam a cobertura de notícias, postagens em mídias sociais e painéis de mensagens para determinar a opinião pública sobre um tópico ou identificar tendências emergentes para tomadores de decisão e corretores de ações.

“Digamos que existam investidores que identificaram empresas para investir com base no ‘buzz da mídia social’, o número de menções dessa empresa ou de qualquer um dos executivos seniores da empresa nas mídias sociais?, escreve Graham Neubig, PhD, professor associado no Instituto de Tecnologia de Linguagem da Carnegie Mellon University, em um e-mail para OneZero. “Nesse caso, se um sistema NER não conseguisse identificar o nome de qualquer um dos executivos seniores, esse “buzz” não seria registrado e, portanto, a empresa teria menos probabilidade de atrair a atenção do investimento.”

Daelemans vê como “um pouco de preguiça” as pessoas ainda estarem usando o conjunto de dados de sua equipe como referência. A lingüística computacional progrediu, mas CoNLL-2003 ainda fornece uma maneira fácil de provar que um novo modelo é o mais recente e o melhor. Construir um conjunto de dados melhor significa dedicar trabalho humano à tarefa nada glamorosa de rotular frases à mão, mas hoje isso pode ser feito mais rapidamente e com menos exemplos do que em 2003.

“Não seria necessária tanta energia para fazer um conjunto de dados novo e mais equilibrado como referência”, diz Daelemans. “Mas o foco está realmente em obter o próximo melhor modelo e é altamente competitivo, então não acho que muitos grupos de pesquisa vão querer investir tempo em fazer uma versão melhor.”

Depois, há a questão de como construir um conjunto de dados melhor realmente se parece.

A análise da Scale AI sobre o viés de CoNLL-2003, por exemplo, tem seus próprios problemas. Quando se trata de perguntar como a precisão do reconhecimento se compara entre as categorias de nomes, “essa pergunta em si é toda uma lata de vermes”, diz Andreas. “Porque o que significa ser um nome feminino e quem são os anotadores que estão julgando … e todas as pessoas no mundo que não são masculinas ou femininas, mas se identificam com alguma outra categoria e que talvez até ficariam de uma análise como esta?” (OneZero optou por se referir a “masculino” e “feminino” da Scale AIcategorias como “nomes de homens” e “nomes de mulheres”.)

“Se você não consegue reconhecer os nomes das pessoas, essas pessoas se tornam invisíveis para todos os tipos de sistemas automatizados que são realmente importantes.”

Para completar sua análise do viés de CoNLL-2003, em vez de usar pronomes circundantes para inferir gênero, a Scale AI usou noções sociais sobre os próprios nomes. Os humanos que marcaram os dados presumiram, por exemplo, que Tiffany deve ser uma mulher, John deve ser um homem e Alex entra na categoria de gênero neutro. Um modelo de ML que atribui gênero externamente com base em qualquer característica está “em total contradição com a ideia de que gênero é algo que as pessoas definem por si mesmas”, diz Rachel Thomas, PhD, diretora do Centro de Ética em Dados Aplicados da Universidade de São Francisco.

O interesse da Scale AI em conduzir este experimento é parcialmente impulsionado por seu modelo de negócios, que envolve clientes usando o pipeline de rotulagem da empresa para vasculhar seus próprios conjuntos de dados, ou os dados de código aberto que estão usando, para avaliar o viés. A empresa criou um novo conjunto de dados de código aberto, denominado CoNLL-Balanced, depois de adicionar mais de 400 nomes de “mulheres” aos dados iniciais. Os resultados preliminares da Escala AI sugerem que o novo algoritmo tem um desempenho comparável nas duas categorias de nomes.

Mas isso ainda pode não resolver o problema fundamental. Em entrevista após entrevista, os especialistas deixaram claro que o aumento da representação em conjuntos de dados é apenas uma bandagem – de muitas maneiras, a comunidade tecnológica quer “encontrar uma solução tecnológica para um problema social”, diz Marshall. Quando se trata de transferir o poder para as mãos de mulheres, BIPOC e indivíduos LGBTQ +, ainda há muito trabalho a ser feito – e reavaliar conjuntos de dados por si só não vai mudar as coisas. De acordo com Marshall e Andreas, avançar exigirá um trabalho interdisciplinar: reunir líderes em aprendizado de máquina com aqueles em áreas como antropologia, ciência política e sociologia.

“A representação em conjuntos de dados é importante”, diz Thomas. “Eu me preocupo que muitas pessoas pensem que esse é o único problema – como quando você equilibra seu conjunto de dados, você está bem – enquanto o preconceito também envolve todas essas questões … As pessoas [estão] se movendo mais para falar sobre como máquinas diferentes modelos de aprendizagem mudam o poder.”

Essa incompatibilidade de poder pode resultar da lacuna de representação entre as pessoas que criam essas ferramentas e aqueles que podem ser afetados por elas. Tudo se resume à importância de trazer membros de grupos marginalizados para a conversa e o desenvolvimento dessas ferramentas, de maneira significativa, para que eles possam pensar sobre os perigos e possíveis casos de uso indevido no futuro.

“A comunidade acadêmica brinca com esses conjuntos de dados há décadas e sabemos que existem alguns erros humanos nos conjuntos de dados – sabemos que há algum preconceito”, diz Xiang Ren, PhD, professor assistente da University of Southern California e parte do grupo de PNL da USC. “Mas eu acho que na maioria das vezes, as pessoas simplesmente seguem os protocolos de avaliação populares.”

Alguns especialistas acham que estamos começando a ver como os modelos de ML são avaliados – o que, eventualmente, pode levar à retirada de conjuntos de dados como o CoNLL-2003.

Toda a comunidade está agora “olhando de perto os conjuntos de dados e pensando sobre … todo o nosso aparato científico”, diz Andreas. “A forma como julgamos a eficácia dos sistemas é amplamente construída em torno de conjuntos de dados que são como CoNLL-2003.”

Publicado em 22/08/2020 08h52

Artigo original:

https://onezero.medium.com/the-troubling-legacy-of-a-biased-data-set-2967ffdd1035

Estudo original:

https://scale.com/blog/if-youre-de-biasing-the-model-its-too-late

Achou importante? Compartilhe!

Assine nossa newsletter e fique informado sobre Astrofísica, Biofísica, Geofísica e outras áreas. Preencha seu e-mail no espaço abaixo e clique em “OK”: