Cientistas da computação provam por que redes neurais maiores se saem melhor

Rede Neural

Nossa espécie deve muito aos polegares opositores. Mas se a evolução tivesse nos dado polegares extras, as coisas provavelmente não teriam melhorado muito. Um polegar por mão é suficiente.

Não é assim para as redes neurais, os principais sistemas de inteligência artificial para realizar tarefas humanas. À medida que se tornaram maiores, passaram a entender mais. Isso foi uma surpresa para os espectadores. Resultados matemáticos fundamentais sugeriram que as redes deveriam ser tão grandes, mas as redes neurais modernas geralmente são ampliadas muito além do requisito previsto – uma situação conhecida como superparametrização.

Em um artigo apresentado em dezembro na NeurIPS, uma importante conferência, Sébastien Bubeck, da Microsoft Research, e Mark Sellke, da Universidade de Stanford, forneceram uma nova explicação para o mistério por trás do sucesso do dimensionamento. Eles mostram que as redes neurais devem ser muito maiores do que o convencionalmente esperado para evitar certos problemas básicos. A descoberta oferece uma visão geral sobre uma questão que persistiu ao longo de várias décadas.

“É um resultado matemático e teórico realmente interessante”, disse Lenka Zdeborová, do Instituto Federal Suíço de Tecnologia de Lausanne. “Eles provam isso de uma maneira muito genérica. Então, nesse sentido, está indo para o núcleo da ciência da computação.”

As expectativas padrão para o tamanho das redes neurais vêm de uma análise de como elas memorizam os dados. Mas para entender a memorização, devemos primeiro entender o que as redes fazem.

Uma tarefa comum para redes neurais é identificar objetos em imagens. Para criar uma rede que possa fazer isso, os pesquisadores primeiro a fornecem muitas imagens e rótulos de objetos, treinando-a para aprender as correlações entre elas. Depois, a rede identificará corretamente o objeto em uma imagem que já viu. Em outras palavras, o treinamento faz com que uma rede memorize dados. Mais notavelmente, uma vez que uma rede tenha memorizado dados de treinamento suficientes, ela também ganha a capacidade de prever os rótulos de objetos que nunca viu – em vários graus de precisão. Esse último processo é conhecido como generalização.

O tamanho de uma rede determina o quanto ela pode memorizar. Isso pode ser entendido graficamente. Imagine obter dois pontos de dados que você coloca em um plano xy. Você pode conectar esses pontos com uma linha descrita por dois parâmetros: a inclinação da linha e sua altura quando ela cruza o eixo vertical. Se outra pessoa receber a linha, bem como uma coordenada x de um dos pontos de dados originais, ela poderá descobrir a coordenada y correspondente apenas olhando para a linha (ou usando os parâmetros). A linha memorizou os dois pontos de dados.

As redes neurais fazem algo semelhante. As imagens, por exemplo, são descritas por centenas ou milhares de valores – um para cada pixel. Este conjunto de muitos valores livres é matematicamente equivalente às coordenadas de um ponto em um espaço de alta dimensão. O número de coordenadas é chamado de dimensão.

A escala se impôs a nós.Sébastien Bubeck, Microsoft Research

Um antigo resultado matemático diz que para ajustar n pontos de dados com uma curva, você precisa de uma função com n parâmetros. (No exemplo anterior, os dois pontos foram descritos por uma curva com dois parâmetros.) Quando as redes neurais surgiram como uma força na década de 1980, fazia sentido pensar a mesma coisa. Eles devem precisar apenas de n parâmetros para ajustar n pontos de dados – independentemente da dimensão dos dados.

“Isso não é mais o que está acontecendo”, disse Alex Dimakis, da Universidade do Texas, Austin. “No momento, estamos criando rotineiramente redes neurais que possuem vários parâmetros a mais do que o número de amostras de treinamento. Isso diz que os livros precisam ser reescritos.”

Bubeck e Sellke não se propuseram a reescrever nada. Eles estavam estudando uma propriedade diferente que as redes neurais geralmente não possuem, chamada robustez, que é a capacidade de uma rede de lidar com pequenas mudanças. Por exemplo, uma rede que não é robusta pode ter aprendido a reconhecer uma girafa, mas rotularia erroneamente uma versão pouco modificada como gerbil. Em 2019, Bubeck e colegas buscavam provar teoremas sobre o problema quando perceberam que ele estava conectado ao tamanho de uma rede.

“Estávamos estudando exemplos adversários – e então a escala se impôs a nós”, disse Bubeck. “Reconhecemos que era essa oportunidade incrível, porque havia essa necessidade de entender a própria escala.”

Em sua nova prova, a dupla mostra que a sobreparametrização é necessária para que uma rede seja robusta. Eles fazem isso descobrindo quantos parâmetros são necessários para ajustar os pontos de dados com uma curva que possui uma propriedade matemática equivalente à robustez: suavidade.

Para ver isso, imagine novamente uma curva no plano, onde a coordenada x representa a cor de um único pixel e a coordenada y representa um rótulo de imagem. Como a curva é suave, se você modificar levemente a cor do pixel, movendo-se uma curta distância ao longo da curva, a previsão correspondente mudará apenas um pouco. Por outro lado, para uma curva extremamente irregular, uma pequena mudança na coordenada x (a cor) pode levar a uma mudança dramática na coordenada y (o rótulo da imagem). Girafas podem se tornar gerbos.

Bubeck e Sellke mostraram que o ajuste suave de pontos de dados de alta dimensão requer não apenas n parâmetros, mas n × d parâmetros, onde d é a dimensão da entrada (por exemplo, 784 para uma imagem de 784 pixels). Em outras palavras, se você deseja que uma rede memorize de forma robusta seus dados de treinamento, a superparametrização não é apenas útil – é obrigatória. A prova se baseia em um fato curioso sobre geometria de alta dimensão, que é que pontos distribuídos aleatoriamente colocados na superfície de uma esfera estão quase todos a um diâmetro de distância um do outro. A grande separação entre os pontos significa que encaixá-los todos com uma única curva suave requer muitos parâmetros extras.

“A prova é muito elementar – sem matemática pesada, e diz algo muito geral”, disse Amin Karbasi, da Universidade de Yale.

O resultado fornece uma nova maneira de entender por que a estratégia simples de aumentar as redes neurais tem sido tão eficaz.

Outras pesquisas revelaram razões adicionais pelas quais a superparametrização é útil. Por exemplo, pode melhorar a eficiência do processo de treinamento, bem como a capacidade de generalização de uma rede. Embora agora saibamos que a sobreparametrização é necessária para a robustez, não está claro o quão necessária a robustez é para outras coisas. Mas, ao conectá-lo à sobreparametrização, a nova prova sugere que a robustez pode ser mais importante do que se pensava, uma única chave que desbloqueia muitos benefícios.

“A robustez parece ser um pré-requisito para a generalização”, disse Bubeck. “Se você tem um sistema em que você apenas o perturba um pouco, e então dá errado, que tipo de sistema é esse? Isso não é razoável. Eu acho que é um requisito muito fundamental e básico.”


Publicado em 13/02/2022 12h25

Artigo original:

Estudo original: