Uma ideia da física ajuda a Inteligência Artificial a ver além de dimensões planares

As novas técnicas de aprendizado profundo, que se mostraram promissoras na identificação de tumores de pulmão em tomografias computadorizadas com mais precisão do que antes, poderiam algum dia levar a melhores diagnósticos médicos.

As leis da física permanecem as mesmas, independentemente da perspectiva de alguém. Agora, essa ideia está permitindo que os computadores detectem recursos no espaço curvo e de maior dimensão.

Os computadores agora podem dirigir carros, vencer campeões mundiais em jogos de tabuleiro como xadrez e Go, e até escrever prosa. A revolução na inteligência artificial decorre em grande parte do poder de um tipo particular de rede neural artificial, cujo design é inspirado nas camadas conectadas de neurônios no córtex visual dos mamíferos. Essas “redes neurais convolucionais” (CNNs) se mostraram surpreendentemente adeptas aos padrões de aprendizado em dados bidimensionais – especialmente em tarefas de visão computacional, como reconhecer palavras e objetos manuscritos em imagens digitais.

Mas quando aplicada a conjuntos de dados sem uma geometria planar integrada – por exemplo, modelos de formas irregulares usadas em animação por computador em 3D ou nuvens de pontos geradas por carros autônomos para mapear seus arredores – essa poderosa arquitetura de aprendizado de máquina não funciona bem. Por volta de 2016, surgiu uma nova disciplina chamada aprendizado profundo geométrico com o objetivo de retirar as CNNs das planícies.

Agora, os pesquisadores entregaram, com uma nova estrutura teórica para a construção de redes neurais que podem aprender padrões em qualquer tipo de superfície geométrica. Essas “redes neurais convolucionais equivalentes a medidor”, ou CNNs de medidor, desenvolvidas na Universidade de Amsterdã e na Qualcomm AI Research por Taco Cohen, Maurice Weiler, Berkay Kicanaoglu e Max Welling, podem detectar padrões não apenas em matrizes 2D de pixels, mas também em esferas e objetos curvados assimetricamente. “Essa estrutura é uma resposta bastante definitiva para esse problema de aprendizado profundo em superfícies curvas”, disse Welling.

As CNNs de medição já superaram em muito seus predecessores nos padrões de aprendizado em dados climáticos globais simulados, que são naturalmente mapeados em uma esfera. Os algoritmos também podem ser úteis para melhorar a visão de drones e veículos autônomos que veem objetos em 3D e para detectar padrões em dados coletados das superfícies irregulares de corações, cérebros ou outros órgãos.

Taco Cohen, wearing a blue Oxford shirt and standing next to a dry-erase board, smiles at the camera.
Taco Cohen, pesquisador de aprendizado de máquina da Qualcomm e da Universidade de Amsterdã, é um dos principais arquitetos de redes neurais convolucionais equivocadas por medidores.

A solução dos pesquisadores para fazer com que o aprendizado profundo funcione além de um plano 2D também tem conexões profundas com a física. As teorias físicas que descrevem o mundo, como a teoria geral da relatividade de Albert Einstein e o modelo padrão da física de partículas, exibem uma propriedade chamada “equivalência de medida”. Isso significa que as quantidades no mundo e seus relacionamentos não dependem de referenciais arbitrários. (ou “medidores”); eles permanecem consistentes se um observador está se movendo ou parado, e não importa a que distância os números estejam de uma régua. As medidas feitas nesses diferentes medidores devem ser conversíveis entre si de maneira a preservar os relacionamentos subjacentes entre as coisas.

Por exemplo, imagine medir o comprimento de um campo de futebol em jardas e depois medi-lo novamente em metros. Os números mudarão, mas de maneira previsível. Da mesma forma, dois fotógrafos tirando uma foto de um objeto de dois pontos de vista diferentes produzirão imagens diferentes, mas essas imagens podem ser relacionadas entre si. A equivalência de medida garante que os modelos de realidade dos físicos permaneçam consistentes, independentemente de sua perspectiva ou unidades de medida. E as CNNs de medição fazem a mesma suposição sobre os dados.

“A mesma idéia [da física] de que não há orientação especial – eles queriam colocar isso nas redes neurais”, disse Kyle Cranmer, físico da Universidade de Nova York que aplica o aprendizado de máquina aos dados da física de partículas. “E eles descobriram como fazer isso.”

Indo além das superfícies planares

Michael Bronstein, cientista da computação do Imperial College de Londres, cunhou o termo “aprendizado profundo geométrico” em 2015 para descrever os esforços nascentes para sair da planície e projetar redes neurais que pudessem aprender padrões em dados não-planares. O termo – e o esforço de pesquisa – logo pegou.

Bronstein e seus colaboradores sabiam que ir além do plano euclidiano exigiria que eles reinventassem um dos procedimentos computacionais básicos que tornaram as redes neurais tão eficazes no reconhecimento de imagens 2D em primeiro lugar. Esse procedimento, chamado “convolução”, permite que uma camada da rede neural realize uma operação matemática em pequenas amostras dos dados de entrada e depois passe os resultados para a próxima camada da rede.

“Você pode pensar em convolução, grosso modo, como uma janela deslizante”, explicou Bronstein. Uma rede neural convolucional desliza muitas dessas “janelas” sobre os dados como filtros, cada uma projetada para detectar um certo tipo de padrão nos dados. No caso de uma foto de gato, uma CNN treinada pode usar filtros que detectam recursos de baixo nível nos pixels de entrada brutos, como bordas. Esses recursos são transmitidos para outras camadas da rede, que executam convoluções adicionais e extraem recursos de nível superior, como olhos, rabos ou orelhas triangulares. Uma CNN treinada para reconhecer gatos acabará usando os resultados dessas convulsões em camadas para atribuir um rótulo – digamos, “gato” ou “não gato” – a toda a imagem.


Mas essa abordagem só funciona em um avião. “À medida que a superfície em que você deseja fazer sua análise se torna curva, você está basicamente com problemas”, disse Welling.

Realizar uma convolução em uma superfície curva – conhecida na geometria como uma variedade – é como segurar um pequeno quadrado de papel milimetrado translúcido sobre um globo e tentar traçar com precisão a costa da Groenlândia. Você não pode pressionar o quadrado na Groenlândia sem amassar o papel, o que significa que seu desenho ficará distorcido quando você o colocar novamente. Mas manter o quadrado de papel tangente ao globo em um ponto e traçar a borda da Groenlândia enquanto olha através do papel (uma técnica conhecida como projeção Mercator) também produzirá distorções. Como alternativa, você pode simplesmente colocar seu papel milimetrado em um mapa-múndi plano em vez de em um globo, mas depois replicar essas distorções – como o fato de que toda a borda superior do mapa representa apenas um único ponto no globo (o polo Norte). E se o coletor não é uma esfera limpa como um globo, mas algo mais complexo ou irregular como a forma 3D de uma garrafa ou uma proteína dobrada, a convolução torna-se ainda mais difícil.

Bronstein e seus colaboradores encontraram uma solução para o problema da convolução em variedades não-euclidianas em 2015, reimaginando a janela deslizante como algo mais parecido com uma teia de aranha circular do que um pedaço de papel milimetrado, para que você pudesse pressioná-la contra o globo ( ou qualquer superfície curva) sem amassar, esticar ou rasgar.

Alterar as propriedades do filtro deslizante dessa maneira tornou a CNN muito melhor em “entender” certas relações geométricas. Por exemplo, a rede podia reconhecer automaticamente que uma forma 3D dobrada em duas poses diferentes – como uma figura humana em pé e uma figura humana levantando uma perna – eram instâncias do mesmo objeto, em vez de dois objetos completamente diferentes. A mudança também tornou a rede neural dramaticamente mais eficiente no aprendizado. CNNs padrão “usaram milhões de exemplos de formas [e precisavam] de treinamento por semanas”, disse Bronstein. “Usamos algo como 100 formas em poses diferentes e treinamos por talvez meia hora.”

Ao mesmo tempo, Taco Cohen e seus colegas em Amsterdã começaram a abordar o mesmo problema na direção oposta. Em 2015, Cohen, um estudante de pós-graduação na época, não estava estudando como tirar o aprendizado profundo das planícies. Em vez disso, ele estava interessado no que considerava um problema prático de engenharia: eficiência dos dados ou em como treinar redes neurais com menos exemplos do que os milhares ou milhões que eles frequentemente exigiam. “Os métodos de aprendizado profundo são, digamos, alunos muito lentos”, disse Cohen. Isso apresenta poucos problemas se você estiver treinando uma CNN para reconhecer, digamos, gatos (dado o suprimento sem fundo de imagens de gatos na Internet). Mas se você deseja que a rede detecte algo mais importante, como nódulos cancerígenos em imagens de tecido pulmonar, não é fácil encontrar dados de treinamento suficientes – que precisam ser medicamente precisos, rotulados adequadamente e livres de problemas de privacidade. Quanto menos exemplos forem necessários para treinar a rede, melhor.

Cohen sabia que uma maneira de aumentar a eficiência dos dados de uma rede neural seria equipá-los com certas suposições sobre os dados com antecedência – como, por exemplo, que um tumor de pulmão ainda é um tumor de pulmão, mesmo que seja rotacionado ou refletido dentro uma imagem. Geralmente, uma rede convolucional precisa aprender essas informações do zero, treinando muitos exemplos do mesmo padrão em orientações diferentes. Em 2016, Cohen e Welling foram co-autores de um artigo que define como codificar algumas dessas suposições em uma rede neural como simetrias geométricas. Essa abordagem funcionou tão bem que, em 2018, Cohen e a coautora Marysia Winkels a generalizaram ainda mais, demonstrando resultados promissores no reconhecimento de câncer de pulmão em tomografias computadorizadas: sua rede neural podia identificar evidências visuais da doença usando apenas um décimo da dados usados ??para treinar outras redes.

Os pesquisadores de Amsterdã continuaram generalizando. Foi assim que eles encontraram o caminho para avaliar a equivalência.

Estendendo a equivalência

Física e aprendizado de máquina têm uma semelhança básica. Como Cohen colocou: “Ambos os campos estão preocupados em fazer observações e, em seguida, construir modelos para prever observações futuras.” Fundamentalmente, ele observou, ambos os campos buscam modelos que não sejam coisas individuais – não é bom ter uma descrição dos átomos de hidrogênio e outra de cabeça para baixo. átomos de hidrogênio abaixo – mas de categorias gerais de coisas. “A física, é claro, tem sido bastante bem-sucedida nisso.”

Equivariância (ou “covariância”, o termo que os físicos preferem) é uma suposição de que os físicos desde Einstein se basearam para generalizar seus modelos. “Isso significa apenas que, se você está descrevendo um pouco de física, deve ser independente de que tipo de ‘governante’ você usa, ou mais geralmente de que tipo de observador você é”, explicou Miranda Cheng, físico teórico da Universidade. de Amsterdã, que escreveu um artigo com Cohen e outros que exploram as conexões entre a física e as CNNs de medição. Ou, como o próprio Einstein colocou em 1916: “As leis gerais da natureza devem ser expressas por equações válidas para todos os sistemas de coordenadas”.

Miranda Cheng shown standing in front of a chalkboard that's covered in calculations, holding a piece of chalk.
Miranda Cheng, física da Universidade de Amsterdã.

As redes convolucionais se tornaram um dos métodos mais bem-sucedidos no aprendizado profundo, explorando um exemplo simples desse princípio chamado “equivalência de tradução”. Um filtro de janela que detecta um determinado recurso em uma imagem – digamos, bordas verticais – deslizará (ou “traduzirá” ) sobre o plano de pixels e codifique os locais de todas essas arestas verticais; Em seguida, ele cria um “mapa de recursos” marcando esses locais e o passa para a próxima camada da rede. A criação de mapas de recursos é possível devido à equivalência de conversão: a rede neural “pressupõe” que o mesmo recurso possa aparecer em qualquer lugar do plano 2D e é capaz de reconhecer uma aresta vertical como aresta vertical, seja no canto superior direito ou no canto inferior esquerdo .

“O ponto das redes neurais equivariantes é [pegar] essas simetrias óbvias e colocá-las na arquitetura de rede para que seja um almoço grátis”, disse Weiler.

Em 2018, Weiler, Cohen e seu supervisor de doutorado Max Welling haviam estendido esse “almoço grátis” para incluir outros tipos de equivalência. Suas CNNs “equivocadas em grupo” podiam detectar feições rotacionadas ou refletidas em imagens planas sem ter que treinar em exemplos específicos das feições nessas orientações; CNNs esféricas poderiam criar mapas de características a partir de dados na superfície de uma esfera sem distorcê-los como projeções planas.

Essas abordagens ainda não eram gerais o suficiente para manipular dados em coletores com uma estrutura acidentada e irregular – que descreve a geometria de quase tudo, de batatas a proteínas, corpos humanos e curvatura do espaço-tempo. Esses tipos de variedades não têm simetria “global” para uma rede neural fazer suposições equivocadas sobre: ??Cada local nelas é diferente.


O desafio é que deslizar um filtro plano sobre a superfície pode alterar a orientação do filtro, dependendo do caminho específico a seguir. Imagine um filtro projetado para detectar um padrão simples: uma mancha escuro à esquerda e uma mancha claro à direita. Deslize-o para cima, baixo, esquerda ou direita em uma grade plana e ele sempre ficará com o lado direito para cima. Mas mesmo na superfície de uma esfera, isso muda. Se você mover o filtro 180 graus ao redor do equador da esfera, a orientação do filtro permanecerá a mesma: mancha escura à esquerda, mancha clara à direita. No entanto, se você deslizar para o mesmo local, movendo-se sobre o pólo norte da esfera, o filtro estará agora de cabeça para baixo – mancha escura à direita e mancha clara à esquerda. O filtro não detecta o mesmo padrão nos dados ou codifica o mesmo mapa de recursos. Mova o filtro em torno de um coletor mais complicado, e ele pode acabar apontando em várias direções inconsistentes.

Felizmente, os físicos desde Einstein lidaram com o mesmo problema e encontraram uma solução: a equivalência de medida.

A chave, explicou Welling, é esquecer como a orientação do filtro muda à medida que se move ao longo de diferentes caminhos. Em vez disso, você pode escolher apenas uma orientação de filtro (ou medidor) e definir uma maneira consistente de converter todas as outras orientações nela.

O problema é que, embora qualquer medidor arbitrário possa ser usado em uma orientação inicial, a conversão de outros medidores nesse quadro de referência deve preservar o padrão subjacente – assim como converter a velocidade da luz de metros por segundo em milhas por hora deve preservar o padrão. quantidade física subjacente. Com essa abordagem de medição equivocada, disse Welling, “os números reais mudam, mas mudam de maneira completamente previsível”.

Cohen, Weiler e Welling codificaram a equivalência de bitola – o último “almoço grátis” – em sua rede neural convolucional em 2019. Eles fizeram isso colocando restrições matemáticas sobre o que a rede neural poderia “ver” nos dados por meio de suas convoluções; apenas padrões equivocados de bitola foram transmitidos pelas camadas da rede. “Basicamente, você pode fornecer qualquer superfície” – de aviões euclidianos a objetos curvados arbitrariamente, incluindo manifolds exóticos, como garrafas de Klein ou espaço-tempo quadridimensional – “e é bom para aprender profundamente nessa superfície”, disse Welling.

Uma teoria de trabalho

A teoria das CNNs equivocadas por gauge é tão generalizada que incorpora automaticamente as suposições internas das abordagens geométricas anteriores de aprendizado profundo – como equivariância rotacional e filtros de deslocamento nas esferas. Até o método anterior de Michael Bronstein, que permite que as redes neurais reconheçam uma única forma 3D dobrada em diferentes poses, se encaixa nela. “A equivalência de bitola é uma estrutura muito ampla. Ele contém o que fizemos em 2015 como configurações específicas ”, disse Bronstein.

Um medidor de CNN funcionaria teoricamente em qualquer superfície curva de qualquer dimensionalidade, mas Cohen e seus co-autores o testaram em dados climáticos globais, que necessariamente têm uma estrutura esférica 3D subjacente. Eles usaram sua estrutura equivocada para medir uma CNN treinada para detectar padrões climáticos extremos, como ciclones tropicais, a partir de dados de simulação climática. Em 2017, pesquisadores governamentais e acadêmicos usaram uma rede convolucional padrão para detectar ciclones nos dados com 74% de precisão; No ano passado, o medidor CNN detectou os ciclones com 97,9% de precisão. (Ele também superou uma abordagem geométrica de aprendizado profundo menos geral, projetada em 2018 especificamente para esferas – esse sistema era 94% preciso.)

Mayur Mudigonda, cientista climático do Laboratório Nacional Lawrence Berkeley que usa aprendizado profundo, disse que continuará prestando atenção na medição de CNNs. “Esse aspecto da inteligência visual humana” – identificando padrões com precisão, independentemente de sua orientação – “é o que gostaríamos de traduzir para a comunidade climática”, disse ele. A Qualcomm, fabricante de chips que contratou recentemente Cohen e Welling e adquiriu uma startup criada incorporando seu trabalho inicial em redes neurais equivariantes, agora planeja aplicar a teoria das CNNs de medidores para desenvolver aplicativos aprimorados de visão computacional, como um drone que pode “ver ”Em 360 graus ao mesmo tempo. (Essa visão de olho de peixe do mundo pode ser naturalmente mapeada em uma superfície esférica, assim como dados climáticos globais).

Enquanto isso, CNNs de bitola estão ganhando força entre físicos como Cranmer, que planeja colocá-los para trabalhar com dados de simulações de interações subatômicas de partículas. “Estamos analisando dados relacionados à força [nuclear] forte, tentando entender o que está acontecendo dentro de um próton”, disse Cranmer. Os dados são quadridimensionais, disse ele, “portanto, temos um caso de uso perfeito para redes neurais que possuem essa equivalência de medida”.

Risi Kondor, um ex-físico que agora estuda redes neurais equivariantes, disse que as possíveis aplicações científicas das CNNs de calibre podem ser mais importantes que seus usos na IA.

“Se você reconhece gatos no YouTube e descobre que não é tão bom em reconhecer gatos de ponta-cabeça, isso não é ótimo, mas talvez você possa conviver com isso”, disse ele. Mas para os físicos, é crucial garantir que uma rede neural não identifique erroneamente um campo de força ou uma trajetória de partículas por causa de sua orientação específica. “Não é apenas uma questão de conveniência”, disse Kondor – “é essencial que as simetrias subjacentes sejam respeitadas”.

Mas, embora a matemática dos físicos tenha ajudado a inspirar CNNs de medição, e os físicos possam encontrar amplo uso para eles, Cohen observou que essas redes neurais não vão descobrir nenhuma nova física. “Agora podemos projetar redes que podem processar tipos de dados muito exóticos, mas você precisa saber qual é a estrutura desses dados” com antecedência, disse ele. Em outras palavras, a razão pela qual os físicos podem usar CNNs de medição é porque Einstein já provou que o espaço-tempo pode ser representado como um coletor curvo quadridimensional. A rede neural de Cohen não seria capaz de “ver” essa estrutura por conta própria. “Aprender simetrias é algo que não fazemos”, disse ele, embora espere que seja possível no futuro.

Cohen não pode deixar de se deliciar com as conexões interdisciplinares que ele intuiu e agora demonstrou com rigor matemático. “Sempre tive a sensação de que o aprendizado de máquina e a física estão fazendo coisas muito semelhantes”, disse ele. “Essa é uma das coisas que eu acho realmente maravilhosas: começamos com esse problema de engenharia e, ao começar a melhorar nossos sistemas, gradualmente descobrimos mais e mais conexões.”


Publicado em 12/01/2020

Artigo original:

Estudo original:


Achou importante? Compartilhe!



Assine nossa newsletter e fique informado sobre Astrofísica, Biofísica, Geofísica e outras áreas. Preencha seu e-mail no espaço abaixo e clique em “OK”: