O Machine Learning se torna um colaborador matemático

lgenda

Duas colaborações recentes entre matemáticos e DeepMind demonstram o potencial do aprendizado de máquina para ajudar pesquisadores a gerar novas conjecturas matemáticas.

Os matemáticos geralmente trabalham juntos quando estão buscando insights sobre um problema difícil. É um tipo de processo colaborativo livre que parece exigir um toque exclusivamente humano.

Mas em dois novos resultados, o papel do colaborador humano foi substituído em parte por uma máquina. Os documentos foram concluídos no final de novembro e resumidos em um artigo recente da Nature.

“As coisas que eu amo na matemática são seus aspectos intuitivos e criativos”, disse Geordie Williamson, matemático da Universidade de Sydney e coautor de um dos artigos. “Os modelos [de aprendizado de máquina] estavam apoiando isso de uma maneira que eu não havia sentido nos computadores antes.”

Dois grupos separados de matemáticos trabalharam ao lado da DeepMind, uma filial da Alphabet, empresa controladora do Google, dedicada ao desenvolvimento de sistemas avançados de inteligência artificial.

András Juhász e Marc Lackenby, da Universidade de Oxford, ensinaram os modelos de aprendizado de máquina da DeepMind a procurar padrões em objetos geométricos chamados nós. Os modelos detectaram conexões que Juhász e Lackenby elaboraram para unir duas áreas da teoria dos nós que os matemáticos há muito especulavam que deveriam estar relacionadas. Em um trabalho separado, Williamson usou o aprendizado de máquina para refinar uma antiga conjectura que conecta gráficos e polinômios.

Os computadores têm ajudado na pesquisa matemática há anos, como assistentes de prova que garantem que as etapas lógicas de uma prova realmente funcionem e como ferramentas de força bruta que podem mastigar enormes quantidades de dados para procurar contra-exemplos para conjecturas.

O novo trabalho representa uma forma diferente de colaboração homem-máquina. Ele demonstra que, ao incorporar seletivamente o aprendizado de máquina na fase generativa da pesquisa, os matemáticos podem descobrir pistas que podem ter sido difíceis de encontrar sem a assistência da máquina.

“A coisa mais incrível sobre este trabalho – e é realmente um grande avanço – é o fato de que todas as peças se juntaram e que essas pessoas trabalharam em equipe”, disse Radmila Sazdanovic, da North Carolina State University. “É uma colaboração verdadeiramente transdisciplinar.”

Alguns observadores, no entanto, veem a colaboração como uma mudança menos radical na forma como a pesquisa matemática é conduzida. Enquanto os computadores apontavam para os matemáticos uma série de relações possíveis, os próprios matemáticos precisavam identificar aquelas que valiam a pena explorar.

“Todo o trabalho duro foi feito pelos matemáticos humanos”, escreveu Ernest Davis, cientista da computação da Universidade de Nova York, em um e-mail.

Padrões em dados

O aprendizado de máquina prevê saídas de entradas: alimente um modelo com dados de integridade e ele produzirá um diagnóstico; mostre-lhe uma imagem de um animal e ele responderá com o nome da espécie.

Isso geralmente é feito usando uma abordagem de aprendizado de máquina chamada aprendizado supervisionado, na qual os pesquisadores essencialmente ensinam o computador a fazer previsões, dando-lhe muitos exemplos.

Por exemplo, imagine que você queira ensinar um modelo a identificar se uma imagem contém um gato ou um cachorro. Os pesquisadores começam alimentando o modelo com muitos exemplos de cada animal. Com base nesses dados de treinamento, o computador constrói uma função matemática extremamente complicada, que é essencialmente uma máquina para fazer previsões. Uma vez que a função preditiva é estabelecida, os pesquisadores mostram ao modelo uma nova imagem e ele responderá com a probabilidade de que a imagem seja um gato ou um cachorro.

Para tornar o aprendizado supervisionado útil como ferramenta de pesquisa, os matemáticos precisavam encontrar as perguntas certas para o DeepMind abordar. Eles precisavam de problemas que envolviam objetos matemáticos para os quais muitos dados de treinamento estavam disponíveis – um critério que muitas investigações matemáticas não atendem.

Eles também precisavam encontrar uma maneira de aproveitar a poderosa capacidade do DeepMind de perceber conexões ocultas, ao mesmo tempo em que navegavam em suas limitações significativas como colaborador. Muitas vezes, o aprendizado de máquina funciona como uma caixa preta, produzindo saídas de entradas de acordo com regras que os seres humanos não conseguem decifrar.

“[O computador] podia ver coisas realmente incomuns, mas também se esforçava para explicar de maneira muito eficaz”, disse Alex Davies, pesquisador da DeepMind.

Os matemáticos não estavam procurando o DeepMind apenas para produzir respostas corretas. Para realmente avançar no campo, eles também precisavam saber por que as conexões se mantinham – um passo que o computador não podia dar.

Invariantes de ponte

Em 2018, Williamson e Demis Hassabis, CEO e cofundador da DeepMind, foram eleitos membros da Royal Society, uma organização britânica de cientistas ilustres. Durante uma pausa para o café na cerimônia de admissão, eles descobriram um interesse mútuo.

“Pensei um pouco sobre como o aprendizado de máquina poderia ajudar a matemática, e ele pensou muito sobre isso”, disse Williamson. “Nós meio que trocamos ideias um com o outro.”

Eles decidiram que um ramo da matemática conhecido como teoria dos nós seria o campo de testes ideal para uma colaboração humano-computador. Envolve objetos matemáticos chamados nós, que você pode pensar como laços emaranhados de cordas. A teoria dos nós atende aos requisitos do aprendizado de máquina porque possui dados abundantes – existem muitos milhões de nós relativamente simples – e porque muitas propriedades dos nós podem ser facilmente calculadas usando o software existente.

Williamson sugeriu que a DeepMind entrasse em contato com Lackenby, um teórico de nós estabelecido, para encontrar um problema específico para trabalhar.

Juhász e Lackenby entenderam os pontos fortes e fracos do aprendizado de máquina. Diante disso, eles esperavam usá-lo para encontrar novas conexões entre diferentes tipos de invariantes, que são propriedades usadas para distinguir nós uns dos outros.

Dois nós são considerados diferentes quando é impossível desembaraçá-los (sem cortá-los) para que fiquem parecidos. Invariantes são propriedades inerentes do nó que não mudam durante o processo de desembaraço (daí o nome “invariante”). Portanto, se dois nós têm valores diferentes para um invariante, eles nunca podem ser manipulados um no outro.

Existem muitos tipos diferentes de invariantes de nó, caracterizados pela forma como descrevem o nó. Alguns são mais geométricos, outros são algébricos e alguns são combinatórios. No entanto, os matemáticos conseguiram provar muito pouco sobre as relações entre invariantes de diferentes campos. Eles normalmente não sabem se diferentes invariantes realmente medem a mesma característica de um nó de várias perspectivas.

Juhász e Lackenby viram uma oportunidade para o aprendizado de máquina identificar conexões entre diferentes categorias de invariantes. A partir dessas conexões, eles puderam obter uma visão mais profunda da natureza dos invariantes dos nós.

Verificação de assinatura

Para responder à pergunta de Juhász e Lackenby, pesquisadores da DeepMind desenvolveram um conjunto de dados com mais de 2 milhões de nós. Para cada nó, eles computaram diferentes invariantes. Em seguida, eles usaram o aprendizado de máquina para procurar padrões que uniam invariantes. O computador percebeu muitos, a maioria dos quais não eram especialmente interessantes para os matemáticos.

“Vimos alguns padrões que eram conhecidos ou não eram verdadeiros”, disse Lackenby. “Como matemáticos, eliminamos muitas coisas que o aprendizado de máquina estava enviando para nós.”

Ao contrário de Juhász e Lackenby, o sistema de aprendizado de máquina não entende a teoria matemática subjacente. Os dados de entrada foram calculados a partir de invariantes de nós, mas o computador só vê listas de números.

“No que diz respeito ao sistema de aprendizado de máquina, esses poderiam ter sido recordes de vendas de vários tipos de alimentos no McDonald’s”, disse Davis.

Eventualmente, os dois matemáticos decidiram tentar ensinar o computador a produzir uma importante invariante algébrica chamada “assinatura” de um nó, baseada apenas em informações sobre as invariantes geométricas do nó.

Depois que Juhász e Lackenby identificaram o problema, pesquisadores da DeepMind começaram a construir o algoritmo específico de aprendizado de máquina. Eles treinaram o computador para receber 30 invariantes geométricos de um nó como entrada e produzir a assinatura do nó. Funcionou bem e, após algumas semanas de trabalho, o DeepMind conseguiu prever com precisão a assinatura da maioria dos nós.

Em seguida, os pesquisadores precisavam descobrir como o modelo estava fazendo essas previsões. Para fazer isso, a equipe da DeepMind recorreu a uma técnica conhecida como análise de saliência, que pode ser usada para descobrir quais das muitas entradas são as mais responsáveis pela produção da saída. Eles alteraram ligeiramente o valor de cada entrada, uma de cada vez, e examinaram qual mudança teve o impacto mais dramático na saída.

Se um algoritmo for projetado para prever se uma imagem mostra um gato, os pesquisadores que realizam a análise de saliência irão desfocar pequenas seções da imagem e, em seguida, verificar se o computador ainda reconhece o gato. Eles podem descobrir, por exemplo, que os pixels no canto da imagem são menos importantes do que aqueles que compõem a orelha do gato.

Quando os pesquisadores aplicaram a análise de saliência aos dados, eles observaram que três das 30 invariantes geométricas pareciam especialmente importantes para a forma como o modelo estava fazendo previsões. Todos esses três invariantes medem as características da cúspide, que é um tubo oco que envolve o nó, como o revestimento de borracha ao redor de um cabo.

Com base nessas informações, Juhász e Lackenby construíram uma fórmula que relaciona a assinatura de um nó a essas três invariantes geométricas. A fórmula também usa outro invariante comum, o volume de uma esfera com o nó esculpido nela. Quando testaram a fórmula em nós específicos, pareceu funcionar, mas isso não foi suficiente para estabelecer um novo teorema matemático. Os matemáticos procuravam uma afirmação precisa que pudessem provar que era sempre válida – e isso era mais difícil.

“Não estava dando certo”, disse Lackenby.

A intuição de Juhász e Lackenby, construída ao longo de anos de estudo de problemas semelhantes, disse a eles que ainda faltava algo na fórmula. Eles perceberam que precisavam introduzir outro invariante geométrico, algo chamado raio de injetividade, que mede aproximadamente o comprimento de certas curvas relacionadas ao nó. Foi uma etapa que usou a intuição treinada dos matemáticos, mas foi possibilitada pelos insights particulares que eles conseguiram obter das muitas conexões não editadas identificadas pelo modelo da DeepMind.

“O bom é que [os modelos de aprendizado de máquina] têm pontos fortes e fracos completamente diferentes dos humanos”, disse Adam Zsolt Wagner, da Universidade de Tel Aviv.

A modificação foi bem sucedida. Ao combinar informações sobre o raio de injetividade com as três invariantes geométricas que o DeepMind havia escolhido, Juhász e Lackenby criaram uma fórmula à prova de falhas para calcular a assinatura de um nó. O resultado final teve o espírito de uma verdadeira colaboração.

“Foi definitivamente um processo iterativo envolvendo os especialistas em aprendizado de máquina da DeepMind e nós”, disse Lackenby.

Convertendo Gráficos em Polinômios

Aproveitando o momento do projeto da teoria dos nós, no início de 2020, a DeepMind voltou a Williamson para ver se ele queria testar um processo semelhante em seu campo, a teoria da representação. A teoria da representação é um ramo da matemática que procura maneiras de combinar elementos básicos da matemática, como simetrias, para criar objetos mais sofisticados.

Dentro deste campo, os polinômios Kazhdan-Lusztig são particularmente importantes. Eles são baseados em maneiras de reorganizar objetos – como trocar a ordem de dois objetos em uma lista – chamadas permutações. Cada polinômio Kazhdan-Lusztig é construído a partir de um par de permutações e codifica informações sobre seu relacionamento. Eles também são muito misteriosos e muitas vezes é difícil calcular seus coeficientes.

Matemáticos e DeepMind usaram aprendizado de máquina para procurar uma fórmula para converter gráficos de Bruhat em polinômios.

Geordie Williamson


Diante disso, os matemáticos tentam entender os polinômios Kazhdan-Lusztig em termos de objetos mais fáceis de trabalhar chamados grafos Bruhat. Cada vértice em um gráfico de Bruhat representa uma permutação de um número específico de objetos. As arestas conectam vértices cujas permutações diferem trocando apenas dois elementos.

Na década de 1980, George Lusztig e Matthew Dyer previram independentemente que deveria haver uma relação entre um gráfico Bruhat e um polinômio Kazhdan-Lusztig. A relação seria útil porque o polinômio é mais fundamental, enquanto o gráfico é mais simples de calcular.

E, assim como o problema de prever um invariante de nó usando outro, esse problema era adequado às habilidades do DeepMind. A equipe do DeepMind começou treinando o modelo em quase 20.000 gráficos Bruhat emparelhados e polinômios Kazhdan-Lusztig.

Logo foi capaz de prever com frequência o polinômio Kazhdan-Lusztig correto a partir de um gráfico de Bruhat. Mas para escrever uma receita para passar de um para o outro, Williamson precisava saber como o computador estava fazendo suas previsões.

Uma fórmula, se você puder provar

Aqui, novamente, os pesquisadores da DeepMind se voltaram para técnicas de saliência. Os gráficos de Bruhat são enormes, mas as previsões do computador foram baseadas principalmente em um pequeno número de arestas. Arestas que representavam a troca de números distantes (como 1 e 9) eram mais importantes para as previsões do que arestas conectando permutações que invertem números próximos (como 4 e 5). Foi uma pista que Williamson teve que desenvolver.

“Alex [Davies] está me dizendo que essas vantagens, por qualquer motivo, são muito mais importantes do que outras”, disse Williamson. “A bola estava de volta ao meu campo, e eu meio que fiquei olhando para isso por alguns meses.”

Williamson finalmente desenvolveu cerca de 10 fórmulas para converter gráficos de Bruhat em polinômios de Kazhdan-Lusztig. A equipe do DeepMind os comparou com milhões de exemplos de gráficos Bruhat. Para as primeiras várias fórmulas de Williamson, a equipe do DeepMind rapidamente encontrou exemplos que não funcionaram – lugares em que as receitas falharam.

Mas, eventualmente, Williamson encontrou uma fórmula que parece provável que grude. Envolve quebrar o gráfico de Bruhat em pedaços que se assemelham a cubos e usar essa informação para calcular o polinômio associado. Desde então, os pesquisadores da DeepMind verificaram a fórmula em milhões de exemplos. Agora cabe a Williamson e outros matemáticos provar que a receita sempre funciona.

Usar computadores para verificar contra-exemplos é uma parte padrão da pesquisa matemática. Mas as recentes colaborações tornam os computadores úteis de uma nova maneira. Para problemas com muitos dados, o aprendizado de máquina pode ajudar a orientar os matemáticos em novas direções, como um colega fazendo uma sugestão casual.


Publicado em 16/02/2022 18h38

Artigo original: