Poderosos ‘cientistas de máquinas’ destilam as leis da física a partir de dados brutos

Imagem via Unsplash

Os pesquisadores dizem que estamos à beira da “física GoPro”, onde uma câmera pode apontar para um evento e um algoritmo pode identificar a equação física subjacente.

Em 2017, Roger Guimerà e Marta Sales-Pardo descobriram uma causa da divisão celular, o processo que impulsiona o crescimento dos seres vivos. Mas eles não puderam revelar imediatamente como descobriram a resposta. Os pesquisadores não identificaram o padrão crucial em seus próprios dados. Em vez disso, uma invenção inédita deles – um assistente digital que eles chamavam de “cientista de máquina” – havia entregue a eles. Ao escrever o resultado, Guimerà lembra de pensar: “Não podemos simplesmente dizer que o alimentamos em um algoritmo e esta é a resposta. Nenhum revisor vai aceitar isso.”

A dupla, que é parceira na vida e na pesquisa, se uniu ao biofísico Xavier Trepat, do Instituto de Bioengenharia da Catalunha, ex-colega de classe, para identificar quais fatores podem desencadear a divisão celular. Muitos biólogos acreditavam que a divisão ocorre quando uma célula simplesmente excede um certo tamanho, mas Trepat suspeitava que havia mais na história. Seu grupo se especializou em decifrar as marcas em nanoescala que os rebanhos de células deixam em uma superfície macia enquanto lutam por posição. A equipe de Trepat acumulou um conjunto de dados exaustivo que narra formas, forças e uma dúzia de outras características celulares. Mas testar todas as maneiras pelas quais esses atributos podem influenciar a divisão celular levaria uma vida inteira.

Em vez disso, eles colaboraram com Guimerà e Sales-Pardo para fornecer os dados ao cientista de máquinas. Em poucos minutos, ele retornou uma equação concisa que previa quando uma célula se dividiria 10 vezes com mais precisão do que uma equação que usava apenas o tamanho de uma célula ou qualquer outra característica única. O que importa, de acordo com o cientista da máquina, é o tamanho multiplicado pela força com que uma célula está sendo espremida por seus vizinhos – uma quantidade que tem unidades de energia.

“Foi capaz de captar algo que não éramos”, disse Trepat, que, junto com Guimerà, é membro do ICREA, a Instituição Catalã de Pesquisa e Estudos Avançados.

Como os pesquisadores ainda não haviam publicado nada sobre o cientista da máquina, eles fizeram uma segunda análise para cobrir seus rastros. Eles testaram manualmente centenas de pares de variáveis, “independentemente de” seu significado físico ou biológico”, como escreveriam mais tarde. Por design, isso recuperou a resposta do cientista da máquina, que eles relataram em 2018 na Nature Cell Biology.

Quatro anos depois, essa situação embaraçosa está rapidamente se tornando um método aceito de descoberta científica. Sales-Pardo e Guimerà estão entre os poucos pesquisadores que desenvolvem a última geração de ferramentas capazes de um processo conhecido como regressão simbólica.

Os algoritmos de regressão simbólica são distintos das redes neurais profundas, os famosos algoritmos de inteligência artificial que podem receber milhares de pixels, deixá-los passar por um labirinto de milhões de nós e produzir a palavra “cachorro” por meio de mecanismos opacos. A regressão simbólica também identifica relacionamentos em conjuntos de dados complicados, mas relata as descobertas em um formato que os pesquisadores humanos podem entender: uma equação curta. Esses algoritmos se assemelham a versões sobrecarregadas da função de ajuste de curva do Excel, exceto que procuram não apenas linhas ou parábolas para ajustar um conjunto de pontos de dados, mas bilhões de fórmulas de todos os tipos. Dessa forma, o cientista da máquina poderia dar aos humanos uma visão sobre por que as células se dividem, enquanto uma rede neural só poderia prever quando isso acontecesse.

Pesquisadores têm trabalhado com esses cientistas de máquinas por décadas, cuidadosamente persuadindo-os a redescobrir as leis da natureza dos livros didáticos a partir de conjuntos de dados nítidos organizados para fazer os padrões aparecerem. Mas nos últimos anos os algoritmos amadureceram o suficiente para desvendar relações não descobertas em dados reais – desde como a turbulência afeta a atmosfera até como a matéria escura se aglomera. “Não há dúvida sobre isso”, disse Hod Lipson, um roboticista da Universidade de Columbia que deu início ao estudo da regressão simbólica há 13 anos. “Todo o campo está avançando.”

A Ascensão dos Cientistas da Máquina

Ocasionalmente, os físicos chegam a grandes verdades por meio do raciocínio puro, como quando Albert Einstein intuiu a flexibilidade do espaço e do tempo ao imaginar um feixe de luz da perspectiva de outro feixe de luz. Mais frequentemente, porém, as teorias nascem de uma maratona de sessões de processamento de dados. Depois que o astrônomo Tycho Brahe do século 16 faleceu, Johannes Kepler colocou as mãos nas observações celestes nos cadernos de Brahe. Levou quatro anos para Kepler determinar que Marte traça uma elipse no céu em vez das dezenas de outras formas oval que ele considerou. Ele seguiu essa “primeira lei” com mais dois relacionamentos descobertos por meio de cálculos de força bruta. Essas regularidades mais tarde apontariam Isaac Newton para sua lei da gravitação universal.

O objetivo da regressão simbólica é acelerar essas tentativas e erros keplerianos, examinando as inúmeras maneiras de vincular variáveis a operações matemáticas básicas para encontrar a equação que prediz com mais precisão o comportamento de um sistema.

Os astrofísicos modelaram o comportamento do sistema solar de duas maneiras. Primeiro, eles usaram décadas de dados da NASA para treinar uma rede neural. Eles então usaram um algoritmo de regressão simbólica para destilar ainda mais esse modelo em uma equação. Nesses vídeos – que mostram posições reais como objetos sólidos e previsões de modelos como contornos de malha de arame – a rede neural (esquerda) se sai muito pior do que o algoritmo de regressão simbólica (direita).

O primeiro programa a fazer progressos significativos nisso, chamado BACON, foi desenvolvido no final da década de 1970 por Patrick Langley, um cientista cognitivo e pesquisador de IA na Universidade Carnegie Mellon. BACON levaria, digamos, uma coluna de períodos orbitais e uma coluna de distâncias orbitais para diferentes planetas. Ele então combinaria sistematicamente os dados de diferentes maneiras: período dividido pela distância, período ao quadrado vezes distância etc. terceira lei. Uma constante implicava que havia identificado duas quantidades proporcionais – neste caso, período ao quadrado e distância ao cubo. Em outras palavras, parou quando encontrou uma equação.

Apesar de redescobrir a terceira lei de Kepler e outros clássicos de livros didáticos, BACON permaneceu uma curiosidade em uma era de poder computacional limitado. Os pesquisadores ainda precisavam analisar a maioria dos conjuntos de dados manualmente ou, eventualmente, com um software semelhante ao Excel que encontrou o melhor ajuste para um conjunto de dados simples quando recebeu uma classe específica de equação. A noção de que um algoritmo poderia encontrar o modelo correto para descrever qualquer conjunto de dados permaneceu adormecida até 2009, quando Lipson e Michael Schmidt, roboticistas da Universidade de Cornell, desenvolveram um algoritmo chamado Eureqa.

Seu principal objetivo era construir uma máquina que pudesse reduzir conjuntos de dados expansivos com coluna após coluna de variáveis para uma equação envolvendo as poucas variáveis que realmente importam. “A equação pode acabar tendo quatro variáveis, mas você não sabe de antemão quais”, disse Lipson. “Você joga tudo e a pia da cozinha. Talvez o clima seja importante. Talvez o número de dentistas por quilômetro quadrado seja importante.”

Um obstáculo persistente para lidar com inúmeras variáveis tem sido encontrar uma maneira eficiente de adivinhar novas equações repetidamente. Os pesquisadores dizem que você também precisa de flexibilidade para experimentar (e se recuperar de) potenciais becos sem saída. Quando o algoritmo pode pular de uma linha para uma parábola ou adicionar uma ondulação senoidal, sua capacidade de atingir o maior número possível de pontos de dados pode piorar antes de melhorar. Para superar esse e outros desafios, em 1992, o cientista da computação John Koza propôs o uso de “algoritmos genéticos”, que introduzem “mutações” aleatórias em equações e testam as equações mutantes contra os dados. Ao longo de muitos testes, os recursos inicialmente inúteis evoluem uma funcionalidade potente ou desaparecem.

Lipson e Schmidt levaram a técnica para o próximo nível, aumentando a pressão darwiniana ao construir uma competição direta na Eureqa. De um lado, eles criaram equações. Por outro, eles randomizaram em quais pontos de dados testar as equações – com os pontos “mais aptos” sendo aqueles que mais desafiaram as equações. “Para obter uma corrida armamentista, você precisa configurar duas coisas em evolução, não apenas uma”, disse Lipson.

O algoritmo Eureqa pode processar conjuntos de dados envolvendo mais de uma dúzia de variáveis. Ele poderia recuperar com sucesso equações avançadas, como aquelas que descrevem o movimento de um pêndulo pendurado em outro.

Merrill Sherman/Quanta

Enquanto isso, outros pesquisadores estavam descobrindo truques para treinar redes neurais profundas. Em 2011, eles estavam se tornando extremamente bem-sucedidos em aprender a diferenciar cães de gatos e realizar inúmeras outras tarefas complexas. Mas uma rede neural treinada consiste em milhões de “neurônios” numericamente valorizados, que não dizem nada sobre quais recursos eles aprenderam a reconhecer. De sua parte, Eureqa poderia comunicar suas descobertas em linguagem humana: operações matemáticas de variáveis físicas.

Quando Sales-Pardo tocou com Eureqa pela primeira vez, ela ficou surpresa. “Achei impossível”, disse ela. “Isto é mágico. Como essas pessoas puderam fazer isso?” Ela e Guimerà logo começaram a usar o Eureqa para construir modelos para suas próprias pesquisas em redes, mas se sentiram simultaneamente impressionados com seu poder e frustrados com sua inconsistência. O algoritmo desenvolveria equações preditivas, mas então poderia ultrapassar e pousar em uma equação que fosse muito complicada. Ou os pesquisadores ajustariam levemente seus dados e o Eureqa retornaria uma fórmula completamente diferente. Sales-Pardo e Guimerà começaram a projetar um novo cientista de máquinas desde o início.

Um grau de compressão

O problema com os algoritmos genéticos, como eles o viam, era que eles confiavam demais nos gostos de seus criadores. Os desenvolvedores precisam instruir o algoritmo para equilibrar simplicidade com precisão. Uma equação sempre pode atingir mais pontos em um conjunto de dados por ter termos adicionais. Mas alguns pontos periféricos são simplesmente barulhentos e melhor ignorados. Pode-se definir simplicidade como o comprimento da equação, digamos, e precisão como o quão perto a curva chega de cada ponto no conjunto de dados, mas essas são apenas duas definições de uma miscelânea de opções.

Sales-Pardo e Guimerà, juntamente com colaboradores, recorreram à experiência em física e estatística para reformular o processo evolutivo em termos de uma estrutura de probabilidade conhecida como teoria bayesiana. Eles começaram baixando todas as equações da Wikipedia. Eles então analisaram estatisticamente essas equações para ver quais tipos são mais comuns. Isso permitiu que eles garantissem que as suposições iniciais do algoritmo fossem diretas – tornando mais provável que tentassem um sinal de mais do que um cosseno hiperbólico, por exemplo. O algoritmo então gerou variações das equações usando um método de amostragem aleatória que é matematicamente comprovado para explorar todos os cantos e recantos do cenário matemático.

Em cada etapa, o algoritmo avaliou as equações candidatas em termos de quão bem elas poderiam comprimir um conjunto de dados. Um punhado aleatório de pontos, por exemplo, não pode ser compactado; você precisa saber a posição de cada ponto. Mas se 1.000 pontos caem ao longo de uma linha reta, eles podem ser compactados em apenas dois números (a inclinação e a altura da linha). O grau de compressão, o casal descobriu, deu uma maneira única e inatacável de comparar equações candidatas. “Você pode provar que o modelo correto é aquele que comprime mais os dados”, disse Guimerà. “Não há arbitrariedade aqui.”

Após anos de desenvolvimento – e uso secreto de seu algoritmo para descobrir o que desencadeia a divisão celular – eles e seus colegas descreveram seu “cientista da máquina bayesiana” no Science Advances em 2020.

Oceanos de dados

Desde então, os pesquisadores empregaram o cientista da máquina bayesiana para melhorar a equação de última geração para prever o consumo de energia de um país, enquanto outro grupo a usou para ajudar a modelar a percolação por meio de uma rede. Mas os desenvolvedores esperam que esses tipos de algoritmos desempenhem um papel descomunal em pesquisas biológicas como a de Trepat, onde os cientistas estão cada vez mais se afogando em dados.

Os cientistas de máquinas também estão ajudando os físicos a entender sistemas que abrangem muitas escalas. Os físicos normalmente usam um conjunto de equações para átomos e um conjunto completamente diferente para bolas de bilhar, mas essa abordagem fragmentada não funciona para pesquisadores de uma disciplina como a ciência do clima, onde correntes de pequena escala ao redor de Manhattan alimentam a corrente do Golfo do Oceano Atlântico.

Um desses pesquisadores é Laure Zanna, da Universidade de Nova York. Em seu trabalho de modelagem da turbulência oceânica, ela muitas vezes se vê presa entre dois extremos: os supercomputadores podem simular redemoinhos do tamanho de cidades ou correntes intercontinentais, mas não ambas as escalas ao mesmo tempo. Seu trabalho é ajudar os computadores a gerar uma imagem global que inclua os efeitos de redemoinhos menores sem simulá-los diretamente. Inicialmente, ela se voltou para redes neurais profundas para extrair o efeito geral de simulações de alta resolução e atualizar simulações mais grosseiras de acordo. “Eles foram incríveis”, disse ela. “Mas eu sou uma física climática” – o que significa que ela quer entender como o clima funciona com base em alguns princípios físicos como pressão e temperatura – “por isso é muito difícil comprar e ficar feliz com milhares de parâmetros”.

Então ela se deparou com um algoritmo de cientista de máquina desenvolvido por Steven Brunton, Joshua Proctor e Nathan Kutz, matemáticos aplicados da Universidade de Washington. Seu algoritmo adota uma abordagem conhecida como regressão esparsa, que é semelhante em espírito à regressão simbólica. Em vez de estabelecer uma batalha real entre equações mutantes, ele começa com uma biblioteca de talvez mil funções como x2, x/(x – 1) e sin(x). O algoritmo pesquisa na biblioteca uma combinação de termos que fornece as previsões mais precisas, exclui os termos menos úteis e continua até que se reduza a apenas um punhado de termos. O procedimento ultrarrápido pode lidar com mais dados do que algoritmos de regressão simbólica, ao custo de ter menos espaço para explorar, já que a equação final deve ser construída a partir de termos de biblioteca.

Zanna recriou o algoritmo de regressão esparsa do zero para ter uma ideia de como funcionava e, em seguida, aplicou uma versão modificada aos modelos oceânicos. Quando ela alimentou filmes de alta resolução e pediu ao algoritmo para procurar esboços precisos com zoom reduzido, ele retornou uma equação sucinta envolvendo vorticidade e como os fluidos se esticam e cortam. Quando ela inseriu isso em seu modelo de fluxo de fluido em grande escala, ela viu o fluxo mudar em função da energia de forma muito mais realista do que antes.

“O algoritmo pegou em termos adicionais”, disse Zanna, produzindo uma equação “bela” que “realmente representa algumas das principais propriedades das correntes oceânicas, que estão se estendendo, cortando e girando”.

Mais inteligentes juntos

Outros grupos estão dando um impulso aos cientistas de máquinas ao fundir seus pontos fortes com os das redes neurais profundas.

Miles Cranmer, um estudante de pós-graduação em astrofísica da Universidade de Princeton, desenvolveu um algoritmo de regressão simbólica de código aberto semelhante ao Eureqa chamado PySR. Ele configura diferentes populações de equações em “ilhas” digitais e permite que as equações que melhor se ajustem aos dados migrem periodicamente e compitam com os moradores de outras ilhas. Cranmer trabalhou com cientistas da computação da DeepMind e NYU e astrofísicos do Flatiron Institute para criar um esquema híbrido em que eles primeiro treinam uma rede neural para realizar uma tarefa e depois pedem ao PySR para encontrar uma equação descrevendo o que certas partes da rede neural têm. aprendeu a fazer.

Como uma prova inicial de conceito, o grupo aplicou o procedimento a uma simulação de matéria escura e gerou uma fórmula que fornece a densidade no centro de uma nuvem de matéria escura com base nas propriedades das nuvens vizinhas. A equação se ajusta melhor aos dados do que a equação projetada por humanos existente.

Em fevereiro, eles alimentaram seu sistema com 30 anos de posições reais dos planetas e luas do sistema solar no céu. O algoritmo pulou completamente as leis de Kepler, inferindo diretamente a lei da gravitação de Newton e as massas dos planetas e luas. Outros grupos usaram recentemente o PySR para descobrir equações que descrevem características de colisões de partículas, uma aproximação do volume de um nó e a maneira como as nuvens de matéria escura esculpem as galáxias em seus centros.

Do crescente grupo de cientistas de máquinas (outro exemplo notável é “AI Feynman”, criado por Max Tegmark e Silviu-Marian Udrescu, físicos do Instituto de Tecnologia de Massachusetts), pesquisadores humanos dizem que quanto mais, melhor. “Nós realmente precisamos de todas essas técnicas”, disse Kutz. “Não há um único que seja uma bala mágica.”

Kutz acredita que os cientistas de máquinas estão levando o campo ao ápice do que ele chama de “física GoPro”, onde os pesquisadores simplesmente apontarão uma câmera para um evento e obterão de volta uma equação capturando a essência do que está acontecendo. (Os algoritmos atuais ainda precisam de humanos para alimentá-los com uma lista de variáveis potencialmente relevantes, como posições e ângulos.)

É nisso que Lipson tem trabalhado ultimamente. Em uma pré-impressão de dezembro, ele e seus colaboradores descreveram um procedimento no qual primeiro treinaram uma rede neural profunda para receber alguns quadros de um vídeo e prever os próximos quadros. A equipe então reduziu quantas variáveis a rede neural podia usar até que suas previsões começassem a falhar.

O algoritmo foi capaz de descobrir quantas variáveis eram necessárias para modelar sistemas simples como um pêndulo e configurações complicadas como a cintilação de uma fogueira – línguas de chamas sem variáveis óbvias para rastrear.

“Não temos nomes para eles”, disse Lipson. “Eles são como a chama da chama.”

A borda da ciência (de máquina)

Os cientistas da máquina não estão prestes a suplantar as redes neurais profundas, que brilham em sistemas caóticos ou extremamente complicados. Ninguém espera encontrar uma equação para catness e dogness.

No entanto, quando se trata de planetas em órbita, derramando fluidos e células em divisão, equações concisas baseadas em um punhado de operações são incrivelmente precisas. É um fato que o Prêmio Nobel Eugene Wigner chamou de “um presente maravilhoso que não entendemos nem merecemos” em seu ensaio de 1960 “A eficácia irracional da matemática nas ciências naturais”. Como Cranmer colocou: “Se você olhar para qualquer folha de dicas de equações para um exame de física, todas são expressões algébricas extremamente simples, mas têm um desempenho extremamente bom”.

Cranmer e seus colegas especulam que as operações elementares são tão superadas porque representam ações geométricas básicas no espaço, tornando-as uma linguagem natural para descrever a realidade. A adição move um objeto para baixo em uma linha numérica. E a multiplicação transforma uma área plana em um volume 3D. Por esse motivo, eles suspeitam que, quando estamos adivinhando equações, apostar na simplicidade faz sentido.

A simplicidade subjacente do universo não pode garantir o sucesso, no entanto.

Guimerà e Sales-Pardo originalmente construíram seu algoritmo matematicamente rigoroso porque Eureqa às vezes encontrava equações totalmente diferentes para entradas semelhantes. Para seu desânimo, no entanto, eles descobriram que mesmo seu cientista de máquina bayesiano às vezes retornava vários modelos igualmente bons para um determinado conjunto de dados.

O motivo, o par mostrou recentemente, está embutido nos próprios dados. Usando seu cientista de máquina, eles exploraram vários conjuntos de dados e descobriram que eles se enquadravam em duas categorias: limpo e barulhento. Em dados mais limpos, o cientista da máquina sempre poderia encontrar a equação que gerou os dados. Mas acima de um certo limite de ruído, nunca poderia. Em outras palavras, dados ruidosos podem corresponder a qualquer número de equações igualmente bem (ou mal). E porque os pesquisadores provaram probabilisticamente que seu algoritmo sempre encontra a melhor equação, eles sabem que onde ele falha, nenhum outro cientista – seja humano ou máquina – pode ter sucesso.

“Descobrimos que essa é uma limitação fundamental”, disse Guimerà. “Para isso, precisávamos do cientista da máquina.”


Publicado em 16/05/2022 01h00

Artigo original: