´Vai mudar tudo´: a Inteligência Artificial da empresa DeepMind dá um salto gigantesco na resolução de estruturas de proteínas

A função de uma proteína é determinada por sua forma 3D. Crédito: DeepMind

O programa de Deep Learning do Google para determinar as formas 3D de proteínas transforma a biologia, dizem os cientistas.

Uma rede de inteligência artificial (IA) desenvolvida pela DeepMind do Google AI deu um salto gigantesco na resolução de um dos maiores desafios da biologia – determinar a forma 3D de uma proteína a partir de sua sequência de aminoácidos.

O programa da DeepMind, chamado AlphaFold, superou cerca de 100 outras equipes em um desafio bienal de previsão de estrutura de proteína chamado CASP, abreviação de Avaliação crítica de previsão de estrutura. Os resultados foram divulgados no dia 30 de novembro, no início da conferência – realizada praticamente este ano – que faz o balanço do exercício.

“Este é um grande negócio”, diz John Moult, um biólogo computacional da Universidade de Maryland em College Park, que cofundou a CASP em 1994 para melhorar os métodos computacionais para prever com precisão as estruturas de proteínas. “Em certo sentido, o problema está resolvido.”

A capacidade de prever com precisão as estruturas das proteínas a partir de sua sequência de aminoácidos seria um grande benefício para as ciências biológicas e a medicina. Isso aceleraria enormemente os esforços para entender os blocos de construção das células e permitiria a descoberta de medicamentos mais rápida e avançada.

AlphaFold ficou no topo da tabela no último CASP – em 2018, o primeiro ano em que a DeepMind com sede em Londres participou. Mas, este ano, a rede de aprendizagem profunda da organização estava cabeça e ombros acima das outras equipes e, dizem os cientistas, teve um desempenho tão surpreendente que poderia anunciar uma revolução na biologia.

“É uma virada de jogo”, diz Andrei Lupas, biólogo evolucionista do Instituto Max Planck de Biologia do Desenvolvimento em Tübingen, Alemanha, que avaliou o desempenho de diferentes equipes no CASP. AlphaFold já o ajudou a encontrar a estrutura de uma proteína que incomodou seu laboratório por uma década, e ele espera que isso altere seu funcionamento e as questões que enfrenta. “Isso vai mudar a medicina. Isso mudará a pesquisa. Isso mudará a bioengenharia. Vai mudar tudo”, acrescenta Lupas.

Em alguns casos, as previsões de estrutura de AlphaFold eram indistinguíveis daquelas determinadas usando métodos experimentais “padrão ouro”, como cristalografia de raios-X e, nos últimos anos, microscopia crioeletrônica (crio-EM). AlphaFold pode não evitar a necessidade desses métodos laboriosos e caros – ainda – dizem os cientistas, mas a IA tornará possível estudar os seres vivos de novas maneiras.

O problema de estrutura

As proteínas são os blocos de construção da vida, responsáveis pela maior parte do que acontece dentro das células. Como uma proteína funciona e o que ela faz é determinado por sua forma 3D – “estrutura é função” é um axioma da biologia molecular. As proteínas tendem a adotar sua forma sem ajuda, guiadas apenas pelas leis da física.

Por décadas, experimentos de laboratório foram a principal forma de obter boas estruturas de proteínas. As primeiras estruturas completas de proteínas foram determinadas, a partir da década de 1950, usando uma técnica em que feixes de raios-X são disparados em proteínas cristalizadas e a luz difratada traduzida em coordenadas atômicas de uma proteína. A cristalografia de raios-X produziu a maior parte das estruturas de proteínas. Mas, na última década, o crio-EM se tornou a ferramenta preferida de muitos laboratórios de biologia estrutural.

Os cientistas há muito se perguntam como as partes constituintes de uma proteína – uma cadeia de aminoácidos diferentes – mapeiam as muitas curvas e dobras de sua forma final. As primeiras tentativas de usar computadores para prever estruturas de proteínas nas décadas de 1980 e 1990 tiveram um desempenho ruim, dizem os pesquisadores. As alegações elevadas de métodos em artigos publicados tendiam a se desintegrar quando outros cientistas os aplicavam a outras proteínas.

Moult iniciou o CASP para trazer mais rigor a esses esforços. O evento desafia as equipes a prever as estruturas de proteínas que foram resolvidas usando métodos experimentais, mas para as quais as estruturas não foram divulgadas. Moult credita o experimento – ele não o chama de competição – por ter melhorado muito o campo, ganhando tempo com alegações exageradas. “Você está realmente descobrindo o que parece promissor, o que funciona e do que você deve se afastar”, diz ele.

O desempenho da DeepMind em 2018 no CASP13 surpreendeu muitos cientistas da área, que há muito tempo é o bastião de pequenos grupos acadêmicos. Mas sua abordagem era bastante semelhante à de outras equipes que estavam aplicando IA, diz Jinbo Xu, biólogo computacional da Universidade de Chicago, Illinois.

A primeira iteração de AlphaFold aplicou o método AI conhecido como aprendizado profundo a dados estruturais e genéticos para prever a distância entre pares de aminoácidos em uma proteína. Em uma segunda etapa que não invoca IA, AlphaFold usa essas informações para chegar a um modelo de “consenso” de como a proteína deve ser, diz John Jumper da DeepMind, que está liderando o projeto.

A equipe tentou desenvolver essa abordagem, mas acabou atingindo a barreira. Portanto, mudou de rumo, diz Jumper, e desenvolveu uma rede de IA que incorporou informações adicionais sobre as restrições físicas e geométricas que determinam como uma proteína se dobra. Eles também definiram uma tarefa mais difícil: em vez de prever relações entre aminoácidos, a rede prevê a estrutura final de uma sequência de proteína alvo. “É um sistema um pouco mais complexo”, diz Jumper.

Precisão surpreendente

CASP ocorre ao longo de vários meses. Proteínas alvo ou porções de proteínas chamadas domínios – cerca de 100 no total – são liberadas regularmente e as equipes têm várias semanas para enviar suas previsões de estrutura. Uma equipe de cientistas independentes avalia então as previsões usando métricas que avaliam o quão semelhante uma proteína prevista é com a estrutura determinada experimentalmente. Os avaliadores não sabem quem está fazendo uma previsão.

As previsões da AlphaFold chegaram com o nome de “grupo 427”, mas a precisão surpreendente de muitas de suas entradas as destacou, diz Lupas. “Eu tinha adivinhado que era AlphaFold. A maioria das pessoas tinha”, diz ele.

Algumas previsões foram melhores do que outras, mas quase dois terços foram comparáveis em qualidade às estruturas experimentais. Em alguns casos, diz Moult, não estava claro se a discrepância entre as previsões do AlphaFold e o resultado experimental era um erro de previsão ou um artefato do experimento.

As previsões do AlphaFold foram combinações ruins com estruturas experimentais determinadas por uma técnica chamada espectroscopia de ressonância magnética nuclear, mas isso pode ser devido à forma como os dados brutos são convertidos em um modelo, diz Moult. A rede também luta para modelar estruturas individuais em complexos de proteínas, ou grupos, por meio dos quais as interações com outras proteínas distorcem suas formas.

No geral, as equipes previram estruturas com mais precisão este ano, em comparação com o último CASP, mas muito do progresso pode ser atribuído ao AlphaFold, diz Moult. Em alvos de proteína considerados moderadamente difíceis, os melhores desempenhos de outras equipes normalmente pontuaram 75 em uma escala de 100 pontos de precisão de previsão, enquanto AlphaFold marcou cerca de 90 nos mesmos alvos, diz Moult.

Cerca de metade das equipes mencionou “aprendizado profundo” em resumo, resumindo sua abordagem, diz Moult, sugerindo que a IA está causando um amplo impacto no campo. A maioria deles era de equipes acadêmicas, mas a Microsoft e a empresa de tecnologia chinesa Tencent também entraram no CASP14.

Mohammed AlQuraishi, biólogo computacional da Universidade de Columbia em Nova York e participante do CASP, está ansioso para se aprofundar nos detalhes do desempenho do AlphaFold no concurso e aprender mais sobre como o sistema funciona quando a equipe DeepMind apresentar sua abordagem em 1º de dezembro . É possível – mas improvável, diz ele – que uma safra de alvos de proteína mais fácil do que o normal contribuiu para o desempenho. O forte palpite de AlQuraishi é que AlphaFold será transformacional.

“Acho que é justo dizer que isso será muito prejudicial para o campo de predição de estrutura de proteína. Suspeito que muitos deixarão o campo porque o problema central foi sem dúvida resolvido”, diz ele. “É um avanço de primeira ordem, certamente um dos resultados científicos mais significativos da minha vida.”

Estruturas mais rápidas

Uma previsão do AlphaFold ajudou a determinar a estrutura de uma proteína bacteriana que o laboratório de Lupas vem tentando quebrar há anos. A equipe de Lupas já havia coletado dados brutos de difração de raios-X, mas transformar esses padrões do tipo Rorschach em uma estrutura requer algumas informações sobre a forma da proteína. Truques para obter essas informações, assim como outras ferramentas de previsão, falharam. “O modelo do grupo 427 nos deu nossa estrutura em meia hora, depois de uma década experimentando de tudo”, diz Lupas.

Demis Hassabis, cofundador e executivo-chefe da DeepMind, diz que a empresa planeja tornar o AlphaFold útil para que outros cientistas possam utilizá-lo. (Publicou anteriormente detalhes suficientes sobre a primeira versão do AlphaFold para outros cientistas replicarem a abordagem.) AlphaFold pode levar dias para chegar a uma estrutura prevista, que inclui estimativas sobre a confiabilidade de diferentes regiões da proteína. “Estamos apenas começando a entender o que os biólogos desejam”, acrescenta Hassabis, que vê a descoberta de medicamentos e o design de proteínas como aplicações potenciais.

No início de 2020, a empresa divulgou previsões das estruturas de um punhado de proteínas SARS-CoV-2 que ainda não haviam sido determinadas experimentalmente. As previsões da DeepMind para uma proteína chamada Orf3a acabaram sendo muito semelhantes a uma determinada posteriormente por meio de crio-EM, diz Stephen Brohawn, neurobiologista molecular da Universidade da Califórnia, Berkeley, cuja equipe lançou a estrutura em junho. “O que eles conseguiram fazer é muito impressionante”, acrescenta.

Impacto no mundo real

É improvável que AlphaFold feche laboratórios, como o de Brohawn, que usam métodos experimentais para resolver estruturas de proteínas. Mas pode significar que dados experimentais de qualidade inferior e mais fáceis de coletar seriam tudo o que é necessário para obter uma boa estrutura. Algumas aplicações, como a análise evolutiva de proteínas, estão definidas para florescer porque o tsunami de dados genômicos disponíveis pode agora ser traduzido de forma confiável em estruturas. “Isso vai capacitar uma nova geração de biólogos moleculares a fazer perguntas mais avançadas”, diz Lupas. “Vai exigir mais reflexão e menos pipetagem.”

“Este é um problema que eu estava começando a pensar que não seria resolvido em minha vida”, diz Janet Thornton, bióloga estrutural do European Molecular Biology Laboratory-European Bioinformtics Institute em Hinxton, Reino Unido, e ex-assessor do CASP. Ela espera que a abordagem possa ajudar a iluminar a função de milhares de proteínas não resolvidas no genoma humano e dar sentido às variações de genes causadores de doenças que diferem entre as pessoas.

O desempenho de AlphaFold também marca um ponto de viragem para DeepMind. A empresa é mais conhecida por usar IA para dominar jogos como Go, mas seu objetivo de longo prazo é desenvolver programas capazes de alcançar uma inteligência humana ampla. Enfrentar grandes desafios científicos, como a previsão da estrutura da proteína, é uma das aplicações mais importantes que sua IA pode fazer, diz Hassabis. “Acho que é a coisa mais significativa que fizemos, em termos de impacto no mundo real.”

Publicado em 01/12/2020 14h36

Artigo original:

https://www.nature.com/articles/d41586-020-03348-4

Estudo original:

https://doi.org/10.1038/d41586-020-03348-4