Um biólogo de Inteligência Artificial da empresa DeepMind pode decifrar alguns segredos da máquina da vida

Descobrir a forma de uma proteína não é uma tarefa fácil

BIBLIOTECA DE FOTOS DE CHRISTOPH BURGSTEDT / SCIENCE


Um sistema de Inteligência Artificial desenvolvido pela empresa DeepMind, sediada no Reino Unido, atingiu o objetivo há muito procurado de prever com precisão a forma das proteínas apenas a partir de sua sequência, uma parte fundamental para compreender como funciona a máquina da vida. Em uma competição, a AlphaFold foi capaz de igualar dois terços dos resultados alcançados por humanos fazendo experimentos de laboratório caros e demorados.

“Fiquei muito impressionado quando vi isso”, disse John Moult, da Universidade de Maryland, um dos organizadores da competição. “Esta é a primeira vez que chegamos perto de nos aproximar da utilidade experimental, o que é bastante extraordinário.”

As proteínas são vitais para a vida. As células estão cheias de máquinas – desde turbinas que geram energia até transportadores que andam por trilhos puxando cargas – que são construídas a partir de proteínas, e os formatos dessas máquinas são cruciais. Por exemplo, o coronavírus pode entrar e infectar células porque a proteína spike em sua superfície se encaixa em um receptor nas células humanas, como uma chave em uma fechadura.

Essas formas dependem da sequência de 20 aminoácidos diferentes que são encadeados para formar as proteínas. É fácil descobrir a sequência de qualquer proteína porque isso é determinado pelo DNA que a codifica. Mas, apesar de meio século de esforços, os biólogos não tinham sido capazes de descobrir a forma de uma proteína apenas a partir de sua sequência.

Em vez disso, eles tiveram que confiar em métodos experimentais, como cristalografia de raios-X, que envolve a análise do padrão de difração formado quando um feixe de raios-X é disparado através de um cristal de proteína.

“Isso é excepcionalmente difícil”, diz John Jumper, que lidera a equipe AlphaFold na DeepMind. Fazer cristais de algumas proteínas é difícil e interpretar os padrões de difração pode ser complicado.

A computação de força bruta baseada apenas na física não é uma opção, porque as proteínas são muito complexas. Em vez disso, muitos grupos em todo o mundo recorreram ao aprendizado de máquina, em que os sistemas de IA são treinados usando conjuntos de dados de estruturas de proteínas conhecidas.

Para cada proteína alvo, grupos incluindo a DeepMind procuram variantes encontradas em espécies relacionadas e alimentam sua sequência e estrutura no sistema IA, junto com a sequência da proteína alvo. A ideia é que o sistema aprenda a trabalhar a forma da proteína-alvo observando os padrões que ligam sequência e estrutura.

Em 1994, Moult e um colega criaram a competição CASP (Avaliação Crítica da Predição da Estrutura da Proteína) para julgar o desempenho das previsões do computador. Qualquer grupo que queira entrar recebe as sequências de proteínas cuja estrutura foi determinada experimentalmente, mas ainda não publicada.

As formas previstas são pontuadas em 100 com base em quão próximo cada aminoácido está da posição determinada pelo experimento. Uma pontuação acima de 90 é considerada equivalente aos resultados obtidos por experimentos.

Na competição de 2016, a melhor equipe obteve uma pontuação mediana em torno de 40 na categoria mais difícil. Em 2018, a primeira versão da AlphaFold obteve uma pontuação média de quase 60 nesta categoria. Este ano, uma AlphaFold redesenhada obteve uma pontuação média de 87 na categoria mais difícil. Em todas as categorias, pontuou acima de 90 para dois terços das proteínas.

Embora este resultado seja surpreendente, houve algumas falhas evidentes, diz Moult. Por exemplo, a AlphaFold não se saiu bem com uma proteína cuja estrutura é influenciada por interações com outras proteínas que a rodeiam.

Essa variabilidade pode ser um problema, mas a AlphaFold também fornece uma medida de quão confiáveis são suas previsões, para que os cientistas saibam em quais confiar, diz Jumper. “Isso é grandioso.”

Separado da competição, Andrei Lupas, do Instituto Max Planck de Biologia do Desenvolvimento, na Alemanha, vinha tentando descobrir a estrutura de uma proteína específica por uma década até que a DeepMind se ofereceu para ajudar. Alguns ajustes foram necessários para melhorar a precisão, mas a equipe de Lupas tinha a estrutura final meia hora após receber a previsão da AlphaFold. “É surpreendente”, diz ele. “É realmente surpreendente.”

Lupas acredita que nos próximos anos os pesquisadores ainda precisarão fazer algum trabalho experimental para verificar as previsões de forma, mas eventualmente poderão contar apenas com a computação. Isso fará uma enorme diferença, diz ele, mas a verdadeira revolução virá da capacidade de usar computadores para prever como as proteínas interagem com outras moléculas.

“Isso vai mudar completamente a cara da medicina”, diz Lupas. Por exemplo, a AlphaFold foi capaz de prever as formas de várias proteínas do coronavírus logo depois que o vírus foi sequenciado pela primeira vez em janeiro, diz ele. Melhor ainda seria ter a capacidade de prever quais dos milhares de medicamentos existentes se ligam a essas proteínas e podem ter um efeito terapêutico, sem ter que fazer experimentos caros.

A DeepMind revelou poucos detalhes sobre a AlphaFold até agora, mas diz que em breve publicará um artigo. A empresa não soube dizer como os cientistas terão acesso à tecnologia, mas afirma que deseja que ela esteja amplamente disponível. “Queremos ter certeza de que isso tem o maior impacto”, diz Pushmeet Kohli da DeepMind.


Publicado em 30/11/2020 16h55

Artigo original: