A inteligência artificial impulsiona as previsões de dobramento de proteínas

Um modelo do complexo de poros nucleares humanos, construído usando AlphaFold2 e dados estruturais. Crédito: Agnieszka Obarska-Kosinska

Algoritmos de Deep Learning, como AlphaFold2 e RoseTTAFold, agora podem prever a forma 3D de uma proteína a partir de sua sequência linear – um grande benefício para biólogos estruturais.

Raramente o software científico gera manchetes tão sensacionais. “Um dos maiores mistérios da biologia’ amplamente resolvido ‘pela IA”, declarou a BBC. Forbes chamou isso de “a conquista mais importante em IA – de todos os tempos”. A agitação sobre a estreia em novembro de 2020 do AlphaFold2, o sistema de inteligência artificial (IA) do Google DeepMind para prever a estrutura 3D de proteínas, só se intensificou desde que a ferramenta foi disponibilizada gratuitamente em julho.

A empolgação está relacionada ao potencial do software para resolver um dos problemas mais espinhosos da biologia – prever a estrutura funcional e dobrada de uma molécula de proteína a partir de sua sequência linear de aminoácidos, até a posição de cada átomo no espaço 3D. As regras físico-químicas subjacentes para como as proteínas formam suas estruturas 3D permanecem muito complicadas para serem analisadas por humanos, então este “problema de dobramento de proteínas” permaneceu sem solução por décadas.

Os pesquisadores descobriram as estruturas de cerca de 160.000 proteínas de todos os reinos da vida. Eles têm usado técnicas experimentais, como cristalografia de raios X e microscopia crioeletrônica (cryo-EM), para depois depositar suas informações 3D no Protein Data Bank. Os biólogos computacionais obtiveram ganhos constantes no desenvolvimento de software que complementa esses métodos e previram corretamente as formas 3D de algumas moléculas de famílias de proteínas bem estudadas.

Apesar desses avanços, os pesquisadores ainda careciam de informações estruturais para cerca de 4.800 proteínas humanas. Mas AlphaFold2 levou as estratégias de previsão de estrutura para o próximo nível. Por exemplo, uma análise independente feita por pesquisadores na Espanha mostrou que as previsões do algoritmo reduziram o número de proteínas humanas para as quais nenhum dado estrutural estava disponível para apenas 29.

AlphaFold2 foi revelado em novembro passado no CASP14, a 14ª avaliação crítica da previsão da estrutura da proteína (CASP), uma competição bienal que desafia biólogos computacionais a testar seus algoritmos contra proteínas para as quais as estruturas foram experimentalmente resolvidas, mas não divulgadas publicamente. O software da DeepMind – que usa a técnica sofisticada de aprendizado de máquina conhecida como aprendizado profundo – tirou a concorrência da água.

“Com base no CASP14 [resultados], eles poderiam obter cerca de dois terços das proteínas com precisão experimental geral, e mesmo para alvos difíceis, eles podem dobrar cerca de um terço das proteínas com precisão experimental”, diz Yang Zhang, um especialista biológico químico da Universidade de Michigan em Ann Arbor, cujo algoritmo estava entre os vencedores do CASP14. “Esse é um resultado incrível.” Dois artigos subsequentes da Nature e dezenas de pré-impressões demonstraram ainda mais o poder preditivo do AlphaFold2.

Zhang considera o AlphaFold2 uma demonstração impressionante do poder do aprendizado profundo, mas apenas uma solução parcial para o problema do dobramento de proteínas. O algoritmo pode fornecer resultados altamente precisos para muitas proteínas – e alguns complexos de multiproteínas – mesmo na ausência de informações estruturais. Isso poderia acelerar drasticamente a biologia estrutural experimental e ajudar a orientar a pesquisa em engenharia de proteínas e descoberta de medicamentos.

Mas muitos detalhes essenciais permanecem fora do alcance de algumas proteínas. Chris Sander, biólogo computacional do Dana-Farber Cancer Institute em Boston, Massachusetts, observa que os algoritmos ainda lutam com alvos proteicos complicados que possuem múltiplos domínios funcionais ou estruturas altamente dinâmicas. “É ótimo o que eles fizeram”, diz Sander. “Mas a flexibilidade das proteínas e como elas mudam não é afetada por isso, e apenas ter um único instantâneo não resolve o problema da função biológica.”

O progresso no aprendizado profundo – e uma comunidade crescente de usuários AlphaFold2 – pode trazer alguns desses desafios para o calcanhar, mas uma compreensão abrangente da biologia de proteínas exigirá uma caixa de ferramentas computacional e experimental muito mais ampla.

Ensino superior

O aprendizado profundo incorpora estratégias de aprendizado de máquina nas quais as redes neurais computacionais são treinadas para reconhecer e interpretar padrões nos dados. “Esses modelos não tentam prever a estrutura de uma só vez”, diz David Baker, biólogo computacional da Universidade de Washington em Seattle. “Eles são mais como uma simulação física onde os modelos estão aprendendo como fazer bons movimentos para melhorar a estrutura.” Ao treinar esses algoritmos com grandes quantidades de dados experimentais anotados, eles podem começar a identificar ligações entre a sequência e a estrutura que informam as previsões para novas proteínas.

Nos últimos cinco anos, várias equipes fizeram progressos na aplicação do aprendizado profundo para estruturar previsões. A primeira iteração de AlphaFold venceu CASP13 em 2018, mas seu desempenho não estava nem perto da vitória notável vista no ano passado. Vários laboratórios acadêmicos subsequentemente desenvolveram algoritmos baseados em aprendizagem profunda que superaram a primeira geração do AlphaFold, incluindo o DI-TASSER do laboratório Zhang, trRosetta e RaptorX do laboratório Baker, desenvolvidos por Jinbo Xu e sua equipe no Instituto Tecnológico Toyota em Chicago, Illinois .

Mas esses algoritmos eram geralmente aplicados como partes de um pipeline de software maior, criando o potencial para erro e ineficiência. “Freqüentemente, havia diferentes componentes que se comunicavam incorretamente ou não se comunicavam de maneira ideal uns com os outros porque foram construídos aos poucos”, diz Mohammed AlQuraishi, biólogo de sistemas da Universidade de Columbia na cidade de Nova York. Essas limitações alimentaram o interesse em algoritmos de ponta a ponta que gerenciam todo o processo, da sequência à estrutura. O cientista pesquisador sênior da DeepMind, John Jumper, que mora em Londres, diz que depois do CASP13, sua equipe basicamente descartou o AlphaFold de primeira geração e começou a desenvolver essa solução – AlphaFold2.

Vários aspectos do AlphaFold2 baseiam-se em técnicas estabelecidas. Por exemplo, o algoritmo começa gerando alinhamentos de sequência múltipla (MSAs), nos quais uma nova proteína com estrutura desconhecida é comparada com sequências relacionadas de outras espécies. Ao identificar aminoácidos co-evolutivos que mudam em paralelo, os algoritmos podem se concentrar naqueles que têm maior probabilidade de se associarem na proteína dobrada – lugares onde uma mudança na sequência requer mutações compensatórias para preservar a estrutura geral.

Sander e sua colaboradora, a bióloga computacional Debora Marks da Universidade de Harvard em Cambridge, Massachusetts, e sua equipe desenvolveram essa técnica baseada em coevolução em 2011. “Foi a primeira solução que funcionou em toda a linha para muitas proteínas, usando a evolução para obter a dobra correta e a forma básica “, diz Sander. “E agora o aprendizado de máquina o torna ainda melhor.”

Os desenvolvedores do AlphaFold2 utilizaram uma quantidade sem precedentes de informações para construir seus MSAs, usando bilhões de sequências de proteínas de um conjunto de dados compilado pelo biólogo computacional Martin Steinegger na Universidade Nacional de Seul na Coreia do Sul e Johannes Söding no Instituto Max Planck de Química Biofísica em Göttingen, Alemanha. “Eles queriam que eu transformasse isso em um banco de dados pesquisável”, diz Steinegger.

Essas previsões geradas por AlphaFold2 destacam a variedade estrutural de proteínas. Crédito: DeepMind

A equipe da DeepMind também desenvolveu soluções inovadoras para o problema de dobramento de proteínas. Um é o uso de ferramentas de reconhecimento de padrões conhecidas como transformadores, que são comumente usadas em análise de imagens e processamento de linguagem natural. Os transformadores são projetados para reconhecer padrões locais – cadeias de palavras ou elementos visuais adjacentes, por exemplo – que podem guiar a interpretação dos dados. DeepMind adaptou-os para trabalhar no terreno mais desafiador da estrutura de proteínas, construindo transformadores que identificam e se concentram em interações de proteínas de longo alcance que são provavelmente importantes na forma dobrada final. “Na estrutura final da proteína, você fará conexões entre coisas bastante distantes – como talvez o resíduo 10 fale com o resíduo 350”, diz Jumper.

O processo AlphaFold2 aborda simultaneamente o dobramento de proteínas de vários ângulos e gera várias representações da estrutura prevista em paralelo. Em seguida, eles são comparados e os insights resultantes ajudam a refinar o processo de modelagem nas iterações subsequentes. Jumper e seus colegas possibilitaram isso ao projetar uma arquitetura de rede neural que permite a troca fluida e eficiente de informações entre os componentes do software. “Acho que a maior coisa que tornou isso o que é foi esse sistema de comunicação muito bem projetado”, diz AlQuraishi.

Predição para o povo

Por causa do atraso entre a estreia do AlphaFold2 e os artigos sendo publicados, e da incerteza entre os acadêmicos sobre se todos os detalhes seriam disponibilizados, Baker e seu pós-doutorado Minkyung Baek trabalharam com informações esparsas sobre a arquitetura do software para desenvolver sua própria versão, RoseTTAFold. Ele usa muitas das mesmas estratégias do AlphaFold2, mas com algumas reviravoltas distintas.

“Na época em que o disponibilizamos, era de longe o melhor método de previsão de estrutura que você poderia usar – mas não tão bom quanto o AlphaFold2”, diz Baker. Ele ressalta que, ao contrário da maioria dos laboratórios acadêmicos, o DeepMind é uma entidade privada com enormes recursos e uma equipe de longa data de especialistas multidisciplinares. A explicação mais ampla para o sucesso do AlphaFold2 “é apenas que isso é dinheiro do Google”, diz Amelie Stein, bióloga computacional da Universidade de Copenhagen. “Mas também reúne a experiência de engenheiros de software e pessoas que conhecem proteínas e entendem as estruturas das proteínas.”

Desde o lançamento 2 de julho do AlphaFold2, os laboratórios têm clamado para trabalhar com o software e suas previsões de estrutura, que estão disponíveis por meio de um banco de dados hospedado pelo Instituto Europeu de Bioinformática.

Os usuários geralmente acham o software fácil de usar, embora precisem de vários terabytes de espaço em disco para baixar os bancos de dados e várias unidades de processamento gráfico (GPUs) para lidar com a análise. “Os cálculos de estrutura única não são tão ruins – nós os executamos por algumas horas”, diz o bioinformático Arne Elofsson da Universidade de Estocolmo. Mas, por causa de sua escala e dos recursos necessários, as análises do complemento total das proteínas de um organismo, ou proteoma, provavelmente estarão fora do alcance da maioria dos laboratórios acadêmicos por enquanto.

Para os pesquisadores que desejam testar o software, Steinegger e seus colegas desenvolveram o ColabFold, um sistema baseado em nuvem que executa AlphaFold2 e RoseTTAFold usando bancos de dados remotos e poder de computação fornecido pelo Google. A interface baseada na web é relativamente simples: “Você pode conectar sua sequência e, em seguida, apenas apertar um botão e ela prevê a estrutura para você”, diz Steinegger. Mas também permite que os usuários alterem as configurações e otimizem seus experimentos – por exemplo, alterando o número de iterações de previsão de estrutura.

Encontrando a dobra

Até a equipe da DeepMind ficou surpresa com o desempenho do AlphaFold2 no CASP14. “Obviamente, tínhamos benchmarking interno que sugeria que iríamos nos sair muito bem”, disse Jumper. “Mas no final do dia, ainda havia um sentimento na minha mente: isso é realmente, realmente verdade?”

O CASP14 amenizou essas preocupações e, nos últimos meses, assistimos a inúmeras demonstrações das capacidades e limites do AlphaFold2. Em um estudo3 publicado juntamente com o artigo que descreve o algoritmo, a equipe DeepMind aplicou AlphaFold2 a um conjunto de dados compreendendo 98,5% do proteoma humano. O algoritmo usa uma métrica chamada teste de diferença de distância local prevista (pLDDT) para indicar sua confiança de que a posição e a orientação de um determinado aminoácido refletem com precisão sua estrutura do mundo real. Desta forma, 36% de todos os resíduos no proteoma podem ser resolvidos com uma confiança muito alta3.

Em agosto, pesquisadores liderados pelo bioinformático Alfonso Valencia no Centro de Supercomputação de Barcelona, na Espanha, concluíram independentemente1 que AlphaFold2 aumentou a proporção de aminoácidos em proteínas humanas que podem ser mapeados com precisão de 31% a 50%.

Zhang espera que o software reduza rapidamente os frutos do proteoma. “Eles provavelmente podem dobrar todas as proteínas de domínio único”, diz ele. Mas muitas proteínas permanecem um desafio, como aquelas que compreendem unidades funcionais múltiplas independentes unidas por elementos de ligação relativamente flexíveis. Nesses casos, os domínios individuais podem se alinhar, mas sua orientação em relação ao outro pode não.

Ainda mais desafiador são os segmentos de proteínas que são intrinsecamente desordenados em seu estado natural, que podem representar mais de um terço de todos os aminoácidos no proteoma humano3. Atualmente, nenhum algoritmo pode prever como esses segmentos se dobram, mas Jumper observa que pontuações de pLDDT extremamente baixas podem pelo menos demarcar esses segmentos em uma estrutura. “Uma previsão totalmente insegura é um forte indicador de desordem”, diz ele.

Uma característica inesperada de AlphaFold2 e RoseTTAFold é sua capacidade de prever estruturas precisas de pares de cadeias de proteínas que formam complexos chamados homodímeros (se formados de duas proteínas idênticas) ou heterodímeros (formados por duas proteínas diferentes) – algo para o qual não foram inicialmente treinados Faz.

Elofsson e sua equipe relataram que modelaram com sucesso até 59% dos complexos de duas proteínas que analisaram usando AlphaFold2. Este processo se torna mais desafiador computacionalmente ao tentar identificar complexos prováveis do zero do que ao modelar pares de interação conhecidos. Mas Baker e sua equipe mostraram que, aplicando vários algoritmos de aprendizado profundo em tandem, eles foram capazes de identificar e modelar centenas de complexos multiproteicos de milhões de pares de interação possíveis no proteoma da levedura Saccharomyces cerevisiae. “RoseTTAFold era cerca de 100 vezes mais rápido [do que AlphaFold2], então podíamos executá-lo em todos os pares e então usá-lo para filtrar aqueles que estavam mais provavelmente interagindo,” diz Baker. “Em seguida, executamos AlphaFold2 nesse subconjunto muito menor.”

Percebendo o entusiasmo por esta aplicação, em outubro, DeepMind lançou AlphaFold-Multimer, que é especificamente treinado para lidar com complexos de proteínas que são formados por montagens de múltiplas cadeias. AlphaFold-Multimer gerou previsões de alta precisão de interações para 34% dos complexos homodiméricos testados e para 23% dos complexos heterodiméricos.

Fronteiras funcionais

Ainda assim, muitas questões permanecem fora de alcance, observa Marks. “Se a sua tecnologia está empenhada em realmente aprender a copiar cristalografia muito bem, então isso é ótimo”, diz ela. Mas esses instantâneos estruturais estáticos não serão adequados para explorar questões relacionadas à manipulação ou ao comportamento dinâmico inerente de uma determinada proteína, ela aponta.

Por exemplo, AlphaFold2 normalmente produz uma única resposta “correta” para cada sequência. Mas muitas proteínas têm vários estados conformacionais que são todos relevantes para a função – determinando, por exemplo, se uma enzima está ativa ou inibida. “Você pode tentar ajustar o AlphaFold para chegar a um ou outro, mas geralmente você apenas gera uma [conformação], não importa o que você faça”, diz Elofsson. O algoritmo simplesmente não foi projetado para simular física molecular complexa, mesmo que capture a influência dessas forças ao gerar previsões. Chegar a esses problemas provavelmente exigirá técnicas experimentais que mostram a estrutura da proteína real em vários estados, como crio-EM.

AlphaFold2 também geralmente não é adequado para prever como as mudanças de aminoácidos individuais alteram a estrutura da proteína – um fator crucial para a compreensão de como as mutações contribuem para a doença. Isso ocorre em parte porque o algoritmo usa perspectivas evolutivas para convergir para uma solução correta a partir de muitas sequências ligeiramente diferentes, diz Stein, cujo trabalho se concentra na caracterização de tais variantes. “Se você jogar um único resíduo em algum lugar, não pode esperar que ele diga de repente: ‘isso é um desastre'”, diz ela. No entanto, ela e sua equipe descobriram que podem acoplar estruturas de proteínas de tipo selvagem geradas por aprendizado profundo com outros algoritmos de análise de mutação para obter previsões mais precisas.

A boa notícia é que os biólogos estruturais não perderão o emprego tão cedo. Na verdade, eles agora podem dedicar mais tempo a outras questões urgentes na área. O biólogo estrutural Randy Read, da Universidade de Cambridge, no Reino Unido, observa, por exemplo, que as previsões de estrutura do AlphaFold2 já estão ajudando os cristalógrafos a acelerar drasticamente sua interpretação de dados, superando o tedioso ‘problema de fase’ – um desafio associado à interpretação de dados incompletos gerado em um experimento de difração de raios-X.

Os projetistas de proteínas também podem ver benefícios. Começar do zero – chamado de novo design de proteína – envolve modelos que são gerados computacionalmente, mas testados em laboratório. “Agora você pode usar o AlphaFold2 imediatamente para dobrá-lo”, diz Zhang. Esses resultados podem ser usados para retreinar os algoritmos de design para produzir resultados mais precisos em experimentos futuros.

Para AlQuraishi, essas possibilidades sugerem uma nova era na biologia estrutural, enfatizando a função da proteína em vez da forma. “Por muito tempo, a biologia estrutural esteve tão focada nas peças individuais que elevou esses lindos diagramas de fitas a quase um fim para si mesmos”, diz ele. “Agora eu acho que a biologia estrutural vai ganhar o componente de ‘biologia’ de seu nome.”


Publicado em 24/11/2021 08h50

Artigo original: