Um serralheiro digital decodificou as chaves moleculares da biologia

CAPTION

As redes neurais foram ensinadas a ler rapidamente as superfícies das proteínas – moléculas críticas para muitos processos biológicos. O avanço já está sendo usado para criar defesas contra o vírus responsável pelo COVID-19.

O biólogo computacional Bruno Correia costumava ter uma regra em seu laboratório: nenhum aprendizado de máquina é permitido. Ele não considerou a ciência real. Agora, Correia o usou para detectar possíveis interações entre proteínas – as moléculas complexas dobradas responsáveis por muitos processos biológicos – 40.000 vezes mais rápido que os métodos convencionais. A revista Nature Methods apresentou seu sistema em sua capa em fevereiro de 2020. Correia disse sobre sua relutância em adotar o aprendizado de máquina: “Eu estava errado e estou feliz por estar errado”.

O que mudou de idéia? Aprendizado profundo geométrico: um subcampo emergente de inteligência artificial que pode aprender padrões em superfícies curvas.

As proteínas interagem ajustando suas formas irregulares e irregulares, como peças de quebra-cabeça tridimensionais. Os pesquisadores passaram décadas tentando descobrir como eles fazem isso. O conhecido problema de dobragem de proteínas, que desafia os cientistas desde meados do século 20, tenta entender a interação de proteínas decodificando a ligação entre os aminoácidos constituintes de uma proteína e sua forma 3D final. Em 1999, a IBM começou a desenvolver sua linha de supercomputadores Blue Gene para resolver o problema das dobras; 20 anos depois, o DeepMind aplicou algoritmos avançados de aprendizado profundo a ele.

O sistema de Correia, chamado MaSIF (abreviação de impressão digital de interação da superfície molecular), evita a complexidade inerente ao formato 3D de uma proteína ignorando a estrutura interna das moléculas. Em vez disso, o sistema varre a superfície 2D da proteína em busca do que os pesquisadores chamam de impressões digitais de interação: recursos aprendidos por uma rede neural que indicam que outra proteína pode se ligar a ela. “A idéia [é que, quando] quaisquer duas moléculas se juntam, o que elas essencialmente se apresentam é a superfície. Então é tudo o que você precisa “, disse Mohammed AlQuraishi, pesquisador de proteínas da Harvard Medical School que também usa aprendizado profundo. “É muito, muito inovador.”

A estrutura focada na superfície do MaSIF para prever interações proteicas pode ajudar a acelerar o chamado design de proteínas de novo, que tenta sintetizar proteínas úteis a partir do zero, em vez de depender da variedade que ocorre naturalmente. Mas também pode ser usado para biologia básica, disse Michael Bronstein, especialista em geometria profunda do Imperial College de Londres, que ajudou a desenvolver o sistema. “Como o câncer afeta as propriedades das proteínas?” ele disse. “Você pode perguntar se as mutações resultantes do câncer destroem algo na proteína que as faz funcionar de maneira diferente, não se vinculando ao que deveriam. [MaSIF] poderia responder a perguntas fundamentais.”

Skin Deep

Se você quiser entender como o aprendizado profundo pode criar impressões digitais de proteínas, Bronstein sugere observar as câmeras digitais desde o início dos anos 2000. Esses modelos tinham algoritmos de detecção de rosto que faziam um trabalho relativamente simples. “Você só precisa detectar que existe um rosto” – olhos, nariz, boca – “independentemente de ter um nariz comprido ou um nariz curto, lábios gordos ou lábios finos”, explicou.

As câmeras modernas são mais versáteis. Eles podem identificar uma pessoa em particular, permitindo que você pesquise rapidamente em sua biblioteca de fotos para encontrar todas as fotos em que estão.

Esse avanço foi possível graças às redes neurais profundas, que deram aos computadores uma maneira de aprender os recursos sutis de um indivíduo a partir de dados de treinamento. O processo envolve alimentar muitas instâncias de uma determinada face da rede e rotulá-las todas como a mesma pessoa. Você não precisa informar com antecedência ao computador qual mistura exata de atributos (olhos verdes, sobrancelhas arregaladas, cabelos pretos) se encaixa de alguma forma no seu rosto e não no de outra pessoa. Em vez disso, com exemplos suficientes e devidamente rotulados, a rede aprende a própria distinção.

O MaSIF faz o mesmo com as proteínas. As abordagens anteriores para impressões digitais de interação eram como os algoritmos básicos de detecção de faces. Eles exigiram que os pesquisadores definissem certos padrões geométricos com antecedência – digamos, um adesivo irregular na superfície de uma proteína com uma forma e tamanho específicos – e depois procurassem por correspondências. O MaSIF, por outro lado, começa com algumas características básicas da superfície conhecidas por estarem associadas a interações proteicas: por exemplo, a curvatura física da superfície (em um botão ou bolso), sua carga elétrica e se repele ou atrai água. Em seguida, durante o treinamento, a rede aprende como combinar esses recursos em impressões digitais que detectam diferentes padrões de nível superior.

Até recentemente, esse tipo de aprendizado de máquina não podia ser usado nas superfícies curvas e irregulares das proteínas. A ascensão do aprendizado profundo geométrico abriu a possibilidade. Correia credita a Bronstein que chamou a atenção pelo método durante uma colaboração de duas semanas na casa de Bronstein em fevereiro de 2018. “Era totalmente ele”, disse Correia, que trabalha na École Polytechnique Fédérale de Lausanne. “Nossos descritores artesanais não estavam indo a lugar algum.”

Uma versão do sistema, chamada MaSIF-site, pode examinar toda a superfície de uma proteína e prever onde é mais provável que outra proteína se ligue, uma abordagem semelhante à pintura de um alvo em uma tela curva. “É o que gostamos de chamar de problema do corpo único”, disse Correia. “Você pode pensar nisso como uma maneira de entender onde estão os locais funcionais de uma determinada proteína”. O site MaSIF teve um desempenho aproximadamente 25% melhor nessa tarefa do que dois preditores principais de interação no site.

Outra versão do sistema, chamada MaSIF-search, aborda o que Correia chama de problema muitos-para-muitos: em vez de prever como uma proteína se encaixará em uma molécula-alvo (como normalmente acontece nas simulações de encaixe), o sistema compara a interação impressões digitais de muitas proteínas para muitas outras, procurando ajustes. (“Em uma célula, você tem 10.000 proteínas e muitas delas se chocam o tempo todo”, explicou Correia.) Nesta tarefa, o MaSIF não superou um dos principais preditores de acoplamento molecular; encontrou cerca de metade do potencial de ajustes em um conjunto aleatório de 100 proteínas. Mas o indicador de ancoragem precisava de aproximadamente 100 dias de tempo de computação para realizar sua pesquisa. O MaSIF levou quatro minutos.

Essa enorme aceleração “abre possibilidades interessantes” para a pesquisa básica, disse Bronstein. Afinal, no corpo humano, as proteínas formam redes funcionais compreendendo dezenas de milhares de interações. “A construção desses gráficos leva muito tempo”, disse Bronstein. “Com métodos [como MaSIF], pode ser apenas uma aproximação, mas permite que você construa pelo menos alguma versão aproximada dessas redes de proteína para proteína para qualquer organismo.”

AlQuraishi observou que, embora a abordagem superficial da MaSIF para prever interações proteicas fizesse sentido, ela não foi capaz de capturar um fenômeno chamado ajuste induzido: a maneira como as superfícies moleculares mudam de forma (e química) quando se aproximam. Em outras palavras, as superfícies de duas proteínas podem não exibir impressões digitais complementares até que elas já estejam quase se tocando – um fator que o MaSIF sentirá falta, pois o ajuste induzido depende da estrutura abaixo da superfície de uma proteína. “O que a evolução provavelmente está otimizando é justamente esse ajuste induzido”, disse AlQuraishi. “O que é surpreendente no [MaSIF] é que, mesmo com essa ressalva, ele ainda funciona muito bem.”

Incorporar o ajuste induzido e outras dinâmicas de superfície no MaSIF é algo que Correia planeja explorar. “Para mim, é a última fronteira da compreensão da função [da proteína]”, disse ele. “Provavelmente é assim que vou passar meus próximos 10 anos.” Mas, no momento, ele tem outros assuntos urgentes: usar o MaSIF para escanear as proteínas em forma de espinhos que atingem a superfície do SARS-CoV-2, o vírus que causa o COVID-19. “Estamos tentando ver quais são as impressões digitais desse vírus”, disse ele. “Parece que o vírus tem alguns lugares onde podemos tentar atacá-lo, além dos que já sabíamos.” Correia já está usando essas informações sobre o SARS-CoV-2 para sintetizar proteínas antivirais do zero; ele espera publicar resultados este ano. “Se pudéssemos projetar novas proteínas com base nas impressões digitais da superfície da proteína viral, a fim de inibir a maneira como o vírus invade as células hospedeiras, isso seria bastante emocionante”, disse ele. “É isso que me tira da cama.”


Publicado em 07/06/2020 14h15

Artigo original:


Achou importante? Compartilhe!


Assine nossa newsletter e fique informado sobre Astrofísica, Biofísica, Geofísica e outras áreas. Preencha seu e-mail no espaço abaixo e clique em “OK”: