Algoritmo de Inteligência Artificial resolve desafios de biologia estrutural

Um novo algoritmo de inteligência artificial pode escolher a forma 3D de uma molécula de RNA a partir de formas incorretas. A previsão computacional das estruturas nas quais os RNAs se dobram é particularmente importante – e particularmente difícil – porque tão poucas estruturas são conhecidas. Crédito: Camille L.L. Townshend

Determinar as formas 3-D das moléculas biológicas é um dos problemas mais difíceis na biologia moderna e na descoberta médica. As empresas e instituições de pesquisa costumam gastar milhões de dólares para determinar uma estrutura molecular – e mesmo esses esforços massivos são frequentemente malsucedidos.

Usando novas técnicas de aprendizado de máquina inteligentes, a Universidade de Stanford Ph.D. os alunos Stephan Eismann e Raphael Townshend, sob a orientação de Ron Dror, professor associado de ciência da computação, desenvolveram uma abordagem que supera esse problema ao prever estruturas precisas computacionalmente.

Mais notavelmente, sua abordagem é bem-sucedida mesmo ao aprender com apenas algumas estruturas conhecidas, tornando-a aplicável aos tipos de moléculas cujas estruturas são mais difíceis de determinar experimentalmente.

Seu trabalho é demonstrado em dois artigos detalhando aplicações para moléculas de RNA e complexos multiproteicos, publicados na Science em 27 de agosto de 2021 e em Proteins em dezembro de 2020, respectivamente. O artigo da Science é uma colaboração com o laboratório de Stanford de Rhiju Das, professor associado de bioquímica.

“A biologia estrutural, que é o estudo das formas das moléculas, tem esse mantra de que a estrutura determina a função”, disse Townshend.

O algoritmo projetado pelos pesquisadores prevê estruturas moleculares precisas e, ao fazê-lo, pode permitir aos cientistas explicar como funcionam as diferentes moléculas, com aplicações que vão desde a pesquisa biológica fundamental até práticas informadas de design de drogas.

“As proteínas são máquinas moleculares que realizam todos os tipos de funções. Para executar suas funções, as proteínas muitas vezes se ligam a outras proteínas”, disse Eismann. “Se você sabe que um par de proteínas está implicado em uma doença e sabe como elas interagem em 3-D, você pode tentar direcionar essa interação muito especificamente com uma droga.”

Eismann e Townshend são co-autores do artigo da Science com o acadêmico de pós-doutorado de Stanford Andrew Watkins do laboratório Das, e também co-autores do artigo Proteins com o ex-Ph.D. de Stanford. estudante Nathaniel Thomas.

Projetando o algoritmo

Em vez de especificar o que torna uma previsão estrutural mais ou menos precisa, os pesquisadores permitem que o algoritmo descubra essas características moleculares por si mesmo. Eles fizeram isso porque descobriram que a técnica convencional de fornecer tal conhecimento pode influenciar um algoritmo a favor de certos recursos, impedindo-o de encontrar outros recursos informativos.

“O problema com esses recursos feitos à mão em um algoritmo é que o algoritmo se torna tendencioso em relação ao que a pessoa que escolhe esses recursos pensa que é importante, e você pode perder algumas informações que precisaria fazer melhor”, disse Eismann.

“A rede aprendeu a encontrar conceitos fundamentais que são essenciais para a formação da estrutura molecular, mas sem ser explicitamente instruída a fazê-lo”, disse Townshend. “O aspecto interessante é que o algoritmo recuperou claramente coisas que sabíamos ser importantes, mas também recuperou características que não conhecíamos antes.”

Tendo mostrado sucesso com proteínas, os pesquisadores aplicaram seu algoritmo a outra classe de moléculas biológicas importantes, os RNAs. Eles testaram seu algoritmo em uma série de “quebra-cabeças de RNA” de uma competição de longa data em seu campo e, em todos os casos, a ferramenta superou todos os outros participantes do quebra-cabeça e o fez sem ser projetada especificamente para estruturas de RNA.

Aplicações mais amplas

Os pesquisadores estão entusiasmados para ver onde mais sua abordagem pode ser aplicada, já tendo obtido sucesso com complexos de proteínas e moléculas de RNA.

“A maioria dos avanços dramáticos recentes no aprendizado de máquina exigiu uma quantidade enorme de dados para o treinamento. O fato de que esse método tenha sucesso com muito poucos dados de treinamento sugere que os métodos relacionados podem resolver problemas não resolvidos em muitos campos onde os dados são escassos”, disse Dror , que é autor sênior do artigo Proteins e, com Das, co-autor sênior do artigo Science.

Especificamente para a biologia estrutural, a equipe diz que está apenas arranhando a superfície em termos de progresso científico a ser feito.

“Depois de ter essa tecnologia fundamental, você está aumentando seu nível de compreensão em mais uma etapa e pode começar a fazer o próximo conjunto de perguntas”, disse Townshend. “Por exemplo, você pode começar a projetar novas moléculas e medicamentos com esse tipo de informação, que é uma área que deixa as pessoas muito entusiasmadas.”

Outros co-autores do artigo da Science incluem Stanford Ph.D. alunos Ramya Rangan e Maria Karelina. Outros co-autores do artigo Proteins incluem os ex-alunos de Stanford Milind Jagota e Bowen Jing.


Publicado em 29/08/2021 19h12

Artigo original:

Estudo original: