doi.org/10.48550/arXiv.2307.00494
Credibilidade: 898
#Proteína
Para projetar proteínas com funções úteis, os pesquisadores geralmente começam com uma proteína natural que tem uma função desejável, como emitir luz fluorescente, e a submetem a muitas rodadas de mutação aleatória que eventualmente geram uma versão otimizada da proteína.
Este processo produziu versões otimizadas de muitas proteínas importantes, incluindo a proteína verde fluorescente (GFP).
No entanto, para outras proteínas, tem sido difícil gerar uma versão otimizada.
Os pesquisadores do MIT desenvolveram agora uma abordagem computacional que torna mais fácil prever mutações que levarão a proteínas melhores, com base em uma quantidade relativamente pequena de dados.
Usando este modelo, os investigadores geraram proteínas com mutações que se previa levarem a versões melhoradas da GFP e uma proteína do vírus adeno-associado (AAV), que é utilizada para fornecer DNA para terapia genética.
Eles esperam que também possa ser usado para desenvolver ferramentas adicionais para pesquisas em neurociências e aplicações médicas.
“O design de proteínas é um problema difícil porque o mapeamento da sequência de DNA até a estrutura e função da proteína é realmente complexo.
Pode haver uma grande proteína a 10 alterações de distância na sequência, mas cada alteração intermediária pode corresponder a uma proteína totalmente não funcional.
É como tentar encontrar o caminho para a bacia hidrográfica de uma cordilheira, quando há picos escarpados ao longo do caminho que bloqueiam sua visão.
O trabalho atual tenta tornar o leito do rio mais fácil de encontrar”, diz Ila Fiete, professora de ciências cerebrais e cognitivas do MIT, membro do Instituto McGovern de Pesquisa do Cérebro do MIT, diretora do Centro de Neurociência Computacional Integrativa K.
Lisa Yang, e um dos autores seniores do estudo.
Regina Barzilay, professora ilustre da Escola de Engenharia de IA e Saúde do MIT, e Tommi Jaakkola, professor Thomas Siebel de Engenharia Elétrica e Ciência da Computação do MIT, também são autores seniores de um artigo de acesso aberto sobre o trabalho, que será apresentado na Conferência Internacional sobre Representações de Aprendizagem em maio.
Os estudantes de pós-graduação do MIT, Andrew Kirjner e Jason Yim, são os principais autores do estudo.
Outros autores incluem Shahar Bracha, pós-doutorado no MIT, e Raman Samusevich, estudante de graduação na Universidade Técnica Tcheca.
Otimizando proteínas Muitas proteínas que ocorrem naturalmente têm funções que poderiam torná-las úteis para pesquisas ou aplicações médicas, mas precisam de um pouco mais de engenharia para otimizá-las.
Neste estudo, os pesquisadores estavam originalmente interessados em desenvolver proteínas que pudessem ser usadas em células vivas como indicadores de voltagem.
Essas proteínas, produzidas por algumas bactérias e algas, emitem luz fluorescente quando um potencial elétrico é detectado.
Se projetadas para uso em células de mamíferos, essas proteínas poderiam permitir aos pesquisadores medir a atividade dos neurônios sem o uso de eletrodos.
Embora décadas de pesquisa tenham sido dedicadas à engenharia dessas proteínas para produzir um sinal fluorescente mais forte, em uma escala de tempo mais rápida, elas não se tornaram eficazes o suficiente para uso generalizado.
Bracha, que trabalha no laboratório de Edward Boyden no Instituto McGovern, procurou o laboratório de Fiete para ver se eles poderiam trabalhar juntos em uma abordagem computacional que pudesse ajudar acelerando o processo de otimização das proteínas.
“Este trabalho exemplifica o acaso humano que caracteriza tantas descobertas científicas”, diz Fiete.
“Ele surgiu do retiro Yang Tan Collective, um encontro científico de pesquisadores de vários centros do MIT com missões distintas unificadas pelo apoio compartilhado de K.
Lisa Yang.
Aprendemos que alguns de nossos interesses e ferramentas na modelagem de como os cérebros aprendem e otimizam poderiam ser aplicados no domínio totalmente diferente do design de proteínas, como é praticado no laboratório Boyden.” Para qualquer proteína que os pesquisadores possam querer otimizar, há um número quase infinito de sequências possíveis que poderiam ser geradas pela troca de diferentes aminoácidos em cada ponto da sequência.
Com tantas variantes possíveis, é impossível testar todas elas experimentalmente, por isso os pesquisadores recorreram à modelagem computacional para tentar prever quais funcionarão melhor.
Neste estudo, os investigadores decidiram superar esses desafios, utilizando dados da GFP para desenvolver e testar um modelo computacional que pudesse prever melhores versões da proteína.
Eles começaram treinando um tipo de modelo conhecido como rede neural convolucional (CNN) em dados experimentais que consistem em sequências GFP e seu brilho – o recurso que eles queriam otimizar.
O modelo foi capaz de criar um “paisagem de aptidão? – um mapa tridimensional que representa a aptidão de uma determinada proteína e o quanto ela difere da sequência original – com base em uma quantidade relativamente pequena de dados experimentais (de cerca de 1.000 variantes de GFP).
Estas paisagens contêm picos que representam proteínas mais aptas e vales que representam proteínas menos aptas.
Prever o caminho que uma proteína precisa seguir para atingir os picos de aptidão pode ser difícil, porque muitas vezes uma proteína precisará passar por uma mutação que a torna menos apta antes de atingir um pico próximo de maior aptidão. Para superar esse problema, os pesquisadores usaram uma técnica computacional existente para “suavizar? o cenário do fitness.
Depois que essas pequenas saliências na paisagem foram suavizadas, os pesquisadores treinaram novamente o modelo da CNN e descobriram que ele era capaz de atingir picos de aptidão maiores com mais facilidade.
O modelo foi capaz de prever sequências GFP otimizadas que tinham até sete aminoácidos diferentes da sequência proteica com a qual começaram, e estima-se que a melhor dessas proteínas seja cerca de 2,5 vezes mais apta do que a original.
“Assim que tivermos essa paisagem que representa o que o modelo pensa estar próximo, nós a suavizamos e depois treinamos novamente o modelo na versão mais suave da paisagem”, diz Kirjner.
“Agora existe um caminho suave do ponto de partida até o topo, que o modelo agora é capaz de alcançar fazendo pequenas melhorias de forma iterativa.
O mesmo é muitas vezes impossível para paisagens não suavizadas.” Prova de conceito Os investigadores também mostraram que esta abordagem funcionou bem na identificação de novas sequências para a cápside viral do vírus adeno-associado (AAV), um vector viral que é normalmente utilizado para entregar DNA.
Nesse caso, eles otimizaram o capsídeo pela sua capacidade de empacotar uma carga útil de DNA.
“Usamos GFP e AAV como prova de conceito para mostrar que este é um método que funciona em conjuntos de dados muito bem caracterizados e, por isso, deve ser aplicável a outros problemas de engenharia de proteínas”, diz Bracha.
.
Os pesquisadores agora planejam usar essa técnica computacional em dados que Bracha vem gerando em proteínas indicadoras de voltagem.
“Dezenas de laboratórios trabalham nisso há duas décadas e ainda não há nada melhor”, diz ela.
“A esperança é que agora, com a geração de um conjunto de dados menor, possamos treinar um modelo in silico e fazer previsões que possam ser melhores do que as últimas duas décadas de testes manuais.”
Publicado em 05/04/2024 07h58
Artigo original:
Estudo original: