O Machine Learning descobre novas sequências para impulsionar a administração de medicamentos

Os pesquisadores do MIT combinaram a química experimental com a inteligência artificial para descobrir peptídeos não tóxicos e altamente ativos que podem ser anexados aos oligômeros de morfolino fosforodiamidato (PMO) para auxiliar na entrega de drogas. Ao desenvolver essas novas sequências, os pesquisadores esperam acelerar rapidamente o desenvolvimento de terapias genéticas para a distrofia muscular de Duchenne e outras doenças. Crédito: Massachusetts Institute of Technology

A distrofia muscular de Duchenne (DMD), uma doença genética rara geralmente diagnosticada em meninos, enfraquece gradualmente os músculos do corpo até o coração ou os pulmões falharem. Os sintomas geralmente aparecem aos 5 anos; conforme a doença progride, os pacientes perdem a capacidade de andar por volta dos 12 anos. Hoje, a expectativa de vida média para pacientes com DMD gira em torno de 26 anos.

Foi uma grande notícia, então, quando Cambridge, Massachusetts Sarepta Therapeutics anunciou em 2019 uma droga inovadora que tem como alvo direto o gene mutante responsável pela DMD. A terapia usa oligômeros antisense de fosforodiamidato morfolino (PMO), uma grande molécula sintética que permeia o núcleo da célula para modificar o gene da distrofina, permitindo a produção de uma proteína-chave que normalmente está ausente em pacientes com DMD. “Mas há um problema com o PMO por si só. Não é muito bom para entrar nas células”, diz Carly Schissel, uma Ph.D. candidato no Departamento de Química do MIT.

Para aumentar a entrega ao núcleo, os pesquisadores podem fixar peptídeos de penetração celular (CPPs) à droga, ajudando-a a atravessar a célula e as membranas nucleares para atingir seu alvo. Qual sequência de peptídeo é melhor para o trabalho, no entanto, continua sendo uma questão iminente.

Os pesquisadores do MIT desenvolveram agora uma abordagem sistemática para resolver esse problema combinando química experimental com inteligência artificial para descobrir peptídeos não tóxicos e altamente ativos que podem ser anexados ao PMO para auxiliar na entrega. Ao desenvolver essas novas sequências, eles esperam acelerar rapidamente o desenvolvimento de terapias genéticas para DMD e outras doenças.

Os resultados de seu estudo foram publicados na revista Nature Chemistry em um artigo liderado por Schissel e Somesh Mohapatra, um Ph.D. estudante do Departamento de Ciência e Engenharia de Materiais do MIT, que são os autores principais. Rafael Gomez-Bombarelli, professor assistente de ciência e engenharia de materiais, e Bradley Pentelute, professor de química, são os autores seniores do artigo. Outros autores incluem Justin Wolfe, Colin Fadzen, Kamela Bellovoda, Chia-Ling Wu, Jenna Wood, Annika Malmberg e Andrei Loas.

?Propor novos peptídeos com um computador não é muito difícil. Julgar se eles são bons ou não, isso é o que é difícil?, diz Gomez-Bombarelli. “A principal inovação é usar o aprendizado de máquina para conectar a sequência de um peptídeo, particularmente um peptídeo que inclui aminoácidos não naturais, à atividade biológica medida experimentalmente.”

Dados de sonho

Os CPPs são cadeias relativamente curtas, compostas de cinco a 20 aminoácidos. Enquanto um CPP pode ter um impacto positivo na entrega de medicamentos, vários interligados têm um efeito sinérgico no transporte de medicamentos até a linha de chegada. Essas cadeias mais longas, contendo de 30 a 80 aminoácidos, são chamadas de miniproteínas.

Antes que um modelo pudesse fazer previsões valiosas, os pesquisadores do lado experimental precisaram criar um conjunto de dados robusto. Ao misturar e combinar 57 peptídeos diferentes, Schissel e seus colegas foram capazes de construir uma biblioteca de 600 miniproteínas, cada uma ligada ao PMO. Com um ensaio, a equipe foi capaz de quantificar o quão bem cada miniproteína pode mover sua carga através da célula.

A decisão de testar a atividade de cada sequência, com o PMO já anexado, foi importante. Como qualquer medicamento provavelmente mudará a atividade de uma sequência de CPP, é difícil reaproveitar os dados existentes, e os dados gerados em um único laboratório, nas mesmas máquinas, pelas mesmas pessoas, atendem a um padrão ouro de consistência em aprendizado de máquina conjuntos de dados.

Um dos objetivos do projeto era criar um modelo que pudesse funcionar com qualquer aminoácido. Embora apenas 20 aminoácidos ocorram naturalmente no corpo humano, centenas mais existem em outros lugares – como um pacote de expansão de aminoácidos para o desenvolvimento de medicamentos. Para representá-los em um modelo de aprendizado de máquina, os pesquisadores normalmente usam a codificação one-hot, um método que atribui cada componente a uma série de variáveis binárias. Três aminoácidos, por exemplo, seriam representados como 100, 010 e 001. Para adicionar novos aminoácidos, o número de variáveis precisaria aumentar, o que significa que os pesquisadores estariam presos tendo que reconstruir seu modelo a cada adição.

Em vez disso, a equipe optou por representar os aminoácidos com impressão digital topológica, o que é essencialmente criar um código de barras exclusivo para cada sequência, com cada linha no código de barras denotando a presença ou ausência de uma subestrutura molecular específica. ?Mesmo que o modelo não tenha visto [uma sequência] antes, podemos representá-lo como um código de barras, o que é consistente com as regras que o modelo viu?, diz Mohapatra, que liderou os esforços de desenvolvimento do projeto. Ao usar esse sistema de representação, os pesquisadores foram capazes de expandir sua caixa de ferramentas de possíveis sequências.

A equipe treinou uma rede neural convolucional na biblioteca de miniproteínas, com cada uma das 600 miniproteínas marcadas com sua atividade, indicando sua capacidade de permear a célula. No início, o modelo propunha miniproteínas carregadas de arginina, um aminoácido que rasga um orifício na membrana celular, o que não é ideal para manter as células vivas. Para resolver esse problema, os pesquisadores usaram um otimizador para descentrar a arginina, evitando que o modelo trapaceie.

No final, a capacidade de interpretar as previsões propostas pelo modelo foi fundamental. ?Normalmente não é suficiente ter uma caixa preta, porque os modelos podem estar se fixando em algo que não é correto ou porque podem estar explorando um fenômeno de maneira imperfeita?, diz Gomez-Bombarelli.

Nesse caso, os pesquisadores poderiam sobrepor as previsões geradas pelo modelo com o código de barras que representa a estrutura da sequência. “Fazer isso destaca certas regiões que o modelo acredita que desempenham o maior papel na alta atividade”, diz Schissel. “Não é perfeito, mas dá a você regiões focadas para brincar. Essa informação definitivamente nos ajudaria no futuro a projetar novas sequências empiricamente.”

Aumento de entrega

Em última análise, o modelo de aprendizado de máquina propôs sequências que eram mais eficazes do que qualquer variante conhecida anteriormente. Um em particular pode aumentar a entrega de PMO em 50 vezes. Ao injetar em ratos essas sequências sugeridas por computador, os pesquisadores validaram suas previsões e demonstraram que as miniproteínas não são tóxicas.

É muito cedo para dizer como esse trabalho afetará os pacientes no futuro, mas uma melhor aplicação de PMO será benéfica de várias maneiras. Se os pacientes forem expostos a níveis mais baixos da droga, eles podem sentir menos efeitos colaterais, por exemplo, ou precisar de doses menos frequentes (o PMO é administrado por via intravenosa, geralmente semanalmente). O tratamento também pode se tornar menos caro. Como prova do conceito, ensaios clínicos recentes demonstraram que um CPP proprietário da Sarepta Therapeutics poderia diminuir a exposição ao PMO em 10 vezes. Além disso, o PMO não é o único medicamento que pode ser melhorado por miniproteínas. Em experimentos adicionais, as miniproteínas geradas por modelo transportaram outras proteínas funcionais para a célula.

Percebendo uma desconexão entre o trabalho dos pesquisadores de aprendizado de máquina e dos químicos experimentais, Mohapatra postou o modelo no GitHub, junto com um tutorial para experimentalistas que têm sua própria lista de sequências e atividades. Ele observa que mais de uma dúzia de pessoas em todo o mundo adotaram o modelo até agora, reaproveitando-o para fazer suas próprias previsões poderosas para uma ampla gama de drogas.


Publicado em 12/08/2021 01h57

Artigo original:

Estudo original: