Acelerando a descoberta de medicamentos com a IA por trás do ChatGPT – triagem de 100 milhões de compostos por dia

Pesquisadores do MIT e da Tufts University desenvolveram um novo modelo de IA chamado ConPLex que acelera enormemente a descoberta de medicamentos ao prever as interações entre medicamentos e proteínas sem a necessidade de calcular as estruturas das moléculas. O modelo pode rastrear mais de 100 milhões de compostos em um único dia, o que pode reduzir significativamente as taxas e os custos de falha no desenvolvimento de medicamentos. Imagem via Unsplash

#ChatGPT 

Aplicando um modelo de linguagem para interações proteína-medicamento, os pesquisadores podem rastrear rapidamente grandes bibliotecas de potenciais compostos de medicamentos.

Enormes bibliotecas de compostos de medicamentos podem conter tratamentos potenciais para uma variedade de doenças, como câncer ou doenças cardíacas. Idealmente, os cientistas gostariam de testar experimentalmente cada um desses compostos contra todos os alvos possíveis, mas fazer esse tipo de triagem é proibitivamente demorado.

Nos últimos anos, os pesquisadores começaram a usar métodos computacionais para rastrear essas bibliotecas na esperança de acelerar a descoberta de medicamentos. No entanto, muitos desses métodos também levam muito tempo, pois a maioria deles calcula a estrutura tridimensional de cada proteína-alvo a partir de sua sequência de aminoácidos e, em seguida, usa essas estruturas para prever com quais moléculas de medicamentos ela irá interagir.

Pesquisadores do MIT e da Tufts University desenvolveram uma abordagem computacional alternativa baseada em um tipo de algoritmo de inteligência artificial conhecido como modelo de linguagem grande. Esses modelos – um exemplo bem conhecido é o ChatGPT – podem analisar grandes quantidades de texto e descobrir quais palavras (ou, neste caso, aminoácidos) têm maior probabilidade de aparecer juntas. O novo modelo, conhecido como ConPLex, pode combinar proteínas-alvo com potenciais moléculas de medicamentos sem ter que executar a etapa computacionalmente intensiva de calcular as estruturas das moléculas.

Usando esse método, os pesquisadores podem rastrear mais de 100 milhões de compostos em um único dia – muito mais do que qualquer modelo existente.

“Este trabalho aborda a necessidade de triagem in silico eficiente e precisa de potenciais candidatos a medicamentos, e a escalabilidade do modelo permite telas em larga escala para avaliar efeitos fora do alvo, reaproveitamento de medicamentos e determinar o impacto de mutações na ligação de medicamentos”, disse. diz Bonnie Berger, a professora Simons de Matemática, chefe do grupo de Computação e Biologia do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT e uma das autoras seniores do novo estudo.

Lenore Cowen, professora de ciência da computação na Tufts University, também é autora sênior do artigo, publicado em 8 de junho na revista Proceedings of the National Academy of Sciences. Rohit Singh, cientista pesquisador do CSAIL, e Samuel Sledzieski, aluno de pós-graduação do MIT, são os principais autores do artigo, e Bryan Bryson, professor associado de engenharia biológica no MIT e membro do Ragon Institute of MGH, MIT e Harvard, também é autor. Além do artigo, os pesquisadores disponibilizaram seu modelo online para uso de outros cientistas.

Fazendo previsões

Nos últimos anos, os cientistas da computação fizeram grandes avanços no desenvolvimento de modelos que podem prever as estruturas das proteínas com base em suas sequências de aminoácidos. No entanto, usar esses modelos para prever como uma grande biblioteca de medicamentos em potencial pode interagir com uma proteína cancerígena, por exemplo, tem se mostrado desafiador, principalmente porque o cálculo das estruturas tridimensionais das proteínas requer muito tempo e poder de computação.

Um obstáculo adicional é que esses tipos de modelos não têm um bom histórico de eliminação de compostos conhecidos como chamarizes, que são muito semelhantes a um medicamento bem-sucedido, mas na verdade não interagem bem com o alvo.

“Um dos desafios de longa data no campo é que esses métodos são frágeis, no sentido de que se eu desse ao modelo um medicamento ou uma pequena molécula que parecesse quase verdadeira, mas fosse ligeiramente diferente de alguma maneira sutil, o modelo ainda pode prever que eles vão interagir, mesmo que não deva”, diz Singh.

Os pesquisadores projetaram modelos que podem superar esse tipo de fragilidade, mas geralmente são adaptados para apenas uma classe de moléculas de medicamentos e não são adequados para telas de grande escala porque os cálculos demoram muito.

A equipe do MIT decidiu adotar uma abordagem alternativa, com base em um modelo de proteína desenvolvido pela primeira vez em 2019. Trabalhando com um banco de dados de mais de 20.000 proteínas, o modelo de linguagem codifica essas informações em representações numéricas significativas de cada sequência de aminoácidos que capturam associações entre sequência e estrutura.

“Com esses modelos de linguagem, mesmo as proteínas que têm sequências muito diferentes, mas potencialmente têm estruturas ou funções semelhantes, podem ser representadas de maneira semelhante nesse espaço de linguagem, e podemos aproveitar isso para fazer nossas previsões”, Sledzieski diz.

Em seu novo estudo, os pesquisadores aplicaram o modelo de proteína para a tarefa de descobrir quais sequências de proteínas irão interagir com moléculas de medicamentos específicas, ambas com representações numéricas que são transformadas em um espaço comum e compartilhado por uma rede neural. Eles treinaram a rede em interações proteína-medicamento conhecidas, o que permitiu aprender a associar características específicas das proteínas com a capacidade de ligação de medicamentos, sem ter que calcular a estrutura 3D de nenhuma das moléculas.

“Com essa representação numérica de alta qualidade, o modelo pode causar um curto-circuito na representação atômica inteiramente e, a partir desses números, prever se esse medicamento se ligará ou não”, diz Singh. “A vantagem disso é que você evita a necessidade de passar por uma representação atômica, mas os números ainda têm todas as informações de que você precisa.”

Outra vantagem dessa abordagem é que ela leva em consideração a flexibilidade das estruturas das proteínas, que podem ser “onduladas” e assumir formas ligeiramente diferentes ao interagir com uma molécula de medicamento.

Alta afinidade

Para tornar seu modelo menos propenso a ser enganado por moléculas de medicamentos chamariz, os pesquisadores também incorporaram um estágio de treinamento baseado no conceito de aprendizado contrastivo. Sob essa abordagem, os pesquisadores dão ao modelo exemplos de medicamentos e impostores “reais” e o ensinam a distinguir entre eles.

Os pesquisadores então testaram seu modelo examinando uma biblioteca de cerca de 4.700 moléculas de medicamentos candidatas quanto à sua capacidade de se ligar a um conjunto de 51 enzimas conhecidas como proteínas quinases.

Dos principais resultados, os pesquisadores escolheram 19 pares de medicamentos e proteínas para testar experimentalmente. Os experimentos revelaram que dos 19 hits, 12 tinham forte afinidade de ligação (na faixa nanomolar), enquanto quase todos os outros possíveis pares de medicamentos e proteínas não teriam afinidade. Quatro desses pares se ligam com afinidade subnanomolar extremamente alta (tão forte que uma pequena concentração de medicamento, da ordem de partes por bilhão, inibe a proteína).

Enquanto os pesquisadores se concentraram principalmente na triagem de medicamentos de moléculas pequenas neste estudo, eles agora estão trabalhando na aplicação dessa abordagem a outros tipos de medicamentos, como anticorpos terapêuticos. Esse tipo de modelagem também pode ser útil para executar telas de toxicidade de possíveis compostos de medicamentos, para garantir que eles não tenham efeitos colaterais indesejados antes de testá-los em modelos animais.

“Parte da razão pela qual a descoberta de medicamentos é tão cara é porque tem altas taxas de falha. Se pudermos reduzir essas taxas de falha dizendo de antemão que esse medicamento provavelmente não funcionará, isso poderá ajudar muito a reduzir o custo da descoberta de medicamentos “, diz Singh.

Essa nova abordagem “representa um avanço significativo na previsão de interação medicamento-alvo e abre oportunidades adicionais para pesquisas futuras para aprimorar ainda mais suas capacidades”, diz Eytan Ruppin, chefe do Laboratório de Ciência de Dados do Câncer do Instituto Nacional do Câncer, que não esteve envolvido no estudo. “Por exemplo, incorporar informações estruturais no espaço latente ou explorar métodos de geração molecular para gerar chamarizes pode melhorar ainda mais as previsões”.


Publicado em 25/06/2023 11h51

Artigo original: