Quando os cientistas declararam o Projeto Genoma Humano completo há duas décadas, seu anúncio foi um pouco prematuro. Uma conquista histórica certamente foi alcançada, com pesquisadores de todo o mundo obtendo acesso à sequência de DNA da maioria dos genes codificadores de proteínas no genoma humano. Mas mesmo após 20 anos de atualizações, 8% do nosso genoma ainda não foi sequenciado e estudado. Ridicularizado por alguns como “DNA lixo” sem função clara, cerca de 151 milhões de pares de bases de dados de sequência espalhados por todo o genoma ainda eram uma caixa preta.
Agora, uma grande equipe internacional liderada por Adam Phillippy no National Institutes of Health revelou os oito por cento finais do genoma humano em um artigo publicado na Science. Esses pedaços desaparecidos do nosso genoma contêm mais do que mero lixo. Dentro dos novos dados estão misteriosos bolsões de DNA não codificante que não produzem proteínas, mas ainda desempenham papéis cruciais em muitas funções celulares e podem estar no centro de condições nas quais a divisão celular ocorre descontroladamente, como o câncer.
“Você pensaria que, com 92% do genoma concluído há muito tempo, outros 8% não contribuiriam muito”, diz Erich D. Jarvis, da Rockefeller, coautor do estudo que ajudou a desenvolver várias técnicas centrais para desvendar o resultado final. pedaços do genoma humano. “Mas a partir dos oito por cento que faltam, agora estamos ganhando uma compreensão totalmente nova de como as células se dividem, permitindo-nos estudar uma série de doenças que não tínhamos conseguido antes”.
Nos ombros do HGP
O Projeto Genoma Humano essencialmente nos entregou as chaves para a eucromatina, a maior parte do genoma humano, que é rico em genes, empacotado de forma frouxa e ocupado em fazer RNA que mais tarde será traduzido em proteína. Deixado intocado, no entanto, havia um labirinto de heterocromatina repetitiva e bem enrolada – uma porção menor do genoma, que não produz proteína.
Os cientistas tinham boas razões para inicialmente despriorizar a heterocromatina. As regiões eucromáticas continham mais genes e eram mais simples de sequenciar. Assim como um quebra-cabeça com peças distintas é mais fácil de montar do que um quebra-cabeça composto de peças semelhantes, as ferramentas genômicas da época achavam o DNA eucromático mais fácil de analisar do que seu primo repetitivo e heterocromático.
Como resultado, os geneticistas ficaram com uma lacuna considerável em seu conhecimento sobre o que impulsiona algumas funções celulares básicas. As sequências heterocromáticas por trás dos centrômeros, que se encontram nos pontos cruciais dos cromossomos e conduzem a divisão celular, foram todas marcadas com longas sequências de N para “base desconhecida” no genoma de referência humano. As sequências dos braços curtos dos cromossomos 13, 14, 15, 21 e 22 também foram omitidas. “Nem todo o genoma eucromático foi sequenciado corretamente”, acrescenta Jarvis. “Erros, como duplicações falsas, precisavam ser corrigidos.”
Então, cerca de dez anos atrás, os cientistas começaram a desenvolver novas técnicas para produzir leituras de sequências mais longas que preenchiam lacunas nos genomas de humanos e outras espécies. Uma dessas iniciativas é o Vertebrate Genomes Project, dirigido por Jarvis, que recentemente produziu os primeiros genomas de referência quase sem erros e quase completos para 25 animais. “Esse estudo foi parte de um esforço internacional para desenvolver novas ferramentas que produzam os conjuntos de genes da mais alta qualidade”, diz ele. “Em comparação com os métodos que foram usados há vinte anos, a genômica moderna tem leituras longas de alta fidelidade que são 99,9% precisas, melhores ferramentas de montagem de genoma e algoritmos mais poderosos que são melhores para distinguir peças de quebra-cabeça de aparência semelhante umas das outras.”
Com ferramentas atualizadas e determinação renovada, Jarvis e outros cientistas foram capazes de ajudar a terminar o que o Projeto Genoma Humano começou e descrever, finalmente, um genoma humano verdadeiramente completo – suas regiões eucromáticas revisadas e suas regiões heterocromáticas em plena exibição.
“É um grande negócio”, diz Jarvis. “Cada par de bases de um genoma humano está agora completo.”
Conhecendo Merfin
O principal estudo da Science foi liderado pelo Consórcio Telomere-to-Telomere (T2T), um grupo de pesquisadores de várias instituições acadêmicas e do NIH. A contribuição do laboratório Jarvis, publicada na Nature Methods, envolveu o fornecimento de ferramentas para ajudar o T2T a refinar sequências de genoma confusas para produzir sequências sem erros.
Uma dessas ferramentas é o Merfin, que eles usaram para limpar algumas das sequências mais difíceis do genoma humano. “Os genomas que geramos no laboratório podem conter muitos erros”, diz Giulio Formenti, um pós-doc no laboratório de Jarvis que desenvolveu o Merfin. “Se apenas um ou alguns pares de bases estiverem errados, isso pode ter grandes consequências para a precisão geral da sequência genômica”. O Merfin possibilita testar a precisão de uma sequência, detectando códigos que podem estar fora do lugar e corrigindo erros automaticamente. Como as tecnologias que geram sequências modernas são mais precisas, o Merfin é reservado apenas para os casos mais complicados.
“Os trechos de pares de bases idênticos, como AAA, são difíceis de serem avaliados pela tecnologia existente”, diz Formenti. “Muitas vezes há erros nessas sequências, mesmo agora. Merfin os corrige.”
Jarvis e Formenti esperam que sua contribuição não apenas ajude a amarrar o Projeto Genoma Humano, mas também informe pesquisas sobre doenças ligadas ao genoma heterocromático – a principal delas o câncer, que está associado a anormalidades do centrômero. As células cancerosas se dividem descontroladamente quando certos genes heterocromáticos do centrômero são superexpressos, e uma compreensão completa do genoma do centrômero pode abrir as portas para novas terapias.
“Estamos finalmente investigando o que antes chamamos de DNA lixo, porque não conseguimos entendê-lo ou analisá-lo com precisão”, diz Formenti. “Agora sabemos que muitas doenças estão ligadas a repetições estruturais no centrômero e, agora que essas sequências não estão mais ausentes do genoma de referência humano, podemos começar a mapear as origens dessas doenças”.
Outros co-autores do estudo Merfin são: Arang Rhie, Brian P. Walenz, Françoise Thibaud-Nissen, Kishwar Shafin, Sergey Koren, Eugene W. Myers e Adam M. Phillippy.
Publicado em 02/04/2022 19h45
Artigo original:
Estudo original: