Usando Machine Learning para encontrar mutações em sequências de genoma semelhantes em amostras de câncer

Crédito CC0: domínio público

Uma equipe de pesquisadores que trabalha no Instituto Francis Crick desenvolveu uma maneira de encontrar mutações em regiões semelhantes do genoma de amostras de câncer. Em seu artigo publicado na revista Nature Biotechnology, o grupo descreve o uso de um algoritmo de Machine Learning para detectar mutações cancerosas em partes não únicas do genoma.

Como parte da história evolutiva humana, seções do genoma sofreram rearranjo e, em alguns casos, duplicação. Essas duplicações foram consideradas problemáticas ao tentar encontrar mutações. Os métodos de varredura atuais lançam sequências curtas que são identificadas como ambíguas, o que significa que segmentos do genoma que são muito semelhantes entre si não são incluídos em tais relatórios – e isso significa que quaisquer mutações serão perdidas. Neste novo esforço, os pesquisadores desenvolveram um meio para encontrar mutações em partes não únicas do genoma.

A abordagem envolveu primeiro o desenvolvimento de uma lista de regiões do genoma conhecidas por serem semelhantes a outras regiões e, então, usá-las para ensinar um algoritmo de Machine Learning a reconhecê-las. Os pesquisadores então usaram o algoritmo para detectar mutações em diferentes tecidos – 2.658 amostras do conjunto de dados Pan-Cancer Analysis of Whole Genome. Os pesquisadores descobriram mutações em 1.744 sequências codificantes, juntamente com milhares de outras mutações em sequências não codificantes. Eles também descobriram que seu algoritmo tinha uma taxa de descoberta falsa de aproximadamente 7% e uma taxa de validação de mais de 80%.

Os pesquisadores notaram que as mutações que envolviam sequências codificantes têm impacto nas sequências de proteínas, algumas das quais foram associadas a tipos de câncer. Eles também encontraram ocorrências de mutações que levaram a alterações nas proteínas, que também foram associadas a tipos específicos de câncer. Como um exemplo, eles encontraram uma mutação recorrente nos genes KMT2C e PIK3CA. Eles também encontraram mutações que foram associadas ao câncer de mama. E eles encontraram mutações que estão envolvidas em regiões regulatórias, incluindo algumas na família das imunoglobulinas.

Os pesquisadores sugerem que sua técnica pode ser usada por outras equipes como um meio de superar problemas com a negligência de mutações em regiões genéticas quase duplicadas.


Publicado em 23/07/2021 12h09

Artigo original:

Estudo original: