Análise de genomas humanos disponíveis na nuvem

Representação artística de Cloud Computing

A maioria dos softwares de bioinformática usados ??para análise genômica é de natureza experimental e possui uma taxa de falhas relativamente alta. Além disso, a própria infraestrutura de nuvem, quando executada em escala, é propensa a falhas no sistema. Esses contratempos significam que a análise de grandes dados biomédicos pode demorar muito tempo e gerar custos enormes. Para resolver esses problemas, Sergei Yakneen, Jan Korbel e colegas da EMBL desenvolveram um sistema que identifica e corrige falhas de forma eficiente.

Os pesquisadores que realizam análises na nuvem precisam de um número de habilidades tecnológicas, desde a configuração de grandes grupos de máquinas e o carregamento de software até o gerenciamento de redes, segurança de dados e recuperação eficiente de falhas. Butler ajuda os pesquisadores a dominar esses novos domínios, oferecendo ferramentas apropriadas que superam todos esses desafios.

Economizando tempo verificando o pulso do sistema

Butler difere de outros sistemas de fluxo de trabalho de bioinformática porque coleta constantemente métricas de integridade de todos os componentes do sistema, por exemplo, a Unidade Central de Processamento (CPU), memória ou espaço em disco. Seus módulos de autocorreção usam essas métricas de integridade para descobrir quando algo deu errado e podem executar ações automatizadas para reiniciar serviços ou máquinas com falha.

Quando essa ação automatizada não funciona, um operador humano é notificado por email ou Slack para resolver o problema. Anteriormente, era necessária uma equipe de pessoas treinadas para verificar um sistema semelhante e detectar falhas. Ao automatizar esse processo, Butler reduz drasticamente o tempo necessário para executar grandes projetos. “É realmente muito gratificante que essas análises em larga escala agora possam ocorrer em alguns meses, em vez de anos”, diz Korbel.

Código aberto

Boas soluções já estão disponíveis para desafios individuais associados à computação científica na nuvem. Então, em vez de reinventar a roda, a equipe melhorou as tecnologias existentes. “Criamos Butler integrando um grande número de projetos de código aberto estabelecidos”, diz Sergei Yakneen, primeiro autor do artigo, atualmente diretor de operações da SOPHiA GENETICS. “Isso melhora drasticamente a facilidade e a relação custo-benefício com a qual o software pode ser mantido, e regularmente traz novos recursos ao ecossistema Butler, sem a necessidade de grandes esforços de desenvolvimento”.

Além da estabilidade e manutenção do sistema, o uso da nuvem para pesquisa genômica também é desafiador no que diz respeito à privacidade dos dados e à maneira como ela é regulamentada em diferentes países. Projetos maiores precisarão fazer uso simultâneo de vários ambientes de nuvem em diferentes institutos e países para atender aos diversos requisitos de manipulação de dados de várias jurisdições. Butler enfrenta esse desafio, podendo executar em uma ampla variedade de plataformas de computação em nuvem, incluindo a maioria das nuvens comerciais e acadêmicas. Isso permite que os pesquisadores acessem a mais ampla variedade de conjuntos de dados, atendendo a requisitos rigorosos de proteção de dados.

Mordomo em uso

A capacidade de Butler de facilitar essas análises complexas foi demonstrada no contexto do estudo Pan-Cancer Analysis of the Whole Genome. Butler processou um conjunto de dados do genoma do câncer de 725 terabytes de maneira uniforme e eficiente em termos de tempo, em 1500 núcleos de CPU, 5,5 terabytes de RAM e aproximadamente um petabyte de armazenamento. O Instituto Europeu de Bioinformática (EMBL-EBI) desempenhou um papel crucial ao fornecer acesso e suporte ao seu Embassy Cloud, usado para testar Butler. O sistema também foi usado recentemente em outros projetos, por exemplo, no projeto piloto da European Open Science Cloud (EOSC).

O projeto Pan-Cancer

O projeto Pan-Cancer Analysis of Whole Genomes é uma colaboração que envolve mais de 1300 cientistas e clínicos de 37 países. Envolveu a análise de mais de 2600 genomas de 38 tipos diferentes de tumores, criando um enorme recurso de genomas primários de câncer. Este foi o ponto de partida para 16 grupos de trabalho para estudar vários aspectos do desenvolvimento, causalidade, progressão e classificação do câncer.


Publicado em 07/02/2020 07h12

Artigo original:

Estudo original:


Achou importante? Compartilhe!


Assine nossa newsletter e fique informado sobre Astrofísica, Biofísica, Geofísica e outras áreas. Preencha seu e-mail no espaço abaixo e clique em “OK”: