A promessa quebrada que prejudica a pesquisa do genoma humano

Ilustração de Ana Kova

O compartilhamento de dados foi um princípio fundamental que levou ao sucesso do Projeto Genoma Humano há 20 anos. Agora os cientistas estão lutando para manter as informações gratuitas.

Em julho de 2000, David Haussler se lembra de ter chorado ao ver o primeiro genoma humano totalmente montado fluindo pela tela de seu computador. Ele e Jim Kent, um estudante de graduação na época, construíram a primeira ferramenta baseada na web para explorar os três bilhões de letras do genoma humano. Eles haviam publicado o rascunho do genoma na Internet apenas 11 dias após terminar a tarefa hercúlea de costurar tudo junto – uma tarefa atribuída a eles como parte do Projeto Genoma Humano (HGP), a colaboração internacional que estava funcionando rumo a essa meta por uma década. Ainda faltariam vários meses para o grupo publicar sua análise do genoma nas páginas da Nature, mas os dados estavam prontos para serem compartilhados.

“Lá estava ele, indo para o mundo inteiro”, lembra Haussler, diretor científico do Instituto de Genômica de Santa Cruz da Universidade da Califórnia. Em breve, todas as pessoas no mundo poderiam explorá-lo – cromossomo por cromossomo, gene por gene, base por base – na web.

Foi um momento histórico, diz Haussler. Antes do HGP ser lançado no início dos anos 1990, “não havia uma discussão séria sobre o compartilhamento de dados na pesquisa biomédica”, disse Haussler. “O padrão era que um investigador bem-sucedido guardasse seus próprios dados enquanto pudesse”.

Esse padrão claramente não funcionaria para um esforço tão grande e colaborativo. Se países ou cientistas acumulassem os dados que estavam produzindo, o projeto seria inviabilizado. Então, em 1996, os pesquisadores do HGP se reuniram para estabelecer o que ficou conhecido como Princípios das Bermudas, com todas as partes concordando em disponibilizar as sequências do genoma humano em bancos de dados públicos, idealmente em 24 horas – sem atrasos, sem exceções.

Avançando duas décadas, o campo está repleto de dados genômicos, graças à tecnologia aprimorada para sequenciar genomas inteiros e para genotipá-los por meio do sequenciamento de alguns milhões de pontos selecionados para capturar rapidamente a variação dentro deles. Esses esforços produziram leituras genéticas para dezenas de milhões de indivíduos e ficam em repositórios de dados ao redor do globo. Os princípios estabelecidos durante o HGP, e posteriormente adotados por periódicos e agências de financiamento, significava que qualquer pessoa deveria ser capaz de acessar os dados criados para estudos de genoma publicados e usá-los para impulsionar novas descobertas.

Em 2000, Jim Kent, um estudante graduado da Universidade da Califórnia, Santa Cruz, ajudou a reunir e compartilhar os resultados do Projeto Genoma Humano de uma década. Crédito: Os Regentes da Universidade da Califórnia. Cortesia de Coleções Especiais, Biblioteca da Universidade, Universidade da Califórnia, Santa Cruz. Fotografias de serviços fotográficos da UC Santa Cruz.

Se fosse assim tão simples.

A explosão de dados levou governos, agências de financiamento, institutos de pesquisa e consórcios de pesquisa privados a desenvolver seus próprios bancos de dados personalizados para lidar com conjuntos de dados complexos e às vezes sensíveis. E a colcha de retalhos de repositórios, com várias regras de acesso e nenhuma formatação de dados padrão, levou a uma situação de “Torre de Babel”, diz Haussler.

Embora alguns pesquisadores relutem em compartilhar dados do genoma, o campo é geralmente visto como generoso em comparação com outras disciplinas. Ainda assim, os repositórios destinados a promover o compartilhamento geralmente apresentam barreiras para quem faz upload e download de dados. Os pesquisadores contam histórias de passar meses ou anos rastreando conjuntos de dados, apenas para encontrar becos sem saída ou arquivos inutilizáveis. E editores de periódicos e agências de financiamento lutam para monitorar se os cientistas estão cumprindo seus acordos.

Muitos cientistas estão pressionando por mudanças, mas isso não pode acontecer rápido o suficiente.

O genomicista clínico Heidi Rehm diz que o campo passou a reconhecer que grandes avanços científicos requerem grandes quantidades de dados genômicos ligados a doenças e dados de características de saúde. “Mas não é compatível e compartilhável”, diz Rehm, baseado no Massachusetts General Hospital em Boston e no Broad Institute em Cambridge. “Como fazemos com que todos no mundo – pacientes, médicos e pesquisadores – compartilhem?”

Barreiras por toda parte

O sequenciamento do genoma humano facilitou o estudo de doenças associadas a mutações em um único gene – distúrbios mendelianos, como a perda auditiva não sindrômica. Mas identificar as raízes genéticas de doenças complexas mais comuns, incluindo doenças cardiovasculares, câncer e outras principais causas de morte, exigia a identificação de vários fatores de risco genéticos em todo o genoma. Para fazer isso, pesquisadores em meados dos anos 2000 começaram a comparar os genótipos de milhares a centenas de milhares de indivíduos com e sem uma doença ou condição específica, em uma abordagem conhecida como estudos de associação do genoma, ou GWAS.

A abordagem provou ser popular – mais de 10.700 GWAS foram conduzidos desde 2005. E isso produziu oceanos de dados, diz Chiea Chuen Khor, líder de grupo no Instituto Genoma de Cingapura, que estuda a base genética do glaucoma. Um estudo com 10.000 pessoas, olhando para 1 milhão de marcadores genéticos em cada, por exemplo, diz Khor, geraria uma planilha com 10 bilhões de entradas.

A maioria desses dados genômicos de nível individual agora vivem em bancos de dados de “acesso controlado”. Eles foram configurados para lidar com as questões legais e éticas pegajosas que vêm com os dados genômicos que foram vinculados a informações pessoais – “dados de fenótipo” que podem incluir registros de cuidados de saúde, estado de doença ou escolhas de estilo de vida. Mesmo em conjuntos de dados anônimos, é tecnicamente possível que os indivíduos possam ser reidentificados. Portanto, bancos de dados de acesso controlado examinam os pesquisadores que buscam acesso e garantem que os dados sejam usados apenas para os fins consentidos pelos participantes.

Os Institutos Nacionais de Saúde dos EUA (NIH) exigem que seus beneficiários coloquem os dados GWAS em seu repositório oficial, o Banco de Dados para Genótipos e Fenótipos, ou dbGaP. Pesquisadores europeus podem depositar dados no European Genome-phenome Archive (EGA), localizado no European Bioinformatics Institute (EMBL-EBI) em Hinxton, Reino Unido. Da mesma forma, outros grandes geradores de dados genômicos, como a empresa com fins lucrativos 23andMe em Sunnyvale, Califórnia, e a organização sem fins lucrativos Genomics England em Londres, operam seus próprios bancos de dados de acesso controlado.

Um primeiro rascunho dos princípios de compartilhamento de dados para o Projeto Genoma Humano, escrito por John Sulston em um quadro branco nas Bermudas, 1996. Crédito: Richard Myers

Mas o upload de dados para alguns desses repositórios geralmente leva muito tempo. Como resultado, diz Khor, os dados são muitas vezes “mínimos e esparsos”, porque os pesquisadores estão depositando apenas o que é necessário para estar em conformidade.

Às vezes, os dados são armazenados em mais de um lugar e isso cria outros desafios. Rasika Mathias, epidemiologista genético da Universidade Johns Hopkins em Baltimore, Maryland, que estuda a genética da asma em pessoas de ascendência africana, diz que a descentralização é um grande problema. Ela faz parte do TOPMed, um programa de medicina de precisão administrado pelo National Heart, Lung, and Blood Institute do NIH. É composto por mais de 155.000 participantes de pesquisa em mais de 80 estudos e compartilha seus dados em vários repositórios, incluindo dbGaP e alguns portais baseados em universidades.

“É um recurso notável”, diz Mathias. Mas é complicado para alguém de fora encontrar todos os dados disponíveis e solicitar acesso, diz ela. Eles freqüentemente devem fornecer propostas detalhadas e cartas de apoio. “É desnecessariamente difícil.”

Muitos procuram soluções alternativas. “Pessoalmente, não faço download dos dados do dbGaP, apenas vou direto aos pesquisadores e pergunto se eles querem colaborar”, diz Ruth Loos, epidemiologista genética da Escola de Medicina Icahn em Mount Sinai, na cidade de Nova York. Vários anos atrás, ela tentou acessar um conjunto de dados dbGaP, preenchendo várias rodadas de papelada digital, apenas para ser rejeitada. “Até o login no dbGaP pode ser uma dor. Simplesmente não é amigável para o pesquisador”, diz ela.

Stephen Sherry, diretor interino do National Center for Biotechnology Information do NIH em Bethesda, Maryland, que administra o dbGaP, reconhece que os processos de envio e acesso aos dados são “imperfeitos e dolorosos”. E os dados complexos e heterogêneos requerem revisão caso a caso, que não pode ser simplesmente acelerada colocando “mais pessoas na manivela para girá-lo mais rápido”.

Mas, diz Sherry, o NIH está investindo na modernização do sistema para torná-lo mais ágil e flexível. Carrie Wolinetz, diretora associada de política científica do NIH, diz que ainda não foi determinado se o remédio será um dbGaP 2.0 ou um recurso alternativo. “Você implementou uma medida provisória ou é hora de investir em uma reforma completa do banheiro?” ela pergunta.

Apesar de todos os problemas que o acesso controlado causa no compartilhamento de dados do genoma, muitos pesquisadores dizem que bancos de dados como o dbGaP e o UK BioBank, que mantém dados genômicos de 500.000 pessoas, ainda são inestimáveis. Mathias protege ferozmente os participantes do TOPMed e vê mérito na proteção que o acesso controlado fornece. Como muitos, ela gostaria de ver os repositórios com melhores recursos. Mas, ela diz, “Eu sou uma defensora dos freios e contrapesos”.

Craig Venter (à esquerda) da Celera Genomics e Francis Collins (ao centro), então no National Human Genome Research Institute, se reuniram em Washington em 2000 para anunciar a conclusão dos primeiros rascunhos do genoma humano. Crédito: Ron Sachs / Shutterstock

E outros ficam felizes em ter acesso, mesmo que seja difícil de obter. “Está fora do nosso escopo gerar essa quantidade de dados”, diz Melanie Bahlo, que dirige um laboratório de estatística-genética no Instituto de Pesquisa Médica Walter e Eliza Hall em Melbourne, Austrália. Seu laboratório está mais do que disposto a vasculhar a papelada digital para usar o dbGaP, e já fez isso por mais de dez projetos. Ela também passou recentemente seis meses infrutíferos perseguindo um conjunto de dados que deveria estar disponível publicamente por meio do portal de dados de um instituto de pesquisa, mas não estava.

“Nada é mais difícil do que obter dados de dbGaP e EGA”, diz Khor, “a menos que seja obtido de um pesquisador que não deseja compartilhar”.

A polícia de compartilhamento

Vinte anos depois do HGP, não há uma política universal específica que diga que os grupos de pesquisa devem compartilhar seus dados do genoma humano, ou compartilhá-los em um formato ou banco de dados específico. Dito isso, muitos periódicos continuaram a obedecer aos Princípios das Bermudas, exigindo que os dados genômicos fossem compartilhados em bancos de dados aprovados no momento da publicação. A aplicação dessas políticas pode ser um sucesso ou um fracasso.

Michelle Trenkmann, editora sênior de genética e genômica da Nature em Londres, diz que os autores costumam relutar em compartilhar, citando preocupações sobre a privacidade do participante, consentimento ou regras nacionais ou corporativas que governam quem possui os dados. “O que é notável é que, como campo, os geneticistas esperam que os dados sejam compartilhados, mas às vezes eles não querem compartilhar seus próprios dados”, diz ela. Trenkmann recua nesses casos, e se os desafios não podem ser superados, os autores devem explicitar seus motivos diretamente no artigo para transparência. (A equipe de notícias da Nature é editorialmente independente de sua equipe de jornal.)

A revista Genome Research tem uma política de “sem exceções”. A editora executiva Hillary Sussman explica que os editores da revista trabalharão para superar os obstáculos de compartilhamento de dados com os autores, caso a caso, para encontrar soluções. Isso pode ir tão longe quanto pedir aos autores que solicitem novamente a aprovação de seu conselho de revisão institucional, voltando aos participantes para obter novamente seu consentimento ou refazer uma análise após a remoção de dados não compartilháveis. A revista recusou autores que afirmam antecipadamente que não podem compartilhar dados. “A comunidade e os financiadores exigem essa transparência e reprodutibilidade”, diz ela.

Mas mesmo quando os autores concordam em compartilhar os dados, os editores e revisores têm capacidade limitada de confirmar que isso está sendo feito. Eles podem não ter tempo – ou acesso a bancos de dados de acesso controlado – para verificar a qualidade, formatação ou integridade dos dados.

Trenkmann diz que os financiadores devem exigir que os pesquisadores tenham um plano concreto de compartilhamento de dados desde o início de um projeto. Isso pode ajudar a mudar as atitudes para que os pesquisadores vejam o compartilhamento como um dever, diz ela.

Uma política de compartilhamento de dados em todo o NIH a ser implementada em janeiro de 2023 faz exatamente isso. Exige que todos os candidatos a bolsas do NIH incluam um Plano de Gerenciamento e Compartilhamento de Dados (DMS) em suas propostas de bolsas e permite que os pesquisadores aloquem parte de seu orçamento para a tarefa.

Isso deve garantir que o compartilhamento de dados esteja alinhado com as considerações éticas e de privacidade e com os princípios FAIR – o que significa que os dados devem ser localizáveis, acessíveis, interoperáveis e reutilizáveis, diz Carolyn Hutter, diretora do National Human Genome Research Institute (NHGRI) Divisão de Ciências do Genoma em Bethesda. “Isso não significa que joguei meus dados pela parede e espero que alguém os tenha percebido”, diz ela.

“A parte de aplicação é complicada”, acrescenta Hutter, “porque o compartilhamento de dados geralmente vem no final do projeto”. E, como os editores de periódicos, os administradores de subsídios só podem fazer verificações pontuais de quaisquer números de acesso de compartilhamento de dados que aparecem nos relatórios anuais de progresso.

Procurando soluções

Pode haver maneiras de compartilhar de forma mais simples, sem cair em problemas de propriedade ou privacidade. Muitas partes interessadas genômicas concordam que uma forma agregada de dados GWAS, chamada de estatísticas resumidas de GWAS, pode e deve ser compartilhada ampla e livremente. Esses resumos incluem as pontuações agregadas para cada variante genética encontrada para estar associada a uma doença ou condição em vários genomas. Eles são mais fáceis para os pesquisadores trabalharem e protegem a privacidade dos participantes.

Muitos consórcios de pesquisa os compartilham em seus sites ou portais. Mas uma colaboração de acesso aberto entre o EMBL-EBI e o NHGRI, chamada GWAS Catalog, está trabalhando em uma solução centralizada e padronizada.

O surgimento de empresas de genômica pessoal como a 23andMe, cofundada por Anne Wojcicki em 2006, acrescentou novos aspectos às práticas de compartilhamento de dados do genoma. Crédito: Peter DaSilva / NYT / Redux / eyevine

A partir de 2020, o Catálogo GWAS deu aos pesquisadores uma maneira de enviar suas estatísticas resumidas junto com metadados que descrevem o estudo e os participantes. Em troca, os pesquisadores obtêm um ID de acesso de pré-publicação para usar em pré-impressões e manuscritos submetidos.

Mas muitos pesquisadores dizem que as estatísticas resumidas não são suficientes para o avanço da ciência genômica. “Essa é uma grande ameaça para o GWAS”, diz Chris Amos, epidemiologista genético que estuda o câncer de pulmão no Baylor College of Medicine em Houston, Texas. Os pesquisadores precisam dos dados do genoma em nível individual e dos dados de traços fenotípicos vinculados para revelar exatamente como a variação genética atua na doença. Eles também precisam de dados completos para verificar a ciência. “Se você não tem os dados brutos, não consegue olhar para a qualidade. Isso não é bom o suficiente para fazer um achado reproduzível”, diz Amos.

E os proprietários dos dados para coortes muito grandes, como 23andMe e Genomics England, não dão acesso irrestrito às suas estatísticas resumidas. Eles citam preocupações sobre a privacidade dos dados dos participantes e o desejo de manter a propriedade de seus dados. Na verdade, eles executam seus próprios bancos de dados de acesso controlado, com processos personalizados para acessar e reanalisar seus dados. Uma pré-condição para trabalhar com muitos de seus dados é permitir que as empresas compartilhem a autoria do trabalho resultante. Bahlo diz que esses tipos de requisitos estabelecem um padrão muito alto para ela e outros bioinformáticos que desejam processar dados do Projeto 100.000 Genomas da Genomics England.

Hutter reconhece que nem todos os problemas atuais de crescimento do compartilhamento de dados genômicos podem ser corrigidos simplesmente por meio de melhorias no dbGaP ou pelo compartilhamento de estatísticas resumidas no Catálogo GWAS. “O dbGaP não foi posicionado para evoluir e lidar com todos os novos tipos de dados”, diz ela. Por exemplo, o custo de armazenamento de dados de genomas inteiros é muito diferente daquele para dados GWAS. Como tal, o NHGRI criou uma infraestrutura baseada em nuvem conhecida como Analysis, Visualization, and Informatics Lab-space (AnVIL), onde os pesquisadores podem compartilhar e analisar grandes conjuntos de dados genômicos, incluindo genoma inteiro e sequências de exoma.

Outra iniciativa do NIH é o Researcher Auth Service (RAS), que autorizaria os pesquisadores a acessar o AnVIL, o dbGaP e vários outros recursos de dados. “A visão é que empurraríamos isso como um carimbo de visto”, disse Sherry, permitindo que os pesquisadores fundissem e analisassem dados à vontade em sistemas baseados em nuvem. “Estamos construindo um dos primeiros sistemas de cartões de biblioteca para pesquisadores”, diz Sherry.

Haussler e alguns outros lutadores de big data também têm ideias. Conforme as frustrações com o compartilhamento de dados aumentavam em 2013, Haussler, junto com David Altshuler, Eric Lander e outros colegas internacionais estabeleceram as bases para a Aliança Global para Genômica e Saúde, ou GA4GH (consulte go.nature.com/3app3xr). Tudo começou com os mesmos ideais do HGP. “Conseguiríamos que o mundo compartilhasse dados em um grande banco de dados e todos concordaríamos em como usaríamos esses dados, e Kumbaya”, diz Haussler. “Muito rapidamente, tornou-se evidente que isso era totalmente impossível.”

Em vez disso, o GA4GH agora se concentra na criação de padrões para os diversos bancos de dados genômicos em todo o mundo. Sua hipótese de trabalho é que será tecnicamente possível harmonizar dados (como o Catálogo GWAS em uma escala maior) e federar, ou vincular vagamente, os diferentes data warehouses.

O presidente-executivo da GA4GH, Peter Goodhand, usa a analogia das comunicações globais de telefonia móvel. Há uma grande competição entre fabricantes de telefones celulares e provedores de serviços, mas no final do dia, todos eles precisam trabalhar na mesma rede. “Para que ocorra a verdadeira interoperabilidade, é necessário que haja relações de trabalho entre os provedores”, diz Goodhand. “Você pode configurar os sistemas que permitem o compartilhamento e tornam mais fácil.”

Os cientistas usaram um padrão GA4GH para criar o Matchmaker Exchange, por exemplo. Este serviço permite que médicos e pesquisadores que trabalham com as doenças raras mais raras pesquisem uma única rede federada de oito bancos de dados internacionais para encontrar indivíduos com um genótipo ou fenótipo semelhante a um caso em que estão trabalhando. Se uma correspondência for retornada, ambas as partes são conectadas de uma forma que protege a confidencialidade do paciente e a propriedade e autoria da pesquisa. O RAS do NIH também usará um padrão GA4GH, chamado de Data Repository Service, uma interface de software que ajuda diferentes repositórios a se comunicarem.

Bahlo e outros dizem que os esforços de federação de dados tornam-se ainda mais importantes à medida que o campo gira para se aprofundar nos dados de fenótipo, que aumentaram em escopo e complexidade. “Esses dados vêm em todos os tipos de formas – exposições ambientais, status de fumante, dados de imagens médicas”, diz Bahlo.

Ela e outros veem a federação de dados como uma grande oportunidade de injetar patrimônio global no compartilhamento de dados genômicos. Pesquisadores de países em desenvolvimento podem acessar e trabalhar com conjuntos de dados sem precisar gerar seus próprios dados ou ter seus próprios recursos de supercomputação. E um melhor compartilhamento de dados também deve melhorar a representação de ancestrais globais não brancos e não europeus. A sub-representação é especialmente acentuada para ancestrais africanos continentais, que constituem menos de 0,5% de todos os participantes GWAS.

Haussler acha que a pressão positiva dos pares deve convencer os cientistas a compartilhar de maneiras melhores. A necessidade só está crescendo. Vinte anos depois de lançar o primeiro genoma humano na Internet, sua equipe criou uma maneira de qualquer pessoa explorar o genoma viral do SARS-CoV-25.

“Os dados devem ser uma coisa viva”, diz Haussler. “Quero clicar nele e brincar com ele imediatamente. Essa deve ser a motivação. Se você não compartilhar seus dados, não poderá fazer isso.”


Publicado em 13/02/2021 20h42

Artigo original:

Estudo original: