Cientistas pedem compartilhamento totalmente aberto de dados do genoma do coronavírus

Uma visualização de 56 genomas SARS-CoV-2. Crédito: Martin Krzywinski / SPL

Outros pesquisadores dizem que as restrições na maior plataforma de genoma SARS-CoV-2 incentivam o compartilhamento rápido, protegendo os direitos dos provedores de dados.

Centenas de cientistas estão pedindo que os dados do genoma do SARS-CoV-2 sejam compartilhados mais abertamente para ajudar a analisar como as variantes virais estão se espalhando pelo mundo.

Os pesquisadores postaram um grande número de sequências do genoma SARS-CoV-2 online desde janeiro de 2020. A plataforma de compartilhamento de dados mais popular, chamada GISAID, agora hospeda mais de 450.000 genomas virais; Soumya Swaminathan, o cientista-chefe da Organização Mundial da Saúde (OMS), chamou isso de uma “virada de jogo” na pandemia. Mas não permite que as sequências sejam compartilhadas publicamente, o que está dificultando os esforços para entender o coronavírus e o rápido aumento de novas variantes, argumenta Rolf Apweiler, codiretor do European Bioinformatics Institute (EBI) perto de Cambridge, Reino Unido, que hospeda seu próprio grande banco de dados de genoma que inclui sequências SARS-CoV-2.

“A abertura dos dados da sequência SARS-CoV-2 é crucial para a resposta rápida contra a maior ameaça à saúde humana em muito, muito tempo”, disse Apweiler.

Em uma carta divulgada em 29 de janeiro, Apweiler e outros conclamam os pesquisadores a postar seus dados de genoma em um de uma tríade de bancos de dados que não impõe nenhuma restrição à redistribuição de dados: o GenBank dos EUA, o Arquivo Europeu de Nucleotídeos (ENA) da EBI e o DNA Data Bank of Japan, que são coletivamente conhecidos como International Nucleotide Sequence Database Collaboration (INSDC).

Qualquer pessoa pode acessar anonimamente os dados do INSDC e usá-los como quiser, mas o GISAID exige que os usuários confirmem sua identidade e concordem em não republicar os genomas do site sem permissão do provedor de dados. Isso significa que os estudos baseados em dados GISAID – como aqueles que criam árvores evolutivas que analisam como as variantes do SARS-CoV-2 estão relacionadas – não podem publicar dados completos para que outros possam verificar facilmente suas análises ou desenvolver ainda mais seu conjunto de dados. Eles devem direcionar os leitores de volta ao site GISAID.

A carta diz que a comunidade científica deve “remover as barreiras que restringem o compartilhamento eficaz de dados”, mas não menciona o GISAID especificamente. É assinado por mais de 500 cientistas, incluindo o Nobel de química de 2020, Emmanuelle Charpentier, e o chefe do Consórcio COVID-19 Genomics UK, Sharon Peacock. Onde os cientistas já criaram submissões para outras bases de dados, a carta afirma, “essas submissões devem continuar em paralelo”.

Recurso não é falha

Muitos pesquisadores que trabalham com o GISAID afirmam que seus termos de acesso são benéficos, pois incentivam pesquisadores hesitantes a compartilhar dados online rapidamente, sem medo de que outros usem os resultados sem crédito. “A razão pela qual tantos laboratórios forneceram genomas SARS-CoV-2 para GISAID é precisamente por causa do acordo de acesso a dados que restringe o compartilhamento público”, disse Sebastian Maurer-Stroh, bioinformático da Agência de Ciência, Tecnologia e Pesquisa de Cingapura. GISAID trabalhou com muitos laboratórios para ajudá-los a compartilhar dados, diz ele.

GISAID significa Iniciativa Global sobre Compartilhamento de Dados da Gripe Aviária; um consórcio internacional de pesquisadores ajudou a estabelecê-la como uma fundação sem fins lucrativos em 2008, para lidar com a relutância dos pesquisadores em compartilhar dados sobre cepas de influenza. Algumas nações, incluindo a Indonésia, um hotspot para a gripe aviária, temiam que as empresas farmacêuticas criassem medicamentos e vacinas usando os dados da sequência, sem creditar os fornecedores de dados originais ou compartilhar os benefícios do trabalho com eles. Mas eles foram persuadidos a compartilhar sequências rapidamente no GISAID; em março de 2013, por exemplo, a China publicou sequências da gripe aviária H7N9 no banco de dados no mesmo dia em que informou à OMS sobre três infecções em pessoas. “O GISAID incentiva e incentiva o compartilhamento de dados em tempo real por partes que de outra forma estariam relutantes em compartilhar, garantindo que eles retenham seus direitos sobre seus dados”, disse um porta-voz da iniciativa.

“Essa questão não é apenas sobre ciência, mas também sobre soberania e equidade”, diz Marie-Paule Kieny, pesquisadora de vacinas do INSERM, o instituto nacional francês de pesquisa em saúde em Paris. “GISAID capacita o fluxo rápido de dados da sequência SARS-CoV-2 com impacto máximo”, diz ela, porque os cientistas que depositam as sequências podem confiar que seus direitos serão respeitados pelos usuários dos dados.

Senjuti Saha, uma microbiologista que trabalha com genomas SARS-CoV-2 na Child Health Research Foundation em Dhaka, diz que aprecia o pedido de dados abertos além do que GISAID oferece, mas teme que isso possa dissuadir ainda mais os pesquisadores de baixo e médio – os países de renda (LMICs) carreguem dados até que os analisem. Durante a pandemia, ela diz, alguns LMICS começaram a fazer mais sequenciamento viral, embora os laboratórios muitas vezes não tenham infraestrutura computacional. Ela diz que viu dados de coronavírus LMIC retirados do contexto por acadêmicos em países mais ricos que não consultam ou dão crédito aos provedores de dados. “Realmente queremos compartilhar nossos dados, mas é doloroso e desmotivador saber que trabalhamos tanto para gerar dados, mas não recebemos o crédito por isso”, diz ela.

A carta, diz Kieny, “parece-me uma iniciativa de países europeus e de alta renda não totalmente informados sobre a necessidade crítica de garantir que os países com poucos recursos aceitem compartilhar sequências livremente, para que o impacto sobre a saúde pública do sequenciamento de patógenos como o SARS-CoV-2 é maximizado”.

O chefe da ENA, Guy Cochrane, diz que a EBI está ciente das questões globais em torno de dados e compartilhamento de benefícios e está ativamente envolvida na descoberta de mecanismos de compartilhamento de benefícios que capacitem os países no sul global e mantenham os dados abertos. Mas mesmo os países europeus com bons recursos poderiam fazer mais para compartilhar seus dados abertamente, diz ele.

Desafios de dados

Alguns pesquisadores disseram à Nature que, além dos argumentos sobre equidade e abertura, há um problema com o controle diferencial do GISAID sobre como os usuários registrados podem baixar seus dados. Alguns usuários devem baixar arquivos em pequenos lotes, por exemplo, mas outros podem obter um conjunto de dados inteiro em massa com a aprovação GISAID. O porta-voz do GISAID diz que é porque a iniciativa precisa saber quem está usando seus dados e por que motivo, para que nada seja redistribuído erroneamente.

Cochrane acrescenta que outro desafio com a plataforma GISAID é que os pesquisadores postam “montagens” – ou reconstruções – de genomas virais a partir de blocos de dados lidos em máquinas de sequenciamento, em vez de dados brutos. A montagem sempre envolve alguma interpretação de erros inevitáveis no processo de sequenciamento, diz Cochrane, e isso pode levar ao que parecem mutações em um genoma que são na verdade artefatos de sequenciamento. O acesso aos dados brutos de muitos genomas ajuda os cientistas a investigar essas questões, e Cochrane diz que os pesquisadores devem compartilhar seus dados de sequenciamento brutos e montados, o que eles podem fazer no INSDC, mesmo que também postem no GISAID. Maurer-Stroh, no entanto, diz que GISAID está ciente de tais problemas e já fornece verificações de controle de qualidade para sinalizar erros em potencial nos genomas enviados. Cochrane diz que esses processos podem apenas reduzir, não eliminar, erros de artefatos.

Um portal de dados hospedado por EBI que reúne conjuntos de dados COVID-19 totalmente abertos submetidos ao INSDC atualmente hospeda mais de 270.000 sequências SARS-CoV-2 brutas e 55.000 genomas montados – menos do que GISAID. “Temos uma névoa de conhecimento incompleto”, diz Apweiler. Ele diz que alguns cientistas podem pensar, incorretamente, que enviar dados ao GISAID significa que os resultados serão compartilhados automaticamente e abertamente no INSDC – e ele espera que a chamada para compartilhar dados sem restrição aumente o tesouro de dados do INSDC.

Mas dizer aos cientistas para reenviar seus dados SARS-CoV-2 para o INSDC é complexo, diz David Haussler, que dirige um instituto de genômica que trabalha com dados INSDC e GISAID na Universidade da Califórnia, Santa Cruz. Os bioinformáticos estão em crise, correndo para obter dados do genoma e analisá-los em detalhes, e querem compartilhar o máximo que podem publicar sobre novas mutações importantes em sequências, diz ele. Ele não assinou a carta aberta – embora apoie o compartilhamento de dados sem restrições – porque, em vez disso, espera que o GISAID possa cancelar temporariamente alguns de seus termos de acesso durante a pandemia, talvez para coordenar com o INSDC.

Kieny, no entanto, diz que isso pode fazer com que alguns cientistas percam a confiança no GISAID e não arquivem suas sequências no banco de dados tão rapidamente. “Não há obstáculo, para quem quer fazer, depositar suas sequências no INSDC”, afirma.


Publicado em 05/02/2021 08h51

Artigo original:

Estudo original: