Novo ‘índice’ gigantesco compartilha dados de 100 milhões de artigos científicos gratuitamente

(Nico De Pasquale Photography / Getty Images)

Há uma grande quantidade de pesquisas por aí, com o volume crescendo rapidamente a cada dia que passa. Mas há um problema.

Não apenas grande parte da literatura existente está escondida atrás de um acesso pago, mas também pode ser difícil de analisar e entender de uma maneira abrangente e lógica. O que é realmente necessário é uma versão superinteligente do Google apenas para trabalhos acadêmicos.

Entre no Índice Geral, um novo banco de dados de cerca de 107,2 milhões de artigos de periódicos, totalizando 38 terabytes de dados em sua forma não compactada. Ele abrange mais de 355 bilhões de linhas de texto, cada uma apresentando uma palavra-chave ou frase extraída de um artigo publicado.

“Esta é uma ferramenta de pesquisa, um dicionário do conhecimento, um mapa do conhecimento”, diz o criador do Index, arquivista Carl Malamud. “Uma ferramenta que acreditamos ser uma facilidade essencial para a prática da ciência em nossa era moderna.”

Embora tenhamos mencionado o Google, este não é exatamente um mecanismo de pesquisa – os cientistas que usam o Índice Geral terão que codificar seus próprios mecanismos de pesquisa para trabalhar com ele. Em vez disso, é um catálogo cuidadosamente catalogado e estruturado que pode ser usado para investigar décadas de pesquisas científicas.

Seu objetivo principal é ajudar na mineração de texto: usando computadores para examinar rapidamente milhões de pontos de dados para encontrar e fazer ligações cruzadas com referências a algo específico. Os seres humanos não podem ler e selecionar dados importantes de milhões de artigos de periódicos, mas um programa de computador conectado ao Índice Geral pode.

A reação de outros cientistas foi positiva. Um especialista, o biólogo computacional Gitanjali Yadav, da Universidade de Cambridge, no Reino Unido, diz que o novo banco de dados ajuda de alguma forma a resolver o problema de acesso restrito a material publicado anteriormente.

“Não há como eu – ou qualquer outra pessoa – analisar experimentalmente ou medir a impressão digital química de cada espécie de planta na Terra”, disse Yadav à Nature. “Muitas das informações que buscamos já existem, na literatura publicada.”

A ideia é que o Índice Geral pode ser usado para pesquisar plantas, produtos químicos, genes, proteínas, materiais, nomes de lugares e muito mais – embora a equipe por trás dele faça questão de enfatizar que ainda precisa de alguns ajustes e expansão, e é muito um trabalho em andamento (como provavelmente sempre será).

Todas essas informações estão disponíveis para download e uso gratuitamente no portal do Índice Geral, sem direitos autorais aplicados e sem restrições – o Índice é apenas fragmentos de artigos, não os próprios artigos. Porém, como mencionamos, você precisará de algumas habilidades de codificação para realmente entender isso.

Ao contrário do polêmico portal Sci-Hub, o Index não hospeda os artigos na íntegra, embora tenham sido levantadas questões quanto à legalidade do projeto. Para Malamud, o projeto está bem dentro dos limites legais.

“Estou muito confiante de que o que estou fazendo é legal”, disse Malamud à Nature. “Não estamos fazendo isso para provocar um processo, estamos fazendo isso para o avanço da ciência.”


Publicado em 28/10/2021 18h29

Artigo original:

Estudo original: