Revolucionando o acesso aos dados por meio de uma nova ferramenta de software: Tiled

Os cientistas podem usar o Tiled para acessar perfeitamente armazenamentos de dados em vários formatos, como arquivos, bancos de dados ou outros serviços de dados. O Tiled permite que seus usuários vejam, dividam e estudem seus dados usando a ferramenta mais conveniente para eles. Crédito: Laboratório Nacional de Brookhaven

Cada vez que os cientistas estudam um novo material para baterias futuras ou investigam doenças para desenvolver novos medicamentos, eles devem navegar por um oceano de dados. Hoje, todo um ecossistema de ferramentas científicas cria uma grande variedade de dados a serem explorados. Essa exploração agora ficará muito mais fácil graças aos cientistas do National Synchrotron Light Source II (NSLS-II), localizado no Laboratório Nacional de Brookhaven do Departamento de Energia dos EUA (DOE). Sua ferramenta de software recém-lançada – chamada Tiled – permite que os pesquisadores vejam, dividam e estudem seus dados de forma mais conveniente do que nunca. Essa nova ferramenta de acesso a dados permite que você encontre e analise os dados certos em um passeio no parque, em comparação com os métodos anteriores, abrindo caminho para o próximo avanço científico.

Como uma das 28 instalações de usuários do DOE Office of Science em todo o país, o NSLS-II dá as boas-vindas a quase 2.000 cientistas a cada ano para usar sua luz ultrabright, enfrentando os maiores desafios em materiais e ciências da vida. Esses pesquisadores visitantes vêm de todo o mundo para colaborar com especialistas e usar as ferramentas de pesquisa únicas do NSLS-II. Eles eletrocutam suas amostras, variando de rochas antigas a novos materiais quânticos, com raios-X intensos e captam sinais de saída usando detectores avançados. Por sua vez, esses detectores emitem fluxos de dados, esperando para serem analisados por cientistas.

?Trabalhar com dados é uma parte central de toda pesquisa, e ainda assim um desafio por si só. Eles vêm em uma infinidade de formatos, em tamanhos e formas variados, e nem todas as partes são úteis para os pesquisadores. É por isso que desenvolver uma ferramenta de software que torna o acesso, a visualização e a classificação de dados muito importantes “, disse Dan Allan, cientista computacional do NSLS-II.

O Tiled é um serviço de acesso a dados para portais com reconhecimento de dados e ferramentas de ciência de dados. Isso significa que o Tiled fica sobre bancos de dados e sistemas de arquivos para que os cientistas possam acessar seus dados, por exemplo, um navegador da web ou software de análise de dados. Enquanto o programa Data Science and Systems Integration (DSSI) implementava o Tiled em todas as estações experimentais do NSLS-II, o serviço, assim como seu primo projeto Bluesky (um software de aquisição de dados também desenvolvido no NSLS-II), pode ser usado em qualquer laboratório de pesquisa em todo o mundo. Isso é possível porque o Tiled é publicado sob uma licença de software de código aberto popular.

“Embora tenhamos desenvolvido o Tiled na linguagem de programação Python e, portanto, ele se integre naturalmente às bibliotecas de ciência de dados baseadas em Python, nada sobre o serviço é específico do Python”, disse Stuart Campbell, cientista-chefe de dados do NSLS-II. “O cliente usa uma API, ou interface de programação de aplicativos, para conectar os aplicativos do usuário ao servidor. Uma API é basicamente um conjunto de regras ou um contrato que define como diferentes partes de software se comunicam entre si. O que há de bom nessa abordagem é que, uma vez que essas regras e interfaces são definidas, ele fornece aos usuários e desenvolvedores a estrutura dentro da qual eles podem construir algumas ferramentas excelentes e expandir a funcionalidade além daquela que tínhamos originalmente imaginado. ”

A flexibilidade do Tiled permite que o serviço se integre perfeitamente a qualquer banco de dados ou coleção de arquivos para que possa ser usado em uma ampla gama de experimentos com técnicas e dados muito diferentes.

Ajustando suas necessidades de dados

“No passado, eu costumava ajudar meu orientador de Ph.D. a baixar dados de instalações como o NSLS-II. Era tedioso porque precisávamos baixar todos os nossos dados de uma vez antes de podermos separar as partes úteis. Além disso, os dados estavam no formato do detector – independentemente de como queríamos analisá-los. Isso significava que, após um longo download, tínhamos que converter os dados antes mesmo de podermos olhar para eles “, disse Allan.

Campbell acrescentou: “Se Dan tivesse o Tiled naquela época, ele poderia facilmente ter olhado os dados em um navegador da web ou aplicativo de análise de dados, classificado as partes boas e compartilhado apenas aquelas de interesse com seu consultor por meio de um único link.”

Esta visualização do cliente web Tiled mostra como imagens de detectores diferentes de medições diferentes podem ser exibidas ao mesmo tempo. A visualização mostra o portal no modo escuro. Crédito: Laboratório Nacional de Brookhaven

Usando o Tiled, os cientistas podem visualizar seus dados e acessar apenas as partes que desejam, sem um grande download. Eles também podem escolher o formato dos dados baixados ou alimentá-los diretamente no software de análise. Ao mesmo tempo, o Tiled oferece controle de acesso baseado em padrões de segurança da web para que todos os dados fiquem protegidos. Como configurar uma nova conta pode ser uma barreira, o Tiled pode ser configurado para permitir serviços de terceiros para login, como Google e ORCID.

“Capacidades remotas são mais importantes do que nunca”, disse Dylan McReynolds, engenheiro de sistemas de computação da Advanced Light Source, uma facilidade de usuário do DOE Office of Science localizada no Lawrence Berkeley National Laboratory, que colaborou com a Tiled. “Construir em protocolos abertos e padrão da Web avança nossas capacidades científicas, tornando mais fácil mover os dados para onde são necessários.”

O novo software ainda permite uma forma de “modo avião”, em que os dados são armazenados no laptop do usuário para que os pesquisadores possam continuar a trabalhar offline ou com uma conexão lenta à Internet.

“Nosso objetivo com o Tiled é simplificar o acesso aos dados para todos. Se você não precisa se preocupar em converter formatos de dados em outros formatos ou em selecionar informações de nomes de arquivos, pode pensar nas partes mais importantes, como encontrar a resposta para suas perguntas de pesquisa”, disse Thomas Caswell, cientista computacional do NSLS-II.

Simplificar e padronizar o acesso aos dados é fundamental para otimizar os fluxos de trabalho existentes e permitir fluxos de trabalho futuros centrados no aprendizado de máquina, IA e outras análises avançadas. Essas tecnologias emergentes dependem criticamente de um acesso sem atrito aos dados, independentemente de como foram coletados ou armazenados, para desbloquear todo o seu potencial.

O Tiled: se encaixa em qualquer quebra-cabeça de pesquisa

Os primeiros usuários do Tiled já construíram algumas ferramentas interessantes e sofisticadas para impulsionar suas pesquisas.

“O Tiled oferece uma maneira completamente nova de acessar os dados que simplificará e agilizará o processamento e os pipelines de análise para experimentos. Chega de downloads desajeitados ou perda de tempo importando dados de uma dúzia de formatos para analisar um experimento!” disse Denis Leschev, físico assistente do NSLS-II, que testou o Tiled. “Além disso, o Tiled permitirá uma maneira mais direta de compartilhar os dados, abrindo caminho para uma ciência mais aberta e transparente no futuro.”

O novo software não está disponível apenas para usuários do NSLS-II: a equipe projetou o software para ser adaptável a qualquer fonte de dados. Ele pode ser implantado em grande escala para instalações como o NSLS-II, mas pode ser executado tão bem no laptop de um aluno ou na estação de trabalho de um grupo de pesquisa. Outros laboratórios e instituições já têm a oportunidade de adaptar este software às suas próprias necessidades.

Este Jupyter Notebook, um aplicativo da web de análise de dados popular, está usando o Tiled para acessar dados para cálculos, processamento e visualização. Crédito: Laboratório Nacional de Brookhaven

Peter Beaucage, um cientista da equipe do Instituto Nacional de Padrões e Tecnologia (NIST), que é um dos primeiros usuários do Tiled, integrou-o com seu próprio programa de análise de dados científicos, PyHyperScattering. Ele permite que o Tiled cuide da transferência de dados e dos detalhes de segurança, com base nisso para fornecer a seus usuários a interface específica de que precisam para seu trabalho.

“O volume de dados síncrotron necessários para uma análise típica se expandiu dramaticamente na última década, rapidamente escalando além dos recursos das plataformas de transferência de dados existentes. Soluções lado a lado e semelhantes prometem dar aos usuários acesso contínuo aos dados certos no momento certo e acelerar descoberta baseada na ciência de raios-X “, disse Beaucage.

Além de Beaucage, outros usuários do Tiled também construíram pipelines de análise de dados, movendo dados de experimentos ao vivo em NSLS-II para clusters remotos e em software personalizado para visualizar e interrogar os dados. Cada etapa foi apoiada pelo Tiled.

“No geral, estamos incrivelmente orgulhosos de lançar o Tiled. É o ponto culminante do nosso trabalho nos últimos seis anos. Ele combina todos os recursos que desejamos em ferramentas modernas de acesso a dados e anda de mãos dadas com o Bluesky”, disse Campbell .

A estrada a frente

O azulejo permitirá que um jardim inteiro de ferramentas úteis cresça para uma ampla gama de técnicas. A equipe está focada na construção de vários aplicativos da web focados em técnicas de pesquisa específicas. A equipe também deseja projetar uma interface de dados públicos para que qualquer pessoa possa explorar dados reais disponíveis publicamente usando o Tiled.

“As bolsas geralmente exigem acesso aberto aos dados, mas é difícil para os pesquisadores conseguirem isso de uma forma prática e imediatamente útil. O Tiled abre caminho até a porta dos pesquisadores, trabalhando com as ferramentas que eles já usam para ajudá-los a tornar os dados localizáveis, acessível, interoperável e reutilizável, seguindo os princípios orientadores da FAIR para a gestão e administração de dados científicos “, acrescentou Allan.

Ao separar como os dados são armazenados de como são acessados, o Tiled abre uma maneira de usar armazenamento de ponta e tecnologias de pesquisa internas, ao mesmo tempo que apresenta aos pesquisadores padrões comprovados e estabelecidos. Ela os encontra onde estão e os deixa com a responsabilidade de formatar e trabalhar com seus dados.

“O Tiled visa seguir outros esforços de software NSLS-II no crescimento de uma comunidade amigável de colaboradores e usuários. Estamos buscando ativamente a colaboração com instalações e pesquisadores em todo o mundo – seja na indústria, academia ou governo – que têm desafios semelhantes, e nós estamos ansiosos para ver o que podemos construir juntos nesta plataforma “, disse Allan.


Publicado em 25/11/2021 11h00

Artigo original:

Estudo original: