A era da exascale e o futuro da supercomputação

O AVIDAC ostentava notável poder de computação para a época, realizando 1.000 multiplicações por segundo. Os smartphones de hoje podem armazenar cerca de 100 milhões de vezes mais dados e fazer em um único segundo o que o AVIDAC levaria dois meses. Na foto com o AVIDAC está a cientista da computação pioneira de Argonne, Jean F. Hall. Crédito: Laboratório Nacional de Argonne

Argonne olha para o exascale e além, separando a relação entre a computação e as instalações experimentais, a necessidade de velocidade e o papel da IA em fazer tudo funcionar.

Em 1949, físicos do recém-criado Laboratório Nacional de Argonne do Departamento de Energia dos EUA (DOE) ordenaram a construção da Versão Argonne do Computador Automático Digital do Instituto, ou AVIDAC. Uma versão modificada do primeiro computador eletrônico construído no Institute for Advanced Study em Princeton, New Jersey, destinava-se a ajudar a resolver problemas complexos no projeto de reatores nucleares.

Com uma área útil de 500 pés quadrados e consumo de energia de 20 quilowatts, o AVIDAC ostentava um notável poder de computação para a época. Ele possuía uma memória de 1.024 palavras (cerca de 5,1 kilobytes no total), podia fazer 1.000 multiplicações por segundo e tinha uma capacidade de programação que lhe permitia resolver problemas de forma consistente e precisa.

Hoje, seu smartphone pode armazenar cerca de 100 milhões de vezes mais dados e pode fazer em um único segundo o que o AVIDAC levaria dois meses.

Desde AVIDAC, Argonne tem abrigado um inventário impressionante de máquinas cada vez mais poderosas e, durante a maior parte de sua história de 75 anos, assumiu um papel de liderança no avanço dos esforços de supercomputação e no fortalecimento das bases para descobertas essenciais em cosmologia, clima, pesquisa de energia e muito mais, muito mais.

Ao longo de décadas de pesquisa, inovação e colaboração, Argonne ajudou a moldar máquinas de descoberta, cada uma mais complexa do que sua antecessora. E com uma perspectiva única como host e usuário de supercomputadores, o laboratório continua a conduzir conversas mais amplas sobre o futuro da supercomputação.

Katherine Riley testemunhou o advento e a morte de várias gerações de supercomputadores Argonne e terá contribuições em projetos futuros – um futuro que parece chegar mais rápido o tempo todo.

Quando ela se juntou à Argonne no início dos anos 2000, a designer de chips de computador Intel alcançou, apenas alguns anos antes, um teraflop de poder computacional – um trilhão de operações por segundo. Naquela época, o laboratório estava discutindo o potencial das máquinas petaflop que acabariam por realizar quatrilhões de cálculos por segundo.

“Mesmo quando estávamos olhando para sistemas petascale, havia conversas sobre como seria a exascale (um bilhão de bilhões de cálculos por segundo)”, lembrou Riley, agora diretor de ciência da Argonne Leadership Computing Facility (ALCF), um escritório DOE de Facilidade do usuário de ciência. “Lembro-me de alguém projetando o quão quente os chips ficariam em um sistema exascale, e eles pensaram que seria tão quente quanto a superfície do sol.

“Obviamente, ainda não podíamos ver o caminho, mas aprendemos muito e muito avançamos desde então.”

A Argonne aposentou recentemente sua máquina petascale de terceira geração, Mira, e está prestes a receber sua primeira máquina exascale. O novo supercomputador, Aurora, está definido para abrir portas para questões mais complexas, fornecer simulações de resolução mais alta e entregar análises de dados mais rápidas e precisas.

Por mais rápido que seja, Aurora será aprimorada com o uso de inteligência artificial (IA). E essa combinação ajudará a conduzir laboratórios autônomos e autônomos que levarão a experimentos mais eficientes e soluções mais rápidas e descobertas voltadas para questões importantes para a sociedade.

É a era da exascale, o novo futuro da supercomputação. Pelo menos por enquanto, enquanto Riley e seus colegas em todo o laboratório começam a pensar e discutir o próximo capítulo na evolução dos supercomputadores.

Velocidade é o que importa

“A grande diferença entre os supercomputadores do passado e os supercomputadores de hoje é que os primeiros supercomputadores podiam resolver certos tipos de problemas muito rapidamente, mas você não conseguia resolver problemas muito complexos”, disse Salman Habib, diretor da divisão de Ciência da Computação da Argonne. “Os supercomputadores de hoje podem fazer isso, o que faz muito sentido, porque se você é um laboratório nacional como o Argonne, tem a tarefa de resolver esses tipos de problemas.”

“Esses tipos de problemas” afetam a todos nós e moldam o mundo ao nosso redor. Eles envolvem sistemas complexos com muitas partes móveis. Eles variam das relações biológicas dentro dos ecossistemas às complexidades do clima e à formação de mutações em um vírus.

O problema complexo de Habib é o universo; onde esteve, para onde está indo e o que o está levando até lá. É um problema que envolve o desenvolvimento de vários modelos do universo primitivo para compreender os constituintes fundamentais da matéria e como suas populações e distribuições evoluem. Isso exige muito tempo e capacidade computacional.

Mesmo com Aurora na porta, Habib se pergunta se um exaflop de poder de cálculo provará ser o suficiente para responder a sua ou outras questões importantes. Ele não está sozinho. Os cientistas têm lutado com algumas dessas questões por décadas ou mais, e ainda não chegaram perto de resolvê-las totalmente, mesmo com saltos gigantescos na computação.

Para ele, trata-se de obter uma resposta em escalas de tempo que reproduzam como pensamos ou com a rapidez necessária para Alexa ou Siri responder à sua consulta.

?Pensamos em escalas de tempo que ficam na casa das dezenas de segundos ou minutos. Se você tiver que esperar duas semanas para que um computador lhe dê uma resposta, sua cadeia de pensamento já se foi?, disse Habib. “Para me ajudar a pensar, a máquina deve me responder literalmente em segundos, exatamente como quando você busca algo no Google. Se demorasse duas semanas para obter uma resposta, todo o propósito do Google estaria perdido, certo?”

Chegar a esse tipo de velocidade requer não apenas mudanças na arquitetura do computador, mas o desenvolvimento de técnicas para acelerar a maneira como fazemos perguntas para melhor compreender os sistemas em estudo.

“Na verdade, não sabemos como escrever, como equações, as perguntas que fazemos sobre alguns dos problemas mais dinâmicos”, disse Rick Stevens, diretor de laboratório associado da Argonne para Computação, Meio Ambiente e Ciências da Vida. “Mesmo se tivermos o supercomputador mais rápido do mundo, eu realmente não poderia escrever a equação do câncer, por exemplo.”

Stevens também é o principal investigador em um projeto de pesquisa sobre o câncer de várias instituições. Para ele, parte da resposta para uma compreensão mais profunda de problemas complexos, como o desenvolvimento de tratamentos para o câncer, está na integração da IA com o design e a função do computador. A combinação pode ajudar a preencher lacunas de informações, o que pode levar a descobertas mais rápidas e inovadoras.

Uma técnica de IA que está ganhando força significativa na comunidade científica é chamada de aprendizado de máquina, que é usada para encontrar padrões em dados. Em uma área complexa de estudo como a pesquisa do câncer, o aprendizado de máquina pode, por exemplo, descobrir e preencher informações sobre o comportamento das células tumorais ou as relações entre as células tumorais e as moléculas de drogas.

“Isso significa que podemos realmente entender as coisas combinando o que sabemos da teoria e o que aprendemos com os dados em um sistema coerente. Em seguida, usamos o supercomputador para prever como esse sistema se comportará”, explicou Stevens. “Acho que as aplicações futuras serão híbridas como esta.”

Resolvendo os desafios do supercomputador

A história da supercomputação é baseada em parte nos exponenciais, disse Stevens. Digno de nota é a Lei de Moore, que afirma que o tamanho e a velocidade dos processadores de computação dobra a cada dois anos.

Embora não seja alcançado inteiramente com a força dos processadores apenas, o poder operacional dos supercomputadores aumentou algo como um trilhão de vezes nos últimos 40 anos, ultrapassando a Lei de Moore.

“Agora, diga qualquer outra coisa em toda a sua compreensão do mundo que se tornou um trilhão de vezes mais rápido nos últimos 40 anos”, disse Stevens. “Eu vou esperar por você.”

Mas uma coisa que não combina muito bem com exponenciais é o poder, acrescentou. E, à medida que os supercomputadores se tornam mais rápidos, eles exigirão muito mais potência, ou energia, para operá-los.

Aurora exigirá cerca de 50 megawatts de energia, 2.000 vezes mais do que o consumido por AVIDAC e mais do que o usado por uma típica cidade pequena. À medida que as velocidades aumentam, as máquinas futuras exigirão o dobro da potência do Aurora e muito mais. As implicações orçamentárias e os requisitos de espaço associados a esse aumento têm o potencial de desacelerar o avanço da supercomputação.

Mas ao forçar o limite do que é possível, mesmo em pequenos incrementos, os pesquisadores podem começar a minimizar o problema.

Como diretora da divisão de Matemática e Ciência da Computação, a pesquisa de Valerie Taylor concentra-se na análise de desempenho e poder. O trabalho conduzido por seu grupo pode tornar as máquinas atuais e futuras com menos consumo de energia e mais eficientes.

“Energia é a quantidade de energia que você usa ao longo do tempo”, explicou ela. “Então, pegamos um aplicativo, por exemplo, e olhamos para a energia média que ele consome durante o tempo de execução de um programa e perguntamos se há maneiras eficientes de reduzir os requisitos de energia.”

Acontece que existem várias estratégias diferentes para alcançar uma melhor eficiência energética. Isso pode incluir o ajuste dos requisitos de energia durante a execução ou a redução do tempo de execução em si, acrescentou Taylor. Modificações podem ser feitas em códigos de software e métodos de aprendizado de máquina podem oferecer insights sobre como os aplicativos podem ser aprimorados.

“Essas são apenas algumas maneiras de reduzir os requisitos de energia”, disse ela. “E às vezes podemos atingir um aumento de 10 a 15 por cento na eficiência energética, e outras vezes pode ser de 40 a 45 por cento. Portanto, não importa qual seja o seu orçamento de energia, existem maneiras de utilizá-lo com mais eficiência.”

Pensando fora do laboratório

Quando se trata do próximo grande acontecimento, a inovação não precisa necessariamente se originar de dentro do laboratório. Hoje, o DOE está trabalhando com grandes desenvolvedores de hardware, como Hewlett Packard e Intel, para fornecer a próxima geração de supercomputadores. Mas amanhã, a inovação pode vir de qualquer número de jogadores.

O supercomputador Mira, aposentado, ajudou os pesquisadores de Argonne a simular a distribuição de massa pelo universo ao longo do tempo, produzindo enormes quantidades de dados que darão suporte a outros experimentos. Supercomputadores futuros ajudarão a criar resolução mais alta, simulações mais realistas e maiores volumes de dados.

“Estamos interessados em colocar as tecnologias mais inovadoras em nossos recursos de computação, qualquer que seja sua fonte”, disse o diretor da ALCF, Michael Papka. “Quanto mais rápido pudermos fazer isso, mais rápido nossos usuários poderão se beneficiar deles.”

Novas gerações de recursos de computação de alto desempenho são introduzidas a cada cinco ou seis anos, acrescentou. Mas e se, em vez de substituir a máquina inteira a cada vez, os componentes pudessem ser atualizados à medida que inovações e ideias se tornassem disponíveis, tornando o próprio recurso mais um experimento?

“O desafio”, observou Papka, “é tornar essas atualizações transparentes para os usuários”.

A ideia não é realmente diferente da maneira como muitos de nós atualizamos nossos computadores domésticos. Você fica sem espaço e compra um disco rígido maior; seu jogo fica um pouco lento, você compra uma nova placa de vídeo.

“A capacidade de enviar atualizações de software durante a noite ou em horários designados já está habilitada no espaço do software hoje, onde você pode acordar na manhã seguinte com uma nova capacidade em seu telefone ou em seu carro”, disse Papka. “Estamos agora tendo uma conversa sobre como realizar essas atualizações de hardware.”

Além disso, ao tornar os sistemas mais fáceis de usar, uma gama mais ampla de usuários pode começar a conduzir pesquisas mais diversificadas.

A integração de simulação, técnicas de IA e análise de dados em uma máquina, por exemplo, já está abrindo as portas para novas ciências para as quais a ideia de usar supercomputadores não estava nas cartas. E essa abordagem integrada para lidar com as complexidades está permitindo que os cientistas explorem diferentes maneiras de fazer suas perguntas.

“Olhe para a comunidade de pesquisa biológica. Eles estavam fazendo experimentos menores. Mas agora, com a explosão das capacidades genômicas, eles estão lidando com problemas que nunca pensaram que seriam viáveis”, sugeriu Riley.

Recentemente, ela acrescentou, pesquisadores que estudam o complexo vírus SARS-CoV-2, responsável pela pandemia de COVID-19, foram adicionados ao rol de usuários de supercomputadores.

Uma colaboração entre a Argonne, parceiros de pesquisa acadêmica e comercial, por exemplo, empurrou o envelope computacional para obter feedback quase em tempo real entre a simulação e as abordagens de IA.

Ao acoplar dois tipos distintos de hardware habilitado para IA, os dados das simulações foram transmitidos de uma plataforma para outra para analisar simultaneamente as interações no vírus SARS-CoV-2 que o ajudam a iludir o sistema imunológico do hospedeiro.

Conforme os supercomputadores ficam mais rápidos e os dados continuam aumentando, a análise de dados em tempo real está se tornando uma ferramenta não apenas para a supercomputação atual e futura, mas para novas interações máquina a máquina.

Integração de tecnologia para conduzir análises em tempo real

Não faz muito tempo que os computadores eram principalmente entidades autônomas, sendo alimentadas e emitindo dados e respostas. Mas, à medida que novas máquinas são construídas, os desenvolvedores estão reconhecendo a relação crescente entre supercomputadores e máquinas externas, como coletores de partículas e telescópios, ferramentas científicas de descoberta que produzem cargas de dados cada vez maiores.

De grande importância para Argonne e pesquisadores de todo o mundo é a Advanced Photon Source (APS), uma instalação do DOE Office of Science. Os feixes de raios-X de alta intensidade produzidos na APS permitem que pesquisadores da academia, indústria e governo tenham a oportunidade de explorar, em grande detalhe, a estrutura e função da matéria e dos materiais.

Uma das fontes mais poderosas de raios X de alta energia do mundo, o APS está no meio de uma atualização que permitirá à instalação gerar raios X 500 vezes mais brilhantes do que sua saída atual. O aumento irá gerar uma quantidade enorme de novos dados que anteriormente não podiam ser capturados.

O principal cientista da computação e líder do grupo da Argonne, Nicholas Schwarz, está liderando os esforços para fornecer os novos recursos de computação que a atualização do APS exigirá nos próximos anos.

“A instalação atualizada permitirá que os pesquisadores façam e ajudem a resolver algumas das questões científicas mais desafiadoras e inovadoras que o mundo enfrenta hoje em áreas como pesquisa de materiais, informação quântica, sistemas de energia e medicina”, disse Schwarz. “Isso exige que analisemos, em tempo real, dados de duas a três ordens de magnitude a mais por ano.”

Para lidar com esse aumento, as futuras tecnologias de supercomputação e IA irão acoplar e processar esses volumes aumentados de dados capturados de experimentos e gerados a partir de simulações em grande escala em um ciclo de feedback. Nesse cenário, ideias científicas são exploradas por meio de simulações, cujos resultados são validados por experimentos na APS. Esses resultados são então usados para corrigir ou sugerir novas simulações. O processo itera, aproximando os cientistas de novos insights com mais rapidez.

Outra vantagem dos recursos de computação e experimentos intimamente ligados é a capacidade de estudar eventos que ocorrem muito rapidamente para serem compreendidos. A supercomputação sob demanda em tempo real permitirá que os pesquisadores analisem grandes quantidades de dados assim que forem coletados para ajudar a identificar eventos raros.

Por exemplo, um experimento de ciência de materiais pode produzir um conjunto de dados que, se analisado rapidamente, pode ajudar a determinar onde ou como uma falha pode se formar e se propagar em uma liga usada em um edifício ou veículo.

?Freqüentemente, fenômenos interessantes e eventos raros ocorrem muito rapidamente para os humanos reconhecerem e reagirem. Eles ocorrem, e puf, eles desaparecem antes que você perceba?, observou Schwarz. “Recursos de computação avançados e instrumentos científicos precisam estar prontos, sob demanda, para responder a um evento quando ele ocorrer. Não podemos dizer à natureza para voltar mais tarde, quando estivermos prontos.”

O “pensamento futuro” atual já está tornando possível esse tipo de análise rápida. Máquinas mais rápidas e a integração de simulação e análise de dados estão abrindo caminho para a automação em experimentos e outras funções de laboratório.

IA e automação

Embora muitas vezes pensemos na automação como o reino dos robôs, grande parte da automação que os líderes de laboratório têm em mente é impulsionada por IA avançada.

Parte do caso da IA é sua capacidade de automatizar tarefas repetitivas e demoradas atualmente realizadas por cientistas e de executá-las de maneira mais rápida e confiável. Por exemplo, o objetivo dos laboratórios automatizados ou autônomos é acelerar simulações, experimentos físicos e, inevitavelmente, descobertas.

“Em breve teremos computadores grandes e poderosos o suficiente para realizar simulações muito poderosas e cálculos de IA em grande escala”, observou Ian Foster, diretor da divisão de Ciência e Aprendizagem de Dados da Argonne. “Isso significa que podemos criar uma nova classe de ferramentas de simulação de aprendizado contínuo e inteligentes que exploram repetidamente muitas respostas possíveis a uma pergunta ou problema – e então aprender com essas simulações para escolher as próximas melhores respostas a serem consideradas.”

Usando a pesquisa de baterias de automóveis, Foster aponta o design de eletrólitos como um exemplo. Existem literalmente milhões de candidatos a eletrólitos possíveis para melhorar a condutividade de uma bateria. Simular, construir e testar todos levaria uma vida inteira.

Mas as técnicas de IA, como o aprendizado de máquina, podem ser treinadas para procurar eletrólitos com características muito específicas. Simulando esses materiais selecionados, os sistemas de IA podem determinar ainda mais quais aproximam os pesquisadores de seu objetivo e, em seguida, usam o conhecimento adquirido com essas simulações para ajudar a escolher os próximos candidatos a serem simulados.

Da mesma forma, os pesquisadores estão desenvolvendo catálogos de materiais e moléculas, até mesmo estruturas cosmológicas, examinadas por tecnologias de IA que vasculham milhões de páginas de periódicos científicos para extrair informações específicas.

“Acabamos com um processo de descoberta habilitado para IA, que esperamos ser muito mais eficiente, talvez acelerando o processo de descoberta por um fator de centenas de milhares.” disse Foster. “Isso é o que queremos fazer com Aurora e vai ser muito interessante ver como funciona.”

Mais rápido, maior, mais longe

O pedido anterior de Salman Habib por uma computação mais rápida parece ter ressonância com muitos usuários. A questão permanece: como vamos chegar lá? Mais rápido pode vir na forma de eficiências ou aceleração de IA ou unidades de processamento mais novas.

Aurora é equipado com CPUs (unidades de processamento central), o hardware de processamento mais tradicional e GPUs (unidades de processamento gráfico) – que lidam com muitas operações dividindo-as em milhares de tarefas menores – que ajudarão a conduzir métodos de treinamento de IA e simulações mais realistas . Mas opções mais novas, como chips quânticos, já estão na prancheta.

A palavra da moda na ciência hoje, quântico qualquer coisa é muitas vezes complicado de explicar e mais complicado de abordar na arquitetura de computação.

“O alvo não é um computador quântico singular, mas este supercomputador muito heterogêneo que tem pedacinhos de tudo”, sugeriu Riley. “Não estamos apostando nisso para o próximo sistema, mas como tudo mais, está chegando e mais rápido do que pensamos.”

Qualquer que seja a solução, todos concordam que, no que diz respeito ao futuro da supercomputação, os negócios normais não serão suficientes. Explorar novos conceitos, abordagens e colaborações terá que ser a norma.

“Estamos nessa jornada eterna para construir as máquinas mais rápidas”, disse Stevens. “Idealmente, teremos acesso a todas essas tecnologias inovadoras para torná-las mais rápidas, porque sempre haverá mais e maiores problemas que precisamos resolver. E só podemos progredir se entregarmos essas estruturas em IA e automação.”

Questionado se ele está feliz com a próxima iteração da supercomputação, Stevens dirá: “Estou feliz enquanto estou feliz. Mas também reconheço que, se quisermos realizar grandes coisas, vamos precisa de computadores muito maiores. ”


Publicado em 22/11/2021 06h52

Artigo original: