Deep Learning com luz: componentes do modelo de aprendizado de máquina codificados em ondas de luz

Imagem via Unsplash

Pergunte a um dispositivo doméstico inteligente a previsão do tempo e leva vários segundos para o dispositivo responder. Uma razão pela qual essa latência ocorre é porque os dispositivos conectados não têm memória ou energia suficientes para armazenar e executar os enormes modelos de machine learning necessários para que o dispositivo entenda o que o usuário está pedindo. O modelo é armazenado em um data center que pode estar a centenas de quilômetros de distância, onde a resposta é computada e enviada ao dispositivo.

Pesquisadores do MIT criaram um novo método para computar diretamente nesses dispositivos, o que reduz drasticamente essa latência. Sua técnica muda as etapas de uso intensivo de memória da execução de um modelo de machine learning para um servidor central onde os componentes do modelo são codificados em ondas de luz.

As ondas são transmitidas para um dispositivo conectado usando fibra ótica, o que permite que toneladas de dados sejam enviadas rapidamente através de uma rede. O receptor então emprega um dispositivo óptico simples que realiza cálculos rapidamente usando as partes de um modelo transportadas por essas ondas de luz.

Esta técnica leva a uma melhoria de mais de cem vezes na eficiência energética quando comparada a outros métodos. Também poderia melhorar a segurança, uma vez que os dados de um usuário não precisam ser transferidos para um local central para computação.

Esse método pode permitir que um carro autônomo tome decisões em tempo real usando apenas uma pequena porcentagem da energia atualmente exigida por computadores que consomem muita energia. Também pode permitir que um usuário tenha uma conversa sem latência com seu dispositivo doméstico inteligente, seja usado para processamento de vídeo ao vivo em redes celulares ou até permita a classificação de imagens em alta velocidade em uma espaçonave a milhões de quilômetros da Terra.

“Toda vez que você deseja executar uma rede neural, você precisa executar o programa, e a rapidez com que você pode executar o programa depende de quão rápido você pode canalizar o programa da memória. Nosso canal é enorme – corresponde a enviar um filme de longa-metragem pela internet a cada milissegundo ou mais. É assim que os dados chegam rapidamente ao nosso sistema. E ele pode computar tão rápido quanto isso”, diz o autor sênior Dirk Englund, professor associado do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) e membro do MIT Research Laboratory of Electronics.

Juntando-se a Englund no artigo está o autor principal e estudante de pós-graduação do EECS, Alexander Sludds; O estudante de pós-graduação do EECS Saumil Bandyopadhyay, o cientista pesquisador Ryan Hamerly, bem como outros do MIT, do MIT Lincoln Laboratory e da Nokia Corporation. A pesquisa será publicada na revista Science.

Aliviando a carga

As redes neurais são modelos de machine learning que usam camadas de nós conectados, ou neurônios, para reconhecer padrões em conjuntos de dados e realizar tarefas, como classificar imagens ou reconhecer fala. Mas esses modelos podem conter bilhões de parâmetros de peso, que são valores numéricos que transformam os dados de entrada à medida que são processados. Esses pesos devem ser armazenados na memória. Ao mesmo tempo, o processo de transformação de dados envolve bilhões de cálculos algébricos, que exigem muita energia para serem executados.

O processo de buscar dados (os pesos da rede neural, neste caso) da memória e movê-los para as partes de um computador que fazem a computação real é um dos maiores fatores limitantes à velocidade e eficiência energética, diz Sludds.

“Então, nosso pensamento foi, por que não pegamos todo esse trabalho pesado – o processo de buscar bilhões de pesos da memória – afastá-lo do dispositivo de ponta e colocá-lo em algum lugar onde tenhamos acesso abundante a energia e memória, o que dá nos a capacidade de buscar esses pesos rapidamente?” ele diz.

A arquitetura de rede neural desenvolvida por eles, o Netcast, envolve o armazenamento de pesos em um servidor central conectado a uma nova peça de hardware chamada transceptor inteligente. Este transceptor inteligente, um chip do tamanho de um polegar que pode receber e transmitir dados, usa tecnologia conhecida como fotônica de silício para buscar trilhões de pesos da memória a cada segundo.

Ele recebe pesos como sinais elétricos e os imprime em ondas de luz. Como os dados de peso são codificados como bits (1s e 0s), o transceptor os converte alternando os lasers; um laser é ligado para 1 e desligado para 0. Ele combina essas ondas de luz e as transfere periodicamente através de uma rede de fibra óptica para que um dispositivo cliente não precise consultar o servidor para recebê-las.

“A óptica é ótima porque há muitas maneiras de transportar dados dentro da óptica. Por exemplo, você pode colocar dados em diferentes cores de luz, e isso permite uma taxa de transferência de dados muito maior e maior largura de banda do que com a eletrônica”, explica Bandyopadhyay.

Trilhões por segundo

Uma vez que as ondas de luz chegam ao dispositivo cliente, um componente óptico simples conhecido como modulador de banda larga “Mach-Zehnder” as usa para realizar computação analógica super-rápida. Isso envolve a codificação de dados de entrada do dispositivo, como informações do sensor, nos pesos. Em seguida, ele envia cada comprimento de onda individual para um receptor que detecta a luz e mede o resultado da computação.

Os pesquisadores criaram uma maneira de usar esse modulador para fazer trilhões de multiplicações por segundo, o que aumenta muito a velocidade de computação no dispositivo usando apenas uma pequena quantidade de energia.

“Para tornar algo mais rápido, você precisa torná-lo mais eficiente em termos energéticos. Mas há um trade-off. Construímos um sistema que pode operar com cerca de um miliwatt de energia, mas ainda fazer trilhões de multiplicações por segundo. Em em termos de velocidade e eficiência energética, isso é um ganho de ordem de magnitude”, diz Sludds.

Eles testaram essa arquitetura enviando pesos por uma fibra de 86 quilômetros que conecta seu laboratório ao MIT Lincoln Laboratory. O Netcast permitiu o machine learning com alta precisão – 98,7% para classificação de imagens e 98,8% para reconhecimento de dígitos – em velocidades rápidas.

“Tivemos que fazer alguma calibração, mas fiquei surpreso com o pouco trabalho que tivemos que fazer para obter uma precisão tão alta fora da caixa. Conseguimos obter uma precisão comercialmente relevante”, acrescenta Hamerly.

No futuro, os pesquisadores querem iterar no chip transceptor inteligente para obter um desempenho ainda melhor. Eles também querem miniaturizar o receptor, que atualmente é do tamanho de uma caixa de sapatos, para o tamanho de um único chip, para que possa caber em um dispositivo inteligente como um telefone celular.


Publicado em 23/10/2022 11h01

Artigo original:

Estudo original: