Usando inteligência artificial para gerar hologramas 3D em tempo real

A demonstração experimental de projeção holográfica 2D e 3D. A fotografia da esquerda está focada no brinquedo do mouse (em caixa amarela) mais próximo da câmera, e a fotografia da direita está focada no calendário perpétuo de mesa (em caixa azul). Crédito: Liang Shi, Wojciech Matusik, et al

Apesar de anos de exagero, os fones de ouvido de realidade virtual ainda não derrubaram as telas de TV ou computador como dispositivos essenciais para a visualização de vídeos. Um motivo: a RV pode fazer os usuários se sentirem mal. Podem ocorrer náuseas e cansaço visual porque a RV cria uma ilusão de visualização 3D, embora o usuário esteja, na verdade, olhando para uma tela 2D de distância fixa. A solução para uma melhor visualização 3D poderia estar em uma tecnologia de 60 anos refeita para o mundo digital: hologramas.

Os hologramas fornecem uma representação excepcional do mundo 3D ao nosso redor. Além disso, eles são lindos. (Vá em frente – verifique a pomba holográfica em seu cartão Visa.) Os hologramas oferecem uma perspectiva de mudança com base na posição do observador e permitem que o olho ajuste a profundidade focal para focar alternadamente no primeiro e no segundo plano.

Os pesquisadores há muito buscam fazer hologramas gerados por computador, mas o processo tradicionalmente requer um supercomputador para fazer simulações físicas, o que é demorado e pode produzir resultados menos do que fotorrealísticos. Agora, os pesquisadores do MIT desenvolveram uma nova maneira de produzir hologramas quase que instantaneamente – e o método baseado no aprendizado profundo é tão eficiente que pode ser executado em um laptop em um piscar de olhos, dizem os pesquisadores.

“As pessoas pensavam anteriormente que, com o hardware existente para o consumidor, seria impossível fazer cálculos de holografia 3D em tempo real”, diz Liang Shi, principal autor do estudo e Ph.D. estudante do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT. “Costuma-se dizer que as telas holográficas disponíveis comercialmente estarão disponíveis em 10 anos, mas esta declaração já existe há décadas.”

Shi acredita que a nova abordagem, que a equipe chama de “holografia tensorial”, finalmente trará essa meta de 10 anos indescritível ao seu alcance. O avanço pode impulsionar a holografia em campos como VR e impressão 3D.

Shi trabalhou no estudo, publicado na Nature, com seu orientador e co-autor Wojciech Matusik. Outros co-autores incluem Beichen Li do EECS e o Laboratório de Ciência da Computação e Inteligência Artificial do MIT, bem como os ex-pesquisadores do MIT Changil Kim (agora no Facebook) e Petr Kellnhofer (agora na Stanford University).

A busca por um 3D melhor

Uma fotografia típica baseada em lente codifica o brilho de cada onda de luz – uma foto pode reproduzir fielmente as cores de uma cena, mas acaba produzindo uma imagem plana.

Em contraste, um holograma codifica o brilho e a fase de cada onda de luz. Essa combinação oferece uma representação mais verdadeira da paralaxe e da profundidade de uma cena. Assim, enquanto uma fotografia dos “Nenúfares” de Monet pode destacar a paleta de cores das pinturas, um holograma pode dar vida ao trabalho, reproduzindo a textura 3D exclusiva de cada pincelada. Mas, apesar de seu realismo, os hologramas são um desafio para fazer e compartilhar.

Desenvolvido pela primeira vez em meados de 1900, os primeiros hologramas foram gravados opticamente. Isso exigia a divisão de um feixe de laser, com metade do feixe usado para iluminar o assunto e a outra metade usada como referência para a fase das ondas de luz. Esta referência gera uma sensação única de profundidade de um holograma. As imagens resultantes eram estáticas, então não podiam capturar movimento. E eram apenas cópias impressas, o que os tornava difíceis de reproduzir e compartilhar.

A holografia gerada por computador contorna esses desafios simulando a configuração óptica. Mas o processo pode ser um trabalho árduo computacional. “Como cada ponto da cena tem uma profundidade diferente, você não pode aplicar as mesmas operações para todos eles”, diz Shi. “Isso aumenta significativamente a complexidade.” Direcionar um supercomputador agrupado para executar essas simulações baseadas em física pode levar segundos ou minutos para uma única imagem holográfica. Além disso, os algoritmos existentes não modelam a oclusão com precisão fotorrealística. Portanto, a equipe de Shi adotou uma abordagem diferente: permitir que o computador ensinasse física a si mesmo.

Eles usaram o aprendizado profundo para acelerar a holografia gerada por computador, permitindo a geração de hologramas em tempo real. A equipe projetou uma rede neural convolucional – uma técnica de processamento que usa uma cadeia de tensores treináveis para imitar aproximadamente como os humanos processam as informações visuais. O treinamento de uma rede neural normalmente requer um grande conjunto de dados de alta qualidade, que não existia anteriormente para hologramas 3D.

A equipe construiu um banco de dados personalizado de 4.000 pares de imagens geradas por computador. Cada par combinou uma imagem – incluindo informações de cor e profundidade para cada pixel – com seu holograma correspondente. Para criar os hologramas no novo banco de dados, os pesquisadores usaram cenas com formas e cores complexas e variáveis, com a profundidade dos pixels distribuída uniformemente do fundo para o primeiro plano, e com um novo conjunto de cálculos baseados na física para lidar com a oclusão. Essa abordagem resultou em dados de treinamento fotorrealísticos. Em seguida, o algoritmo começou a funcionar.

Ao aprender com cada par de imagens, a rede tensorial ajustou os parâmetros de seus próprios cálculos, aumentando sucessivamente sua capacidade de criar hologramas. A rede totalmente otimizada operou ordens de magnitude mais rápido do que os cálculos baseados na física. Essa eficiência surpreendeu a própria equipe.

“Estamos maravilhados com o seu desempenho”, diz Matusik. Em meros milissegundos, a holografia tensorial pode criar hologramas a partir de imagens com informações de profundidade – que são fornecidas por imagens geradas por computador típicas e podem ser calculadas a partir de uma configuração multicâmera ou sensor LiDAR (ambos são padrão em alguns novos smartphones). Este avanço abre caminho para holografia 3D em tempo real. Além do mais, a rede de tensores compactos requer menos de 1 MB de memória. “É insignificante, considerando as dezenas e centenas de gigabytes disponíveis no celular mais recente”, diz ele.

“Um salto considerável”

A holografia 3D em tempo real aprimoraria uma série de sistemas, de VR à impressão 3D. A equipe afirma que o novo sistema pode ajudar a mergulhar os visualizadores de RV em um cenário mais realista, ao mesmo tempo que elimina o cansaço visual e outros efeitos colaterais do uso de RV a longo prazo. A tecnologia poderia ser facilmente implantada em monitores que modulam a fase das ondas de luz. Atualmente, os monitores de consumo mais acessíveis modulam apenas o brilho, embora o custo dos monitores com modulação de fase cairia se amplamente adotados.

A holografia tridimensional também pode impulsionar o desenvolvimento da impressão 3D volumétrica, dizem os pesquisadores. Essa tecnologia pode ser mais rápida e precisa do que a impressão 3D tradicional camada por camada, uma vez que a impressão 3D volumétrica permite a projeção simultânea de todo o padrão 3D. Outras aplicações incluem microscopia, visualização de dados médicos e o design de superfícies com propriedades ópticas exclusivas.

“É um salto considerável que pode mudar completamente as atitudes das pessoas em relação à holografia”, diz Matusik. “Sentimos que as redes neurais nasceram para essa tarefa.”


Publicado em 11/03/2021 18h11

Artigo original:

Estudo original: