Vendo o invisível: tecnologia inovadora permite que os carros espiem nas esquinas

Conceito de tecnologia de carro autônomo

#Autônomos 

Os pesquisadores aproveitam as sombras para modelar cenas 3D, incluindo objetos bloqueados na visão

Essa técnica pode levar a veículos autônomos mais seguros, headsets AR/VR mais eficientes ou robôs de armazém mais rápidos.

Imagine dirigir por um túnel em um veículo autônomo, mas, sem você saber, um acidente interrompeu o trânsito à frente.

Normalmente, você precisaria confiar no carro à sua frente para saber que deveria começar a frear.

Mas e se o seu veículo pudesse ver ao redor do carro à frente e pisar no freio ainda mais cedo? Pesquisadores do MIT e Meta desenvolveram uma técnica de visão computacional que algum dia poderá permitir que um veículo autônomo faça exatamente isso.

Eles introduziram um método que cria modelos 3D fisicamente precisos de uma cena inteira, incluindo áreas bloqueadas de visualização, usando imagens de uma única posição de câmera.

Sua técnica usa sombras para determinar o que está nas partes obstruídas da cena.

Plato-NeRF é um sistema de visão computacional que combina medições lidar com machine learning para reconstruir uma cena 3D, incluindo objetos ocultos, a partir de apenas uma visão de câmera, explorando sombras. Aqui, o sistema modela com precisão o coelho na cadeira, mesmo que a visão do coelho esteja bloqueada. Crédito: Cortesia dos pesquisadores, editado por MIT News

Eles chamam sua abordagem de PlatoNeRF, baseada na alegoria da caverna de Platão, uma passagem da República do filósofo grego – na qual prisioneiros acorrentados em uma caverna discernem a realidade do mundo exterior com base nas sombras projetadas na parede da caverna.

Ao combinar a tecnologia lidar (detecção e alcance de luz) com machine learning, a PlatoNeRF pode gerar reconstruções mais precisas da geometria 3D do que algumas técnicas de IA existentes.

Além disso, PlatoNeRF é melhor na reconstrução suave de cenas onde as sombras são difíceis de ver, como aquelas com muita luz ambiente ou fundos escuros.

Aprimorando AR/VR e robótica com PlatoNeRF Além de melhorar a segurança de veículos autônomos, PlatoNeRF poderia tornar os fones de ouvido AR/VR mais eficientes, permitindo que um usuário modele a geometria de uma sala sem a necessidade de andar por aí fazendo medições.

Também poderia ajudar os robôs de armazém encontrando itens em ambientes desordenados com mais rapidez.

Nossa ideia principal era pegar essas duas coisas que já foram feitas em disciplinas diferentes e juntá-las: lidar multibounce e machine learning.

Acontece que quando você junta esses dois, você encontra muitas novas oportunidades para explorar e obter o melhor dos dois mundos,- diz Tzofi Klinghoffer, estudante de graduação em artes e ciências de mídia do MIT, assistente de pesquisa no Camera Culture Group do MIT Media Lab e autor principal de um artigo sobre PlatoNeRF.

Klinghoffer escreveu o artigo com seu orientador, Ramesh Raskar, professor associado de artes e ciências da mídia e líder do Camera Culture Group do MIT; autor sênior Rakesh Ranjan, diretor de pesquisa de IA do Meta Reality Labs; bem como Siddharth Somasundaram, assistente de pesquisa do Camera Culture Group, e Xiaoyu Xiang, Yuchen Fan e Christian Richardt da Meta.

A pesquisa será apresentada na Conferência sobre Visão Computacional e Reconhecimento de Padrões.

Reconstrução 3D avançada com Lidar e machine learning Reconstruir uma cena 3D completa do ponto de vista de uma câmera é um problema complexo.

Algumas abordagens de machine learning empregam modelos generativos de IA que tentam adivinhar o que está nas regiões ocluídas, mas esses modelos podem alucinar objetos que realmente não estão lá.

Outras abordagens tentam inferir as formas de objetos ocultos usando sombras em uma imagem colorida, mas esses métodos podem ter dificuldades quando as sombras são difíceis de ver.

Para PlatoNeRF, os pesquisadores do MIT desenvolveram essas abordagens usando uma nova modalidade de detecção chamada lidar de fóton único.

Os Lidars mapeiam uma cena 3D emitindo pulsos de luz e medindo o tempo que essa luz leva para retornar ao sensor.

Como os lidars de fóton único podem detectar fótons individuais, eles fornecem dados de maior resolução.

Os pesquisadores usam um lidar de fóton único para iluminar um ponto alvo na cena.

Alguma luz reflete nesse ponto e retorna diretamente para o sensor.

No entanto, a maior parte da luz se espalha e reflete em outros objetos antes de retornar ao sensor.

PlatoNeRF depende desses segundos reflexos de luz.

Ao calcular quanto tempo leva para a luz refletir duas vezes e depois retornar ao sensor lidar, o PlatoNeRF captura informações adicionais sobre a cena, incluindo profundidade.

O segundo reflexo de luz também contém informações sobre sombras.

O sistema rastreia os raios de luz secundários – aqueles que refletem no ponto alvo para outros pontos da cena – para determinar quais pontos estão na sombra (devido à ausência de luz).

Com base na localização dessas sombras, PlatoNeRF pode inferir a geometria de objetos ocultos.

O lidar ilumina sequencialmente 16 pontos, capturando múltiplas imagens que são usadas para reconstruir toda a cena 3D.

Cada vez que iluminamos um ponto da cena, estamos criando novas sombras.

Como temos todas essas diferentes fontes de iluminação, temos muitos raios de luz disparando ao redor, por isso estamos esculpindo a região que está ocluída e fica além do olho visível”, diz Klinghoffer.Combinando Multibounce Lidar e Neural Radiance Fields A chave para PlatoNeRF é a combinação de multibounce lidar com um tipo especial de modelo de machine learning conhecido como campo de radiância neural (NeRF).

Um NeRF codifica a geometria de uma cena nos pesos de uma rede neural, o que dá ao modelo uma forte capacidade de interpolar ou estimar novas visualizações de uma cena.

Essa capacidade de interpolar também leva a reconstruções de cena altamente precisas quando combinada com lidar multibounce, diz Klinghoffer.

O maior desafio foi descobrir como combinar essas duas coisas.

Nós realmente tivemos que pensar sobre a física de como a luz é transportada com lidar multibounce e como modelar isso com machine learning”, diz ele.

Eles compararam o PlatoNeRF a dois métodos alternativos comuns, um que usa apenas lidar e outro que usa apenas NeRF com imagem colorida.

Eles descobriram que seu método foi capaz de superar ambas as técnicas, especialmente quando o sensor lidar tinha resolução mais baixa.

Isso tornaria sua abordagem mais prática para implantação no mundo real, onde sensores de resolução mais baixa são comuns em dispositivos comerciais.

Há cerca de 15 anos, nosso grupo inventou a primeira câmera para “ver? pelos cantos, que funciona explorando múltiplos reflexos de luz, ou “ecos de luz”.

Essas técnicas usavam lasers e sensores especiais e três reflexos de luz.

Desde então, a tecnologia lidar tornou-se mais popular, o que levou à nossa pesquisa sobre câmeras que podem ver através da neblina.

Este novo trabalho usa apenas dois reflexos de luz, o que significa que a relação sinal-ruído é muito alta e a qualidade da reconstrução 3D é impressionante,- diz Raskar.

No futuro, os pesquisadores querem tentar rastrear mais de dois reflexos de luz para ver como isso poderia melhorar as reconstruções de cenas.

Além disso, eles estão interessados em aplicar técnicas de aprendizado mais profundo e combinar PlatoNeRF com medições de imagens coloridas para capturar informações de textura.

Embora as imagens de sombras da câmera tenham sido estudadas há muito tempo como um meio de reconstrução 3D, este trabalho revisita o problema no contexto do lidar, demonstrando melhorias significativas na precisão da geometria oculta reconstruída.

O trabalho mostra como algoritmos inteligentes podem permitir capacidades extraordinárias quando combinados com sensores comuns – incluindo os sistemas lidar que muitos de nós agora carregamos no bolso”, diz David Lindell, professor assistente do Departamento de Ciência da Computação da Universidade de Toronto, que não esteve envolvido neste trabalho.


Publicado em 08/07/2024 00h00

Artigo original: