Usando reflexões para ver o mundo de novos pontos de vista

Pesquisadores do MIT e da Rice University criaram uma técnica de visão computacional que aproveita os reflexos para criar imagens do mundo, usando-os para transformar objetos brilhantes em “câmeras”, permitindo que o usuário veja o mundo como se estivesse olhando através das “lentes” do cotidiano. objetos como uma caneca de café de cerâmica ou um peso de papel metálico.

Créditos:Crédito: Cortesia dos pesquisadores


#Inteligência Artificial 

Um novo sistema de visão computacional transforma qualquer objeto brilhante em uma espécie de câmera, permitindo que um observador veja além de cantos ou obstruções.

À medida que um carro percorre uma rua estreita da cidade, os reflexos da pintura brilhante ou dos espelhos laterais dos veículos estacionados podem ajudar o motorista a vislumbrar coisas que, de outra forma, estariam escondidas, como uma criança brincando na calçada atrás dos carros estacionados.

Com base nessa ideia, pesquisadores do MIT e da Rice University criaram uma técnica de visão computacional que aproveita reflexões para criar imagens do mundo. Seu método usa reflexos para transformar objetos brilhantes em “câmeras”, permitindo que o usuário veja o mundo como se estivesse olhando através das “lentes” de objetos do cotidiano, como uma caneca de café de cerâmica ou um peso de papel metálico.

Usando imagens de um objeto tiradas de diferentes ângulos, a técnica converte a superfície desse objeto em um sensor virtual que capta os reflexos. O sistema de IA mapeia esses reflexos de forma a permitir estimar a profundidade da cena e capturar novas visualizações que só seriam visíveis da perspectiva do objeto. Pode-se usar essa técnica para ver além dos cantos ou além dos objetos que bloqueiam a visão do observador.

Este método pode ser especialmente útil em veículos autônomos. Por exemplo, poderia permitir que um carro autônomo usasse reflexos de objetos pelos quais passa, como postes de iluminação ou edifícios, para ver ao redor de um caminhão estacionado.

“Mostramos que qualquer superfície pode ser convertida em sensor com essa formulação que converte objetos em pixels virtuais e sensores virtuais. Isso pode ser aplicado em muitas áreas diferentes”, diz Kushagra Tiwary, estudante de pós-graduação do Camera Culture Group no Media Lab e coautor principal de um artigo sobre esta pesquisa.

Tiwary é acompanhado no artigo pelo co-autor principal Akshat Dave, um estudante de pós-graduação da Rice University; Nikhil Behari, um associado de apoio à pesquisa do MIT; Tzofi Klinghoffer, um estudante de pós-graduação do MIT; Ashok Veeraraghavan, professor de engenharia elétrica e de computação na Rice University; e o autor sênior Ramesh Raskar, professor associado de artes e ciências da mídia e líder do Camera Culture Group no MIT. A pesquisa será apresentada na Conferência sobre Visão Computacional e Reconhecimento de Padrões.

Refletindo sobre reflexões

Os heróis dos programas policiais de televisão geralmente “ampliam e aprimoram” as imagens de vigilância para capturar reflexos – talvez aqueles capturados nos óculos de sol de um suspeito – que os ajudam a resolver um crime.

“Na vida real, explorar esses reflexos não é tão fácil quanto apertar um botão de aprimoramento. Obter informações úteis dessas reflexões é muito difícil porque as reflexões nos dão uma visão distorcida do mundo”, diz Dave.

Essa distorção depende da forma do objeto e do mundo que o objeto está refletindo, sobre os quais os pesquisadores podem ter informações incompletas. Além disso, o objeto brilhante pode ter cor e textura próprias que se misturam com os reflexos. Além disso, os reflexos são projeções bidimensionais de um mundo tridimensional, o que torna difícil julgar a profundidade nas cenas refletidas.

Os pesquisadores encontraram uma maneira de superar esses desafios. Sua técnica, conhecida como ORCa (sigla para Objects as Radiance-Field Cameras), funciona em três etapas. Primeiro, eles tiram fotos de um objeto de vários pontos de vista, capturando vários reflexos no objeto brilhante.

Então, para cada imagem da câmera real, o ORCa usa machine learning para converter a superfície do objeto em um sensor virtual que captura a luz e os reflexos que atingem cada pixel virtual na superfície do objeto. Finalmente, o sistema usa pixels virtuais na superfície do objeto para modelar o ambiente 3D do ponto de vista do objeto.

Pegando raios

A geração de imagens do objeto de vários ângulos permite que o ORCa capture reflexões multiview, que o sistema usa para estimar a profundidade entre o objeto brilhante e outros objetos na cena, além de estimar a forma do objeto brilhante. ORCa modela a cena como um campo de radiância 5D, que captura informações adicionais sobre a intensidade e a direção dos raios de luz que emanam e atingem cada ponto da cena.

As informações adicionais contidas neste campo de radiância 5D também ajudam o ORCa a estimar com precisão a profundidade. E como a cena é representada como um campo de radiância 5D, em vez de uma imagem 2D, o usuário pode ver recursos ocultos que, de outra forma, seriam bloqueados por cantos ou obstruções.

Na verdade, uma vez que o ORCa capturou esse campo de radiância 5D, o usuário pode colocar uma câmera virtual em qualquer lugar da cena e sintetizar o que essa câmera veria, explica Dave. O usuário também pode inserir objetos virtuais no ambiente ou alterar a aparência de um objeto, como de cerâmica para metálica.

As informações adicionais que são capturadas no campo de radiância 5D que o ORCa aprende permitem que o usuário altere a aparência dos objetos na cena, neste caso, renderizando a esfera brilhante e a caneca como objetos metálicos.

Crédito: Cortesia dos pesquisadores


“Foi especialmente desafiador passar de uma imagem 2D para um ambiente 5D. Você precisa garantir que o mapeamento funcione e seja fisicamente preciso, por isso é baseado em como a luz viaja no espaço e como a luz interage com o ambiente. Passamos muito tempo pensando em como podemos modelar uma superfície”, diz Tiwary.

Estimativas precisas

Os pesquisadores avaliaram sua técnica comparando-a com outros métodos que modelam reflexões, que é uma tarefa um pouco diferente da que o ORCa executa. O método deles teve um bom desempenho ao separar a cor verdadeira de um objeto dos reflexos e superou as linhas de base ao extrair geometrias e texturas de objetos mais precisas.

Eles compararam as estimativas de profundidade do sistema com dados reais simulados sobre a distância real entre os objetos na cena e descobriram que as previsões do ORCa eram confiáveis.

“Consistentemente, com ORCa, ele não apenas estima o ambiente com precisão como uma imagem 5D, mas para conseguir isso, nas etapas intermediárias, também faz um bom trabalho estimando a forma do objeto e separando os reflexos da textura do objeto,” Dave diz.

Com base nessa prova de conceito, os pesquisadores querem aplicar essa técnica às imagens de drones. O ORCa poderia usar reflexos fracos de objetos sobre os quais um drone voa para reconstruir uma cena do solo. Eles também querem aprimorar o ORCa para que ele possa utilizar outras pistas, como sombras, para reconstruir informações ocultas ou combinar reflexos de dois objetos para criar imagens de novas partes de uma cena.

“Estimar os reflexos especulares é realmente importante para ver em cantos, e este é o próximo passo natural para ver em cantos usando reflexos fracos na cena”, diz Raskar.

“Normalmente, objetos brilhantes são difíceis de manusear pelos sistemas de visão. Este papel é muito criativo porque transforma a fraqueza de longa data do brilho do objeto em uma vantagem. Ao explorar os reflexos do ambiente em um objeto brilhante, o papel não só consegue ver partes ocultas da cena, mas também entender como a cena é iluminada. Isso permite aplicações em percepção 3D que incluem, mas não estão limitadas a, uma capacidade de compor objetos virtuais em cenas reais de maneiras que parecem perfeitas, mesmo em condições de iluminação desafiadoras”, diz Achuta Kadambi, professor assistente de engenharia elétrica e ciência da computação na da Universidade da Califórnia em Los Angeles, que não esteve envolvido com este trabalho. “Uma razão pela qual outros não conseguiram usar objetos brilhantes dessa maneira é que a maioria dos trabalhos anteriores requer superfícies com geometria ou textura conhecidas. Os autores derivaram uma nova formulação intrigante que não requer tal conhecimento.”

A pesquisa foi apoiada, em parte, pela Atividade de Projetos de Pesquisa Avançada de Inteligência e pela National Science Foundation.


Publicado em 22/05/2023 12h16

Artigo original: