Microfone óptico recém-desenvolvido vê o som como nunca antes

Mark Sheinin (esquerda) e Dorian Chan fizeram parte de uma equipe de pesquisa da CMU que desenvolveu um sistema de câmera que pode ver vibrações sonoras com tanta precisão que pode capturar áudio isolado de guitarras separadas tocando ao mesmo tempo. Crédito: Universidade Carnegie Mellon

Um sistema de câmeras desenvolvido por pesquisadores da Carnegie Mellon University pode ver vibrações sonoras com tanta precisão e detalhes que pode reconstruir a música de um único instrumento em uma banda ou orquestra.

Mesmo os microfones direcionados e de alta potência não conseguem eliminar sons próximos, ruído ambiente e o efeito da acústica ao capturar áudio. O novo sistema desenvolvido no Instituto de Robótica da Escola de Ciência da Computação (RI) usa duas câmeras e um laser para detectar vibrações de superfície de alta velocidade e baixa amplitude. Essas vibrações podem ser usadas para reconstruir o som, capturando áudio isolado sem inferência ou microfone.

“Inventamos uma nova maneira de ver o som”, disse Mark Sheinin, pesquisador associado de pós-doutorado no Laboratório de Iluminação e Imagem (ILIM) no RI. “É um novo tipo de sistema de câmera, um novo dispositivo de imagem, capaz de ver algo invisível a olho nu.”

A equipe concluiu várias demonstrações bem-sucedidas da eficácia de seu sistema na detecção de vibrações e na qualidade da reconstrução do som. Eles capturaram áudio isolado de guitarras separadas tocando ao mesmo tempo e alto-falantes individuais tocando músicas diferentes simultaneamente. Eles analisaram as vibrações de um diapasão e usaram as vibrações de um saco de Doritos perto de um alto-falante para capturar o som vindo de um alto-falante. Esta demonstração presta homenagem ao trabalho anterior realizado por pesquisadores do MIT que desenvolveram um dos primeiros microfones visuais em 2014.

Sensor de vibração óptica de obturador duplo (CVPR 2022 oral)

O sistema CMU melhora drasticamente as tentativas anteriores de capturar som usando visão computacional. O trabalho da equipe usa câmeras comuns que custam uma fração das versões de alta velocidade empregadas em pesquisas anteriores, produzindo uma gravação de maior qualidade. O sistema de câmera dupla pode capturar vibrações de objetos em movimento, como os movimentos de uma guitarra enquanto um músico a toca, e simultaneamente detectar sons individuais de vários pontos.

“Tornamos o microfone óptico muito mais prático e utilizável”, disse Srinivasa Narasimhan, professor do RI e chefe do ILIM. “Melhoramos a qualidade e reduzimos o custo.”

O sistema funciona analisando as diferenças nos padrões de manchas de imagens capturadas com um obturador rotativo e um obturador global. Um algoritmo calcula a diferença nos padrões de manchas dos dois fluxos de vídeo e converte essas diferenças em vibrações para reconstruir o som.

Um padrão de manchas refere-se à maneira como a luz coerente se comporta no espaço depois de ser refletida em uma superfície áspera. A equipe cria o padrão de manchas apontando um laser para a superfície do objeto que produz as vibrações, como o corpo de uma guitarra. Esse padrão de manchas muda à medida que a superfície vibra. Um obturador rotativo captura uma imagem digitalizando-a rapidamente, geralmente de cima para baixo, produzindo a imagem empilhando uma fileira de pixels em cima da outra. Um obturador global captura uma imagem em uma única instância de uma só vez.

Juntando-se a Sheinin e Narasimhan na pesquisa estavam Dorian Chan, Ph.D. estudante de ciência da computação, e Matthew O’Toole, professor assistente do RI e do Departamento de Ciência da Computação.

“Este sistema ultrapassa os limites do que pode ser feito com visão computacional”, disse O’Toole. “Este é um novo mecanismo para capturar vibrações de alta velocidade e pequenas, e apresenta uma nova área de pesquisa.”

A maioria dos trabalhos em visão computacional se concentra em sistemas de treinamento para reconhecer objetos ou rastreá-los pelo espaço – pesquisa importante para o avanço de tecnologias como veículos autônomos. O fato de esse trabalho permitir que os sistemas vejam melhor as vibrações imperceptíveis de alta frequência abre novas aplicações para a visão computacional.

O sistema de sensor óptico de vibração de duplo obturador da equipe pode permitir que engenheiros de som monitorem a música de instrumentos individuais livres da interferência do resto do conjunto para ajustar a mixagem geral. Os fabricantes podem usar o sistema para monitorar as vibrações de máquinas individuais no chão de fábrica para identificar os primeiros sinais de manutenção necessária.

“Se o seu carro começar a fazer um som estranho, você sabe que é hora de dar uma olhada”, disse Sheinin. “Agora imagine um chão de fábrica cheio de máquinas. Nosso sistema permite monitorar a saúde de cada uma delas detectando suas vibrações com uma única câmera estacionária.”


Publicado em 25/06/2022 09h30

Artigo original:

Estudo original: