Um sistema de câmeras desenvolvido por pesquisadores da Carnegie Mellon University pode ver vibrações sonoras com tanta precisão e detalhes que pode reconstruir a música de um único instrumento em uma banda ou orquestra.
Mesmo os microfones direcionados e de alta potência não conseguem eliminar sons próximos, ruído ambiente e o efeito da acústica ao capturar áudio. O novo sistema desenvolvido no Instituto de Robótica da Escola de Ciência da Computação (RI) usa duas câmeras e um laser para detectar vibrações de superfície de alta velocidade e baixa amplitude. Essas vibrações podem ser usadas para reconstruir o som, capturando áudio isolado sem inferência ou microfone.
“Inventamos uma nova maneira de ver o som”, disse Mark Sheinin, pesquisador associado de pós-doutorado no Laboratório de Iluminação e Imagem (ILIM) no RI. “É um novo tipo de sistema de câmera, um novo dispositivo de imagem, capaz de ver algo invisível a olho nu.”
A equipe concluiu várias demonstrações bem-sucedidas da eficácia de seu sistema na detecção de vibrações e na qualidade da reconstrução do som. Eles capturaram áudio isolado de guitarras separadas tocando ao mesmo tempo e alto-falantes individuais tocando músicas diferentes simultaneamente. Eles analisaram as vibrações de um diapasão e usaram as vibrações de um saco de Doritos perto de um alto-falante para capturar o som vindo de um alto-falante. Esta demonstração presta homenagem ao trabalho anterior realizado por pesquisadores do MIT que desenvolveram um dos primeiros microfones visuais em 2014.
O sistema CMU melhora drasticamente as tentativas anteriores de capturar som usando visão computacional. O trabalho da equipe usa câmeras comuns que custam uma fração das versões de alta velocidade empregadas em pesquisas anteriores, produzindo uma gravação de maior qualidade. O sistema de câmera dupla pode capturar vibrações de objetos em movimento, como os movimentos de uma guitarra enquanto um músico a toca, e simultaneamente detectar sons individuais de vários pontos.
“Tornamos o microfone óptico muito mais prático e utilizável”, disse Srinivasa Narasimhan, professor do RI e chefe do ILIM. “Melhoramos a qualidade e reduzimos o custo.”
O sistema funciona analisando as diferenças nos padrões de manchas de imagens capturadas com um obturador rotativo e um obturador global. Um algoritmo calcula a diferença nos padrões de manchas dos dois fluxos de vídeo e converte essas diferenças em vibrações para reconstruir o som.
Um padrão de manchas refere-se à maneira como a luz coerente se comporta no espaço depois de ser refletida em uma superfície áspera. A equipe cria o padrão de manchas apontando um laser para a superfície do objeto que produz as vibrações, como o corpo de uma guitarra. Esse padrão de manchas muda à medida que a superfície vibra. Um obturador rotativo captura uma imagem digitalizando-a rapidamente, geralmente de cima para baixo, produzindo a imagem empilhando uma fileira de pixels em cima da outra. Um obturador global captura uma imagem em uma única instância de uma só vez.
Juntando-se a Sheinin e Narasimhan na pesquisa estavam Dorian Chan, Ph.D. estudante de ciência da computação, e Matthew O’Toole, professor assistente do RI e do Departamento de Ciência da Computação.
“Este sistema ultrapassa os limites do que pode ser feito com visão computacional”, disse O’Toole. “Este é um novo mecanismo para capturar vibrações de alta velocidade e pequenas, e apresenta uma nova área de pesquisa.”
A maioria dos trabalhos em visão computacional se concentra em sistemas de treinamento para reconhecer objetos ou rastreá-los pelo espaço – pesquisa importante para o avanço de tecnologias como veículos autônomos. O fato de esse trabalho permitir que os sistemas vejam melhor as vibrações imperceptíveis de alta frequência abre novas aplicações para a visão computacional.
O sistema de sensor óptico de vibração de duplo obturador da equipe pode permitir que engenheiros de som monitorem a música de instrumentos individuais livres da interferência do resto do conjunto para ajustar a mixagem geral. Os fabricantes podem usar o sistema para monitorar as vibrações de máquinas individuais no chão de fábrica para identificar os primeiros sinais de manutenção necessária.
“Se o seu carro começar a fazer um som estranho, você sabe que é hora de dar uma olhada”, disse Sheinin. “Agora imagine um chão de fábrica cheio de máquinas. Nosso sistema permite monitorar a saúde de cada uma delas detectando suas vibrações com uma única câmera estacionária.”
Publicado em 25/06/2022 09h30
Artigo original:
Estudo original: