Usando microfones de contato como sensores táteis para manipulação de robôs

Treinamento de modelo em dois estágios. O pré-treinamento AVID e R3M aproveita a grande escala de dados de vídeo da Internet (caixa tracejada azul). Inicializamos os codificadores de visão e áudio com as representações pré-treinadas resultantes e, em seguida, treinamos toda a política de ponta a ponta com clonagem de comportamento a partir de um pequeno número de demonstrações no domínio. A política recebe entradas de imagem e espectrograma (esquerda) e gera uma sequência de ações no espaço efetor final delta (direita). Crédito: Mejia et al.

doi.org/10.48550/arXiv.2405.08576
Credibilidade: 898
#Robôs 

Para realizar tarefas do mundo real em ambientes domésticos, escritórios e espaços públicos, os robôs devem ser capazes de agarrar e manipular eficazmente uma ampla gama de objetos. Nos últimos anos, os desenvolvedores criaram vários modelos baseados em machine learning projetados para permitir a manipulação qualificada de objetos em robôs.

Embora alguns desses modelos tenham alcançado bons resultados, para terem um bom desempenho eles normalmente precisam ser pré-treinados em grandes quantidades de dados.

Os conjuntos de dados usados para treinar esses modelos são compostos principalmente de dados visuais, como imagens anotadas e imagens de vídeo capturadas por câmeras, mas algumas abordagens também analisam outras entradas sensoriais, como informações táteis.

Pesquisadores da Carnegie Mellon University e da Olin College of Engineering exploraram recentemente a possibilidade de usar microfones de contato em vez de sensores táteis convencionais, permitindo assim o uso de dados de áudio para treinar modelos de machine learning para manipulação de robôs.

Seu artigo, postado no servidor de pré-impressão arXiv, poderia abrir novas oportunidades para o pré-treinamento multissensorial em larga escala desses modelos.

“Embora o pré-treinamento em uma grande quantidade de dados seja benéfico para o aprendizado do robô, os paradigmas atuais realizam apenas o pré-treinamento em grande escala para representações visuais, enquanto as representações para outras modalidades são treinadas do zero”, escreveram Jared Mejia, Victoria Dean e seus colegas em o papel.

“Em contraste com a abundância de dados visuais, não está claro quais dados relevantes em escala de Internet podem ser usados para o pré-treinamento de outras modalidades, como a detecção tátil.

Esse pré-treinamento torna-se cada vez mais crucial nos regimes de poucos dados comuns em aplicações robóticas.

Nós abordamos isso lacuna usando microfones de contato como um sensor tátil alternativo.”

Crédito: Mejia et al. (https://sites.google.com/view/hearing-touch)

Como parte de seu estudo recente, Mejia, Dean e seus colaboradores treinaram previamente uma abordagem de machine learning auto-supervisionada em representações audiovisuais do conjunto de dados Audioset, que contém mais de 2 milhões de videoclipes de 10 segundos de sons e clipes musicais coletados da internet.

O modelo que eles pré-treinaram depende da discriminação de instâncias audiovisuais (AVID), uma técnica que pode aprender a distinguir entre diferentes tipos de dados audiovisuais.

Os investigadores avaliaram a sua abordagem numa série de testes, onde um robô foi encarregado de completar tarefas de manipulação do mundo real, contando com um máximo de 60 demonstrações para cada tarefa.

As suas descobertas foram altamente promissoras, uma vez que o seu modelo superou as políticas de manipulação de robôs que dependem apenas de dados visuais, especialmente em casos em que os objetos e locais eram marcadamente diferentes daqueles incluídos nos dados de treino.

“Nosso principal insight é que os microfones de contato capturam informações inerentemente baseadas em áudio, permitindo-nos aproveitar o pré-treinamento audiovisual em grande escala para obter representações que aumentam o desempenho da manipulação robótica”, escreveram Mejia, Dean e seus colegas.

“Até onde sabemos, nosso método é a primeira abordagem que aproveita o pré-treinamento multissensorial em larga escala para manipulação robótica.” No futuro, o estudo de Mejia, Dean e seus colegas poderá abrir um novo caminho para a realização de manipulação qualificada de robôs utilizando modelos de machine learning multimodais pré-treinados.

A abordagem proposta poderá em breve ser melhorada e testada em uma gama mais ampla de tarefas de manipulação do mundo real.

“Trabalhos futuros podem investigar quais propriedades dos conjuntos de dados de pré-treinamento são mais propícias ao aprendizado de representações audiovisuais para políticas de manipulação”, escreveram Mejia, Dean e seus colegas.

“Além disso, uma direção promissora seria equipar os efetores finais com sensores visuo-táteis e microfones de contato com representações de áudio pré-treinadas para determinar como aproveitar ambos para equipar os agentes robóticos com uma compreensão mais rica de seu ambiente.”


Publicado em 10/06/2024 16h34

Artigo original: