Usando microfones de contato como sensores táteis para manipulação de robôs

Treinamento de modelo em dois estágios. O pré-treinamento AVID e R3M aproveita a grande escala de dados de vídeo da Internet (caixa tracejada azul). Inicializamos os codificadores de visão e áudio com as representações pré-treinadas resultantes e, em seguida, treinamos toda a política de ponta a ponta com clonagem de comportamento a partir de um …