Uma técnica que permite que robôs com pernas aprendam continuamente com seu ambiente

Crédito: Smith et al.

Os robôs com pernas têm inúmeras qualidades vantajosas, incluindo a capacidade de viajar longas distâncias e navegar em uma ampla variedade de ambientes terrestres. Até agora, no entanto, os robôs com pernas foram treinados principalmente para se mover em ambientes específicos, em vez de se adaptar ao ambiente e operar com eficiência em uma infinidade de ambientes diferentes. A principal razão para isso é que prever todas as condições ambientais possíveis que um robô pode encontrar enquanto está operando e treinando-o para melhor responder a essas condições é altamente desafiador.

Pesquisadores da Berkeley AI Research e da UC Berkeley desenvolveram recentemente uma técnica computacional baseada no aprendizado de reforço que pode contornar esse problema, permitindo que robôs com pernas aprendam ativamente com o ambiente circundante e melhorem continuamente suas habilidades de locomoção. Esta técnica, apresentada em um artigo pré-publicado no arXiv, pode ajustar as políticas de locomoção de um robô no mundo real, permitindo que ele se mova com mais eficácia em uma variedade de ambientes.

“Não podemos pré-treinar os robôs de maneira que eles nunca falhem quando implantados no mundo real”, disse Laura Smith, uma das pesquisadoras que realizaram o estudo, à TechXplore. “Portanto, para que os robôs sejam autônomos, eles devem ser capazes de se recuperar e aprender com as falhas. Neste trabalho, desenvolvemos um sistema para realizar RL no mundo real para permitir que os robôs façam exatamente isso.”

A abordagem de aprendizagem por reforço desenvolvida por Smith e seus colegas baseia-se em uma estrutura de imitação de movimento que os pesquisadores da UC Berkeley desenvolveram no passado. Essa estrutura permite que robôs com pernas adquiram facilmente habilidades de locomoção, observando e imitando os movimentos dos animais.

Este vídeo destaca a importância da recuperação para a criação de um robô resiliente e autônomo. Crédito: Smith et al.

Além disso, a nova técnica introduzida pelos pesquisadores utiliza um algoritmo de aprendizagem por reforço sem modelo desenvolvido por uma equipe da Universidade de Nova York (NYU), denominado algoritmo de aprendizagem aleatória dupla Q-learning (REDQ). Essencialmente, este é um método computacional que permite que os computadores e sistemas robóticos aprendam continuamente com a experiência anterior de uma maneira muito eficiente.

“Primeiro, nós pré-treinamos um modelo que dá aos robôs habilidades de locomoção, incluindo um controlador de recuperação, em simulação”, explicou Smith. “Então, simplesmente continuamos a treinar o robô quando ele é implantado em um novo ambiente no mundo real, redefinindo-o com um controlador aprendido. Nosso sistema depende apenas dos sensores a bordo do robô, por isso fomos capazes de treinar o robô não estruturado, configurações externas. ”

O controlador de recuperação aprendido em ação. Crédito: Smith et al.

Os pesquisadores avaliaram seu sistema de aprendizagem por reforço em uma série de experimentos, aplicando-o a um robô de quatro patas e observando como ele aprendeu a se mover em diferentes terrenos e materiais, incluindo carpete, gramado, espuma de membrana e capacho. Suas descobertas foram altamente promissoras, já que sua técnica permitiu ao robô ajustar autonomamente suas estratégias de locomoção enquanto se movia em todas as diferentes superfícies.

“Também descobrimos que poderíamos tratar o controlador de recuperação como outra habilidade de locomoção aprendida e usá-lo para redefinir automaticamente o robô entre os testes, sem a necessidade de um especialista para projetar um controlador de recuperação ou alguém para intervir manualmente durante o processo de aprendizagem”, disse Smith .

Este vídeo compara o desempenho do controlador aprendido com um projetado por um fabricante. Crédito: Smith et al.

No futuro, a nova técnica de reforço desenvolvida por esta equipe de pesquisadores poderá ser usada para melhorar significativamente as habilidades de locomoção de robôs com pernas existentes e recém-desenvolvidos, permitindo que eles se movam em uma grande variedade de superfícies e terrenos. Isso poderia, por sua vez, facilitar o uso desses robôs para missões complexas que envolvem viagens de longas distâncias em terra, ao passar por vários ambientes com características diferentes.

Crédito: Smith et al.

“Agora estamos entusiasmados para adaptar nosso sistema em um processo de aprendizagem ao longo da vida, onde um robô nunca para de aprender quando submetido às diversas situações em constante mudança que encontra no mundo real”, disse Smith.


Publicado em 02/11/2021 21h43

Artigo original:

Estudo original: