Sistema de controle permite que robôs de quatro patas saltem em terreno irregular em tempo real

Os pesquisadores do MIT desenvolveram um sistema que melhora a velocidade e agilidade dos robôs com pernas enquanto eles saltam por lacunas no terreno. Crédito: Massachusetts Institute of Technology

Uma chita galopante atravessa um campo ondulado, saltando sobre brechas repentinas no terreno acidentado. O movimento pode parecer fácil, mas fazer um robô se mover dessa maneira é uma perspectiva totalmente diferente.

Nos últimos anos, robôs de quatro patas inspirados pelo movimento de chitas e outros animais deram grandes saltos à frente, mas ainda ficam para trás em relação aos mamíferos quando se trata de viajar por uma paisagem com mudanças rápidas de elevação.

“Nesses ambientes, você precisa usar a visão para evitar falhas. Por exemplo, pisar em uma lacuna é difícil de evitar se você não puder ver. Embora existam alguns métodos para incorporar a visão na locomoção por pernas, a maioria eles não são realmente adequados para uso com sistemas robóticos ágeis emergentes”, diz Gabriel Margolis, um Ph.D. aluno do laboratório de Pulkit Agrawal, professor do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT.

Agora, Margolis e seus colaboradores desenvolveram um sistema que melhora a velocidade e agilidade dos robôs com pernas enquanto eles saltam por lacunas no terreno. O novo sistema de controle é dividido em duas partes – uma que processa a entrada em tempo real de uma câmera de vídeo montada na frente do robô e outra que traduz essas informações em instruções de como o robô deve mover seu corpo. Os pesquisadores testaram seu sistema no MIT mini cheetah, um robô poderoso e ágil construído no laboratório de Sangbae Kim, professor de engenharia mecânica.

Ao contrário de outros métodos para controlar um robô de quatro patas, este sistema de duas partes não requer que o terreno seja mapeado com antecedência, para que o robô possa ir a qualquer lugar. No futuro, isso pode permitir que robôs entrem na floresta em uma missão de resposta a emergências ou subam um lance de escadas para entregar medicamentos a um idoso internado.

Margolis escreveu o artigo com o autor sênior Pulkit Agrawal, que dirige o laboratório de IA improvável no MIT e é professor assistente de desenvolvimento de carreira de Steven G. e Renee Finn no Departamento de Engenharia Elétrica e Ciência da Computação; Professor Sangbae Kim no Departamento de Engenharia Mecânica do MIT; e outros alunos de graduação Tao Chen e Xiang Fu do MIT. Outros co-autores incluem Kartik Paigwar, um estudante de pós-graduação na Arizona State University; e Donghyun Kim, professor assistente da Universidade de Massachusetts em Amherst. O trabalho será apresentado no próximo mês na Conferência sobre Aprendizagem de Robôs.

Está tudo sob controle

O uso de dois controladores separados trabalhando juntos torna este sistema especialmente inovador.

Um controlador é um algoritmo que converterá o estado do robô em um conjunto de ações a serem seguidas. Muitos controladores cegos – aqueles que não incorporam a visão – são robustos e eficazes, mas apenas permitem que os robôs caminhem em terrenos contínuos.

A visão é uma entrada sensorial tão complexa para processar que esses algoritmos são incapazes de manipulá-la com eficiência. Os sistemas que incorporam a visão geralmente dependem de um “mapa de altura” do terreno, que deve ser pré-construído ou gerado em tempo real, um processo que normalmente é lento e sujeito a falhas se o mapa de altura estiver incorreto.

Para desenvolver seu sistema, os pesquisadores pegaram os melhores elementos desses controladores robustos e cegos e os combinaram com um módulo separado que lida com a visão em tempo real.

A câmera do robô captura imagens profundas do terreno próximo, que são enviadas a um controlador de alto nível junto com informações sobre o estado do corpo do robô (ângulos articulares, orientação do corpo, etc.). O controlador de alto nível é uma rede neural que “aprende” com a experiência.

Essa rede neural produz uma trajetória de destino, que o segundo controlador usa para obter torques para cada uma das 12 articulações do robô. Este controlador de baixo nível não é uma rede neural e, em vez disso, depende de um conjunto de equações físicas concisas que descrevem o movimento do robô.

“A hierarquia, incluindo o uso deste controlador de baixo nível, nos permite restringir o comportamento do robô para que ele se comporte melhor. Com este controlador de baixo nível, estamos usando modelos bem especificados aos quais podemos impor restrições, o que geralmente não é possível em uma rede baseada em aprendizagem “, diz Margolis.

Crédito: Massachusetts Institute of Technology

Ensinando a rede

Os pesquisadores usaram o método de tentativa e erro conhecido como aprendizado por reforço para treinar o controlador de alto nível. Eles realizaram simulações do robô correndo por centenas de diferentes terrenos descontínuos e recompensaram-no por cruzamentos bem-sucedidos.

Com o tempo, o algoritmo aprendeu quais ações maximizaram a recompensa.

Em seguida, eles construíram um terreno aberto e físico com um conjunto de pranchas de madeira e colocaram seu esquema de controle em teste usando a mini chita.

“Foi definitivamente divertido trabalhar com um robô que foi projetado internamente no MIT por alguns de nossos colaboradores. O mini chita é uma ótima plataforma porque é modular e feito principalmente de peças que você pode encomendar online, se quisermos uma nova bateria ou câmera, era apenas uma questão de encomendá-la de um fornecedor regular e, com um pouco de ajuda do laboratório de Sangbae, instalá-la “, diz Margolis.

Estimar o estado do robô provou ser um desafio em alguns casos. Ao contrário da simulação, os sensores do mundo real encontram ruídos que podem se acumular e afetar o resultado. Portanto, para alguns experimentos que envolveram o posicionamento do pé de alta precisão, os pesquisadores usaram um sistema de captura de movimento para medir a verdadeira posição do robô.

O sistema deles superou outros que usam apenas um controlador, e a mini chita cruzou com sucesso 90% dos terrenos.

“Uma novidade do nosso sistema é que ele ajusta a marcha do robô. Se um humano estivesse tentando pular por uma lacuna muito grande, ele poderia começar correndo muito rápido para ganhar velocidade e então eles poderiam colocar os dois pés juntos para ter um salto realmente poderoso através da lacuna. Da mesma forma, nosso robô pode ajustar os tempos e a duração de seus contatos de pé para atravessar melhor o terreno”, diz Margolis.

Pulando para fora do laboratório

Embora os pesquisadores tenham conseguido demonstrar que seu esquema de controle funciona em laboratório, eles ainda têm um longo caminho a percorrer antes de implantar o sistema no mundo real, diz Margolis.

No futuro, eles esperam montar um computador mais poderoso para o robô para que ele possa fazer todos os cálculos a bordo. Eles também querem melhorar o estimador de estado do robô para eliminar a necessidade do sistema de captura de movimento. Além disso, eles gostariam de melhorar o controlador de baixo nível para que ele possa explorar toda a amplitude de movimento do robô e aprimorar o controlador de alto nível para que funcione bem em diferentes condições de iluminação.

“É notável testemunhar a flexibilidade das técnicas de aprendizado de máquina capazes de contornar os processos intermediários cuidadosamente projetados (por exemplo, estimativa de estado e planejamento de trajetória) nos quais as técnicas baseadas em modelos de séculos de idade confiaram”, diz Kim. “Estou entusiasmado com o futuro dos robôs móveis com processamento de visão mais robusto e treinados especificamente para locomoção.”


Publicado em 22/10/2021 20h55

Artigo original: