RealAnt: Um robô quadrúpede de baixo custo que pode aprender por reforço de aprendizagem

RealAnt: um robô quadrúpede de baixo custo e código aberto para pesquisa de aprendizado por reforço no mundo real. Crédito: Ote Robotics Ltd, licença CC BY 4.0.

Durante a última década ou mais, roboticistas e cientistas da computação tentaram usar abordagens de aprendizagem por reforço (RL) para treinar robôs para navegar com eficiência em seu ambiente e completar uma variedade de tarefas básicas. Construir robôs acessíveis que possam suportar e gerenciar os controles exploratórios associados aos algoritmos RL, entretanto, provou ser bastante desafiador.

Pesquisadores da Aalto University e da Ote Robotics criaram recentemente o RealAnt, um robô quadrúpede de baixo custo que pode ser usado com eficácia para testar e implementar algoritmos RL. A nova plataforma de robótica, apresentada em um artigo pré-publicado no arXiv, é uma versão minimalista e acessível do mundo real do ambiente de simulação de robôs ‘Ant’, que é frequentemente usado em pesquisas de RL.

“As inspirações iniciais para nosso trabalho foram estudos de RL que demonstraram com sucesso aprender a andar do zero em simulações de quadrúpedes e robôs humanóides semelhantes a formigas”, disse Jussi Sainio, co-fundador da Ote Robotics, à Tech Xplore. “A premissa subjacente aos algoritmos RL é que programar um robô para fazer tarefas torna-se muito mais fácil e mais ‘natural’ – basta definir as medidas de sensor disponíveis, ações motoras e, em seguida, definir uma meta alvo e conectá-los todos em um aprendizado de reforço algoritmo, que descobre o resto. ”

Inicialmente, os algoritmos RL só funcionariam bem se fossem treinados em simulações de robôs por milhares de horas. Mais recentemente, no entanto, os cientistas da computação conseguiram ensinar robôs quadrúpedes inspirados em formigas a andar usando muito poucos dados de treinamento, obtendo o que é conhecido como alta eficiência de amostra. Isso tornou viável o treinamento direto dos robôs no mundo real, eliminando a necessidade de treinamento baseado em simulação.

“Rapidamente percebemos que robôs ambulantes como o RealAnt não estavam disponíveis de forma fácil e econômica, especialmente para aprendizado por reforço, que pode facilmente danificar o robô com controles abusivos”, explicou Sainio. “Não havia uma pilha de software e hardware combinada completa que alguém pudesse pegar e começar com o aprendizado de reforço do mundo real, em comparação com os ambientes do simulador. Portanto, comecei a construir meu próprio robô e protótipos de software de interface.”

O objetivo principal do trabalho recente de Sainio e seus colegas era criar uma plataforma robótica simples e de baixo custo baseada em soluções RL de linha de base existentes. Essa plataforma permitiria que mais pesquisadores construíssem e testassem robôs autônomos que podem completar uma variedade de tarefas básicas no mundo real.

RealAnt, o robô de quatro patas que eles criaram, é versátil, minimalista e de baixo custo. Além disso, pode aprender a andar de forma autônoma, movendo as pernas de forma coordenada, e pode sentir sua posição e orientação dentro de um determinado ambiente. Usando algoritmos RL, o Real Ant pode ser treinado para realizar uma variedade de tarefas simples, mas valiosas.

“Pode-se pensar na plataforma RealAnt como uma versão do mundo real do ambiente do simulador ‘Ant’, que é um benchmark popular para RL”, disse Sainio. “É uma das plataformas mais fáceis de começar com o aprendizado de reforço e robôs do mundo real. A principal vantagem da plataforma RealAnt é que ela está disponível de forma rápida e econômica.”

Construir o RealAnt custa aproximadamente $ 410 em materiais e seus componentes individuais são fáceis de obter. Além disso, o robô pode ser montado em menos de uma hora, uma vez que suas partes individuais estejam preparadas. Seu hardware e software são de código aberto e um robô totalmente montado também pode ser facilmente comprado online no site da Ote Robotic.

Seu baixo custo de fabricação e a facilidade de montagem tornam o RealAnt acessível a um grande número de pessoas em todo o mundo. Além disso, é mais fácil implantar em números maiores do que os robôs mais caros e sofisticados do mercado hoje.

“A plataforma RealAnt inclui o hardware do robô necessário (motores, sensores) e a pilha de software (comunicações, rastreamento) para fazer a interface com o robô, e nossa solução de aprendizado de reforço de linha de base publicada serve como um exemplo de como pode ser ensinado a andar do zero,” Sainio disse. “O exemplo de solução é simples e usa pouca orientação para cada tarefa de aprendizado – em termos de ML, não fazemos muita engenharia de recompensa manual para moldar o desempenho do aprendizado – o que torna a definição de novas tarefas simples e direta.”

Uma das razões pelas quais o robô RealAnt é mais acessível do que outros quadrúpedes existentes que suportam RL é que seu corpo se move usando 8 servo motores inteligentes de baixo custo, em vez de motores mais caros e sofisticados. Além disso, para rastrear sua posição e orientação, o robô utiliza etiquetas AR que podem ser facilmente impressas em papel e uma webcam externa de baixo custo.

“As partes do corpo do robô são todas impressas em 3-D e são pequenas o suficiente para serem impressas na maioria das impressoras 3-D de consumo”, disse Sainio. “Isso torna a plataforma mais barata de produzir e modificar do que robôs com componentes que são feitos usando abordagens cortadas a laser ou metal usinado ou folha de plástico. Como o projeto RealAnt usa motores de baixo custo, nós os conduzimos com cuidado, limitando seu torque máximo e, portanto, pode suportar movimentos bruscos contínuos durante a exploração aleatória e o treinamento de tarefas. ”

Sainio e seus colegas avaliaram o RealAnt tanto em simulações quanto em experimentos do mundo real. O robô teve um desempenho extraordinariamente bom em todos esses testes, mostrando uma grande promessa para uma ampla gama de aplicações.

Até agora, a maioria das técnicas de ML e RL para aplicações de robótica foram treinadas principalmente em ambientes simulados. Os pesquisadores esperam que o RealAnt abra novas possibilidades interessantes no campo, já que o robô pode ser treinado e testado tanto em simulações quanto no mundo físico.

“O RealAnt pode servir como um ambiente de robótica do mundo real e uma referência para RL, ajudando a aterrar ambientes simulados com a realidade”, explicou Sainio. “Fazer um robô físico real com pernas que possa aprender a andar ou fazer outras tarefas do zero, sem um simulador, ainda é uma façanha relativamente nova e rara. A robótica do mundo real é difícil de acertar, então eu a considero uma boa conquista de criar uma plataforma de robô mínima e completamente nova que seja capaz de RL. ”

A plataforma de robótica criada por Sainio e seus colegas em breve poderá ajudar outras equipes a testar seus algoritmos RL e ML em um robô real. Os pesquisadores esperam que o RealAnt promova o desenvolvimento para uma ampla gama de aplicações, por exemplo, em ambientes agrícolas, onde robôs de aprendizagem autônoma podem ser usados para arrancar ervas daninhas e colher plantas, ajudando a promover a biodiversidade e talvez até mesmo a reduzir o uso de pesticidas.

“Agora pretendemos ajustar e estender a plataforma RealAnt para aprimorar as capacidades do hardware, como dar ao robô capacidades de detecção mais avançadas e possivelmente manipuladores, e executar vários robôs simultaneamente, construindo sobre a plataforma básica que é agora disponível online “, disse Sainio. “Também estamos pesquisando maneiras de fazer o RealAnt andar ou concluir outras tarefas mais desafiadoras ainda mais rápido, reduzindo ainda mais o tempo de treinamento.”


Publicado em 09/12/2020 22h55

Artigo original:

Estudo original: