Cão robô aprende a andar em uma hora

Morti o cão robô. Crédito: Felix Ruppert, Grupo de Locomoção Dinâmica da MPI-IS

Uma girafa ou potro recém-nascido deve aprender a andar sobre as pernas o mais rápido possível para evitar predadores. Os animais nascem com redes de coordenação muscular localizadas em sua medula espinhal. No entanto, aprender a coordenação precisa dos músculos e tendões das pernas leva algum tempo. Inicialmente, os filhotes dependem muito dos reflexos da medula espinhal. Embora um pouco mais básicos, os reflexos de controle motor ajudam o animal a evitar cair e se machucar durante suas primeiras tentativas de andar. O controle muscular seguinte, mais avançado e preciso, deve ser praticado, até que eventualmente o sistema nervoso esteja bem adaptado aos músculos e tendões das pernas do animal jovem. Chega de tropeçar descontrolados – o animal jovem pode agora acompanhar os adultos.

Pesquisadores do Instituto Max Planck para Sistemas Inteligentes (MPI-IS) em Stuttgart realizaram um estudo de pesquisa para descobrir como os animais aprendem a andar e aprendem tropeçando. Eles construíram um robô de quatro patas do tamanho de um cachorro, que os ajudou a descobrir os detalhes.

Aprendendo a correspondência plástica da dinâmica do robô em geradores de padrões centrais de circuito fechado

“Como engenheiros e roboticistas, buscamos a resposta construindo um robô que apresenta reflexos como um animal e aprende com os erros”, diz Felix Ruppert, ex-aluno de doutorado do grupo de pesquisa Dynamic Locomotion do MPI-IS. “Se um animal tropeçar, isso é um erro? Não se acontecer uma vez. Mas se tropeçar com frequência, isso nos dá uma medida de quão bem o robô anda.”

Felix Ruppert é o primeiro autor de “Learning Plastic Matching of Robot Dynamics in Closed-loop Central Pattern Generators”, que será publicado em 18 de julho de 2022 na revista Nature Machine Intelligence.

Algoritmo de aprendizado otimiza a medula espinhal virtual

Depois de aprender a andar em apenas uma hora, o robô de Ruppert faz bom uso de sua complexa mecânica de pernas. Um algoritmo de otimização bayesiana orienta o aprendizado: as informações medidas do sensor do pé são combinadas com os dados alvo da medula espinhal virtual modelada sendo executada como um programa no computador do robô. O robô aprende a andar comparando continuamente as informações enviadas e esperadas do sensor, executando loops reflexos e adaptando seus padrões de controle motor.

O algoritmo de aprendizado adapta os parâmetros de controle de um Gerador de Padrão Central (CPG). Em humanos e animais, esses geradores de padrões centrais são redes de neurônios na medula espinhal que produzem contrações musculares periódicas sem entrada do cérebro. As redes centrais de geradores de padrões auxiliam na geração de tarefas rítmicas, como caminhar, piscar ou fazer a digestão. Além disso, os reflexos são ações de controle motor involuntárias desencadeadas por vias neurais codificadas que conectam sensores na perna com a medula espinhal.

Desde que o animal jovem caminhe sobre uma superfície perfeitamente plana, os CPGs podem ser suficientes para controlar os sinais de movimento da medula espinhal. Um pequeno solavanco no chão, no entanto, muda a caminhada. Os reflexos entram em ação e ajustam os padrões de movimento para evitar que o animal caia. Essas mudanças momentâneas nos sinais de movimento são reversíveis, ou “elásticas”, e os padrões de movimento retornam à sua configuração original após a perturbação. Mas se o animal não parar de tropeçar em muitos ciclos de movimento – apesar dos reflexos ativos – então os padrões de movimento devem ser liberados e tornados “plásticos”, isto é, irreversíveis. No animal recém-nascido, os CPGs inicialmente ainda não estão bem ajustados e o animal tropeça, tanto em terrenos planos quanto irregulares. Mas o animal aprende rapidamente como seus CPGs e reflexos controlam os músculos e tendões das pernas.

Cão robô aprende a andar em uma hora

O mesmo vale para o cão-robô do tamanho de um labrador chamado Morti. Ainda mais, o robô otimiza seus padrões de movimento mais rápido que um animal, em cerca de uma hora. O CPG de Morti é simulado em um computador pequeno e leve que controla o movimento das pernas do robô. Esta medula espinhal virtual é colocada nas costas do robô quadrúpede onde a cabeça estaria. Durante a hora que leva para o robô andar suavemente, os dados do sensor dos pés do robô são continuamente comparados com o toque previsto pelo CPG do robô. Se o robô tropeçar, o algoritmo de aprendizado altera o quão longe as pernas balançam para frente e para trás, quão rápido as pernas balançam e quanto tempo uma perna fica no chão. O movimento ajustado também afeta o quão bem o robô pode utilizar sua mecânica de perna compatível. Durante o processo de aprendizagem, o CPG envia sinais motores adaptados para que o robô a partir de então tropece menos e otimize sua caminhada. Nesta estrutura, a medula espinhal virtual não tem conhecimento explícito sobre o design da perna do robô, seus motores e molas. Não sabendo nada sobre a física da máquina, falta-lhe um “modelo” de robô.

“Nosso robô praticamente ‘nasceu’ sem saber nada sobre a anatomia de suas pernas ou como elas funcionam”, explica Ruppert. “O CPG se assemelha a uma inteligência de caminhada automática embutida que a natureza fornece e que transferimos para o robô. O computador produz sinais que controlam os motores das pernas, e o robô inicialmente caminha e tropeça. Os dados fluem de volta dos sensores para o medula espinhal virtual onde os dados do sensor e do CPG são comparados. Se os dados do sensor não corresponderem aos dados esperados, o algoritmo de aprendizado altera o comportamento de caminhada até que o robô caminhe bem e sem tropeçar. o tropeço do robô é uma parte essencial do processo de aprendizado.”

Morti the robot dog. Credit: Felix Ruppert, Dynamic Locomotion Group at MPI-IS

Controle de cão robô com eficiência energética

O computador de Morti consome apenas cinco watts de energia no processo de caminhada. Robôs quadrúpedes industriais de fabricantes proeminentes, que aprenderam a funcionar com a ajuda de controladores complexos, consomem muito mais energia. Seus controladores são codificados com o conhecimento da massa exata do robô e da geometria do corpo – usando um modelo do robô. Eles normalmente consomem várias dezenas, até várias centenas de watts de potência. Ambos os tipos de robôs funcionam de forma dinâmica e eficiente, mas o consumo de energia computacional é muito menor no modelo de Stuttgart. Ele também fornece informações importantes sobre a anatomia animal.

“Não podemos pesquisar facilmente a medula espinhal de um animal vivo. Mas podemos modelar uma no robô”, diz Alexander Badri-Spröwitz, co-autor da publicação com Ruppert e dirige o Grupo de Pesquisa de Locomoção Dinâmica. “Sabemos que esses CPGs existem em muitos animais. Sabemos que os reflexos estão embutidos; mas como podemos combinar ambos para que os animais aprendam movimentos com reflexos e CPGs? Essa é uma pesquisa fundamental na interseção entre robótica e biologia. O modelo robótico dá nos responde a perguntas que a biologia sozinha não pode responder.”


Publicado em 20/07/2022 09h59

Artigo original:

Estudo original: