Pesquisa do Exército dos EUA leva a um modelo de treinamento mais eficaz para robôs

Crédito: Laboratório de Pesquisa do Exército

As operações de múltiplos domínios, o conceito operacional futuro do Exército, requerem agentes autônomos com componentes de aprendizagem para operar junto com o combatente. As novas pesquisas do Exército reduzem a imprevisibilidade das atuais políticas de treinamento de reforço de treinamento para que sejam mais práticas aplicáveis a sistemas físicos, especialmente robôs terrestres.

Esses componentes de aprendizagem permitirão que agentes autônomos raciocinem e se adaptem às mudanças nas condições do campo de batalha, disse o pesquisador do Exército Dr. Alec Koppel do Comando de Desenvolvimento de Capacidades de Combate do Exército dos EUA, agora conhecido como DEVCOM, Laboratório de Pesquisa do Exército.

O mecanismo subjacente de adaptação e replanejamento consiste em políticas de reforço baseadas na aprendizagem. Tornar essas políticas acessíveis de forma eficiente é fundamental para tornar o conceito operacional MDO uma realidade, disse ele.

De acordo com Koppel, os métodos de gradiente de política na aprendizagem por reforço são a base para algoritmos escalonáveis para espaços contínuos, mas as técnicas existentes não podem incorporar objetivos de tomada de decisão mais amplos, como sensibilidade ao risco, restrições de segurança, exploração e divergência em relação a um anterior.

Projetar comportamentos autônomos quando a relação entre a dinâmica e os objetivos é complexa pode ser abordada com o aprendizado por reforço, que ganhou atenção recentemente por resolver tarefas anteriormente intratáveis, como jogos de estratégia como go, xadrez e videogames como Atari e Starcraft II, disse Koppel.

A prática predominante, infelizmente, exige complexidade astronômica da amostra, como milhares de anos de jogabilidade simulada, disse ele. Essa complexidade de amostra torna muitos mecanismos de treinamento comuns inaplicáveis a configurações sem dados exigidas pelo contexto MDO para o Veículo de Combate de Próxima Geração, ou NGCV.

“Para facilitar a aprendizagem por reforço para MDO e NGCV, os mecanismos de treinamento devem melhorar a eficiência da amostra e a confiabilidade em espaços contínuos”, disse Koppel. “Através da generalização dos esquemas de busca de políticas existentes para serviços gerais, damos um passo no sentido de quebrar as barreiras de eficiência da amostra existentes da prática prevalecente na aprendizagem por reforço.”

Koppel e sua equipe de pesquisa desenvolveram novos esquemas de pesquisa de política para serviços públicos gerais, cuja complexidade da amostra também foi estabelecida. Eles observaram que os esquemas de busca de políticas resultantes reduzem a volatilidade do acúmulo de recompensas, geram uma exploração eficiente de domínios desconhecidos e um mecanismo para incorporar experiências anteriores.

“Esta pesquisa contribui com um aumento do clássico Teorema do Gradiente de Política na aprendizagem por reforço”, disse Koppel. “Ele apresenta novos esquemas de busca de políticas para concessionárias de serviços gerais, cuja complexidade de amostra também é estabelecida. Essas inovações são impactantes para o Exército dos EUA ao permitirem objetivos de aprendizagem de reforço além do retorno cumulativo padrão, como sensibilidade ao risco, restrições de segurança, exploração e divergência para um anterior. ”

Notavelmente, no contexto de robôs terrestres, disse ele, a aquisição de dados é cara.

“Reduzir a volatilidade do acúmulo de recompensa, garantindo que se explore um domínio desconhecido de maneira eficiente, ou incorporando experiência anterior, tudo contribui para quebrar as barreiras de eficiência da amostra existentes da prática prevalecente na aprendizagem de reforço, aliviando a quantidade de amostragem aleatória necessária para otimização completa da política “, disse Koppel.

O futuro desta pesquisa é muito promissor, e Koppel tem dedicado seus esforços para tornar suas descobertas aplicáveis à tecnologia inovadora para soldados no campo de batalha.

“Estou otimista de que robôs autônomos equipados com reforço de aprendizagem serão capazes de ajudar o combatente na exploração, reconhecimento e avaliação de risco no campo de batalha futuro”, disse Koppel. “Que essa visão se concretize é essencial para o que motiva a quais problemas de pesquisa dedico meus esforços”.

O próximo passo para esta pesquisa é incorporar os objetivos mais amplos de tomada de decisão habilitados por utilitários gerais na aprendizagem por reforço em configurações multiagentes e investigar como as configurações interativas entre os agentes de aprendizagem por reforço dão origem ao raciocínio sinérgico e antagônico entre as equipes.

Segundo Koppel, a tecnologia resultante desta pesquisa será capaz de raciocinar sob incertezas em cenários de equipe.


Publicado em 30/12/2020 07h27

Artigo original:

Estudo original: