Uma estrutura de aprendizado por reforço para aprimorar os recursos de fusão de rampa de veículos autônomos

Figura explicando o pipeline de aprendizado por reforço da equipe. Eles primeiro inicializam rollouts de estados iniciais aleatórios e executam uma otimização no conjunto de trajetórias coletadas para treinar uma política para cada época. Crédito: Udatha, Lyu & Dolan.

Enquanto muitas empresas automotivas estão investindo no desenvolvimento de carros autônomos, os veículos criados até agora ainda não atingiram os níveis de segurança necessários para serem implantados em larga escala. Para que isso aconteça, os veículos precisarão ser capazes de enfrentar uma ampla variedade de desafios na estrada com segurança e eficácia.

Pesquisadores da Carnegie Mellon University desenvolveram recentemente uma estrutura baseada em aprendizado por reforço (RL) que pode ajudar a melhorar o desempenho de veículos autônomos em cenários de fusão de rampas, casos em que os veículos em uma estrada de rampa são desviados para uma estrada principal. Sua estrutura, apresentada em um artigo pré-publicado no arXiv, poderia ajudar a melhorar a segurança dos veículos autônomos nestes tempos particularmente importantes, reduzindo o risco de acidentes.

“O laboratório do Prof. John Dolan na CMU vem trabalhando em vários aplicativos de direção autônoma há algum tempo”, disse Soumith Udatha, um dos pesquisadores que desenvolveu o modelo, ao TechXplore. “A aplicação que focamos neste artigo é a fusão de rodovias devido aos desafios envolvidos com veículos em alta velocidade, motoristas com vários estilos e incertezas envolvidas.”

O objetivo abrangente dos esforços de pesquisa de Udatha e seus colegas é melhorar a segurança dos veículos autônomos. Em seu artigo recente, eles tentaram especificamente criar uma estrutura que pudesse efetivamente capturar cenários de fusão de rampas e planejar as ações de um veículo com base em suas análises de quaisquer incertezas e possíveis riscos.

“Os modelos RL interagem com um ambiente e coletam dados para otimizar suas recompensas, mas essa exploração de dados encontra alguns problemas quando implantada em configurações do mundo real”, explicou Udatha. “Isso ocorre em parte porque nem todos os estados que o agente encontra são seguros. Restringimos nossa política de RL com funções de barreira de controle (CBFs) para garantir a segurança a uma distância especificada. Portanto, com as restrições ambientais, ignoramos os estados inseguros e aprimoramos a capacidade de um sistema de aprender a navegar”.

CBFs são uma classe de métodos computacionais bastante novos, projetados para aprimorar o controle seguro de sistemas autônomos. Os CBFs podem ser aplicados diretamente a diferentes problemas de otimização, incluindo fusão de rampa. Apesar de suas qualidades promissoras, as otimizações que realizam não levam em conta os dados coletados por um sistema durante a exploração de um ambiente. Os métodos de RL podem ajudar a preencher essa lacuna.

“Descobrimos que nosso algoritmo pode ser estendido para ambientes RL offline e online”, disse Udatha. “Como agora temos enormes quantidades de dados para RL off-line, o treinamento em conjuntos de dados off-line pode levar a modelos melhores. Com nossas métricas, também descobrimos que a inclusão de CBFs probabilísticos como restrições fornece melhor segurança, pois leva em consideração a incerteza do motorista até certo ponto.”

Udatha e seus colegas testaram sua estrutura em uma série de testes, usando a versão online do simulador CARLA desenvolvido por uma equipe de pesquisadores da Intel Labs e do Computer Vision Center em Barcelona. Nessas simulações, sua abordagem alcançou resultados notáveis, destacando seu possível valor para aumentar a segurança de veículos autônomos durante a convergência de rampas.

“Agora planejamos estender nossa pesquisa treinando nosso modelo para mesclar um veículo autônomo com vários veículos em uma cena com incertezas do motorista”, acrescentou Udatha. “Também descobrimos que um benchmark padrão para comparar várias abordagens para fusão de rampa está faltando, então estamos tentando estabelecer um benchmark de fusão de rampa para NGSIM, um conjunto de dados de autoestrada divulgado pela NHTSA nos EUA I-80 e US 101. rodovias.”


Publicado em 28/12/2022 07h29

Artigo original:

Estudo original: