LOKI: um conjunto de dados de intenção para treinar modelos para predição de trajetória de pedestres e veículos

Os pesquisadores mostraram que o raciocínio sobre objetivos de longo prazo e intenções de curto prazo desempenha um papel significativo na previsão da trajetória. Com a falta de benchmarks abrangentes para este propósito, eles introduziram um novo conjunto de dados para intenção e previsão de trajetória. Um exemplo de caso de uso é ilustrado em (a), onde a equipe prevê a trajetória do veículo alvo. Em (b), as metas de longo prazo são estimadas pelo próprio movimento do agente. As interações em (c) e as restrições ambientais, como a topologia da estrada e as restrições de faixa em (d), influenciam a intenção de curto prazo do agente e, portanto, as trajetórias futuras. Crédito: Girase et al.

Os processos de tomada de decisão humana são inerentemente hierárquicos. Isso significa que envolvem vários níveis de raciocínio e diferentes estratégias de planejamento que operam simultaneamente para atingir as metas de curto e longo prazo.

Ao longo da última década, um número crescente de cientistas da computação tem tentado desenvolver ferramentas e técnicas computacionais que possam replicar os processos de tomada de decisão humana, permitindo que robôs, veículos autônomos ou outros dispositivos tomem decisões de forma mais rápida e eficiente. Isso é particularmente importante para sistemas robóticos que executam ações que afetam diretamente a segurança dos seres humanos, como carros autônomos.

Pesquisadores do Honda Research Institute dos EUA, Honda R&D e UC Berkeley recentemente compilaram o LOKI, um conjunto de dados que poderia ser usado para treinar modelos que prevêem as trajetórias de pedestres e veículos na estrada. Este conjunto de dados, apresentado em um artigo pré-publicado no arXiv e definido para ser apresentado na conferência ICCV 2021, contém imagens cuidadosamente rotuladas de diferentes agentes (por exemplo, pedestres, bicicletas, carros, etc.) na rua, capturadas da perspectiva de um motorista.

“Em nosso artigo recente, propomos raciocinar explicitamente sobre os objetivos de longo prazo dos agentes, bem como suas intenções de curto prazo para prever as trajetórias futuras dos agentes de trânsito em cenas de direção”, Chiho Choi, um dos pesquisadores que realizou o estudo , disse TechXplore. “Definimos metas de longo prazo como uma posição final que um agente deseja alcançar para um determinado horizonte de previsão, enquanto a intenção se refere a como um agente realiza seu objetivo.”

Visualização de três tipos de etiquetas: (1a-1b) Etiquetas de intenção para pedestres; (2a-2b) Etiquetas de intenção para veículo; e (3a-3b) Rótulos ambientais. A parte esquerda de cada imagem é da varredura a laser e a parte direita é da câmera. Em (1a), o status atual do pedestre é “Esperando para cruzar”, e o destino potencial mostra a intenção do pedestre. Em (3a), a seta azul indica a possível ação da pista atual onde o veículo está, e as palavras vermelhas apresentam a posição da pista em relação ao ego-veículo. Crédito: Girase et al.

Choi e seus colegas levantaram a hipótese de que, para prever as trajetórias dos agentes de tráfego de forma mais eficiente, é importante que as técnicas de aprendizado de máquina considerem uma hierarquia complexa de objetivos de curto e longo prazo. Com base nos movimentos do agente previstos, o modelo pode então planejar os movimentos de um robô ou veículo de forma mais eficiente.

Os pesquisadores, portanto, se propuseram a desenvolver uma arquitetura que considera os objetivos de curto e longo prazo como componentes-chave da estimativa de intenção de acordo com o quadro. Os resultados dessas considerações, então, influenciam seu módulo de previsão de trajetória.

“Considere um veículo em uma interseção onde deseja atingir seu objetivo final de virar à esquerda até seu ponto final”, explicou Choi. “Ao raciocinar sobre o movimento do agente para virar à esquerda, é importante considerar não apenas a dinâmica do agente, mas também como a intenção está sujeita a mudanças com base em muitos fatores, incluindo i) a própria vontade do agente, ii) interações sociais, iii) restrições ambientais , iv) dicas contextuais.”

Nosso modelo primeiro codifica o histórico de observações anteriores de cada agente para propor uma distribuição de objetivos de longo prazo sobre os destinos finais potenciais para cada agente independentemente. Um objetivo, G é então amostrado e passado para o módulo Joint Interaction and Prediction. Um gráfico de cena é construído para permitir que os agentes compartilhem informações de trajetória, intenções e objetivos de longo prazo. Os nós pretos denotam informações de entrada / saída de estradas que fornecem aos agentes informações sobre a topologia do mapa. A cada passo de tempo, as informações da cena atual são propagadas através do gráfico. Em seguida, prevemos uma intenção (a ação que o agente realizará em um futuro próximo) para cada agente. Finalmente, o decodificador de trajetória é condicionado nas intenções, objetivos, movimento passado e cena previstos antes de prever a próxima posição. Este processo é repetido de forma recorrente para o comprimento do horizonte. Crédito: Girase et al.

O conjunto de dados LOKI contém centenas de imagens RGB retratando diferentes agentes no tráfego. Cada uma dessas imagens tem nuvens de pontos LiDAR correspondentes com rótulos detalhados de quadros para todos os agentes de tráfego.

O conjunto de dados possui três classes exclusivas de rótulos. O primeiro deles são rótulos de intenção, que especificam ‘como’ um ator decide atingir um determinado objetivo por meio de uma série de ações. O segundo são rótulos ambientais, fornecendo informações sobre o meio ambiente que impactam as intenções dos agentes (por exemplo, posições de ‘saída da estrada’ ou ‘entrada da estrada’, ‘semáforo, “‘ sinal de trânsito,” ‘informações da faixa, “etc.). A terceira classe inclui rótulos contextuais que também podem afetar o comportamento futuro dos agentes, como informações relacionadas ao clima, condições das estradas, sexo e idade dos pedestres e assim por diante.

“Fornecemos uma compreensão abrangente de como as intenções mudam em um longo horizonte de tempo”, disse Choi. “Ao fazer isso, o conjunto de dados LOKI é o primeiro que pode ser usado como referência para a compreensão da intenção de agentes de tráfego heterogêneos (ou seja, carros, caminhões, bicicletas, pedestres, etc.).”

Detalhes do conjunto de dados LOKI. Relatamos os vários tipos de rótulos, o número de instâncias de cada rótulo e as descrições de todos os tipos de rótulos. Crédito: Girase et al.

Além de compilar o conjunto de dados LOKI, Choi e seus colegas desenvolveram um modelo que explora como os fatores considerados pela LOKI podem afetar o comportamento futuro dos agentes. Este modelo pode prever as intenções e trajetórias de diferentes agentes na estrada com altos níveis de precisão, considerando especificamente o impacto de i) a própria vontade de um agente, ii) interações sociais, iii) restrições ambientais e iv) informações contextuais sobre seu curto -termo ações e processo de tomada de decisão.

Os pesquisadores avaliaram seu modelo em uma série de testes e descobriram que superava outros métodos de previsão de trajetória de última geração em até 27%. No futuro, o modelo poderá ser usado para aumentar a segurança e o desempenho de veículos autônomos. Além disso, outras equipes de pesquisa poderiam usar o conjunto de dados LOKI para treinar seus próprios modelos para prever as trajetórias de pedestres e veículos na estrada.

Visualização do resultado da previsão da trajetória do primeiro lugar (verde: observação passada, azul: verdade fundamental, vermelho: previsão) e intenção de quadro de um agente específico em um círculo verde escuro no início da etapa de tempo de observação (GI: Intenção da verdade fundamental , PI: intenção prevista) é mostrado na parte inferior de cada cenário. Crédito: Girase et al.

?Já começamos a explorar outras direções de pesquisa destinadas a raciocinar conjuntamente sobre intenções e trajetórias, considerando diferentes fatores internos / externos, como a vontade dos agentes, interações sociais e fatores ambientais,? disse Choi. “Nosso plano imediato é explorar ainda mais o espaço de previsão com base na intenção, não apenas para trajetórias, mas também para movimentos e comportamentos humanos em geral. Atualmente, estamos trabalhando na expansão do conjunto de dados LOKI nessa direção e acreditamos que nosso conjunto de dados altamente flexível encorajará a comunidade de previsão para avançar ainda mais esses domínios. “


Publicado em 10/09/2021 13h06

Artigo original:

Estudo original: