Robôs que aprendem com vídeos de atividades humanas e interações simuladas

Córtex visual artificial

#Inteligência 

A ficção científica otimista normalmente imagina um futuro onde os humanos criam arte e perseguem passatempos gratificantes, enquanto os robôs habilitados para IA lidam com tarefas monótonas ou perigosas. Em contraste, os sistemas de IA de hoje exibem habilidades generativas cada vez mais sofisticadas em tarefas criativas ostensivas. Mas onde estão os robôs? Essa lacuna é conhecida como paradoxo de Moravec, a tese de que os problemas mais difíceis da IA envolvem habilidades sensório-motoras, não pensamento abstrato ou raciocínio. Em outras palavras, “os problemas difíceis são fáceis e os problemas fáceis são difíceis”.

Hoje, estamos anunciando dois grandes avanços em direção a agentes de IA incorporados de uso geral, capazes de realizar habilidades sensório-motoras desafiadoras:

Um córtex visual artificial (chamado VC-1): um único modelo de percepção que, pela primeira vez, suporta uma gama diversificada de habilidades sensório-motoras, ambientes e formas de realização. O VC-1 é treinado em vídeos de pessoas realizando tarefas diárias do inovador conjunto de dados Ego4D criado pela Meta AI e parceiros acadêmicos. E o VC-1 corresponde ou supera os resultados mais conhecidos em 17 tarefas sensório-motoras diferentes em ambientes virtuais.

Uma nova abordagem chamada coordenação de habilidade adaptativa (sensorimotora) (ASC), que atinge um desempenho quase perfeito (98 por cento de sucesso) na desafiadora tarefa de manipulação robótica móvel (navegar até um objeto, pegá-lo, navegar para outro local, colocar o objeto, repetindo) em ambientes físicos.

Os dados alimentam esses dois avanços. A IA precisa de dados para aprender – e, especificamente, a IA incorporada precisa de dados que capturem as interações com o ambiente. Tradicionalmente, esses dados de interação são coletados coletando grandes quantidades de demonstrações ou permitindo que o robô aprenda com as interações do zero. Ambas as abordagens são muito intensivas em recursos para serem dimensionadas para o aprendizado de um agente geral de IA incorporado. Em ambos os trabalhos, estamos desenvolvendo novas formas de aprendizagem dos robôs, usando vídeos de interações humanas com o mundo real e interações simuladas em mundos simulados fotorrealistas.

Primeiro, construímos uma maneira de os robôs aprenderem com as interações humanas do mundo real, treinando um modelo de representação visual de uso geral (um córtex visual artificial) a partir de um grande número de vídeos egocêntricos. Os vídeos incluem nosso conjunto de dados Ego4D de código aberto, que mostra visualizações em primeira pessoa de pessoas realizando tarefas diárias, como ir ao supermercado e preparar o almoço. Em segundo lugar, construímos uma maneira de pré-treinar nosso robô para executar tarefas de rearranjo de horizonte longo em simulação. Especificamente, treinamos uma política em ambientes Habitat e transferimos a política zero-shot para um robô Spot real para executar tais tarefas em espaços desconhecidos do mundo real.

Rumo a um córtex visual artificial para inteligência incorporada

Um córtex visual é a região do cérebro que (juntamente com o córtex motor) permite que um organismo converta a visão em movimento. Estamos interessados em desenvolver um córtex visual artificial – o módulo em um sistema de IA que permite que um agente artificial converta a entrada da câmera em ações.

Nossa equipe FAIR, juntamente com colaboradores acadêmicos, tem estado na vanguarda do desenvolvimento de representações visuais de uso geral para IA incorporada treinada a partir de conjuntos de dados de vídeo egocêntricos. O conjunto de dados Ego4D tem sido especialmente útil, pois contém milhares de horas de vídeo de câmera vestível de participantes de pesquisas em todo o mundo realizando atividades da vida diária, incluindo cozinhar, limpar, praticar esportes e artesanato.

Por exemplo, um trabalho anterior de nossa equipe (R3M) usa alinhamento temporal e texto-vídeo dentro de quadros de vídeo Ego4D para aprender representações visuais universais compactas para manipulação robótica. Outro trabalho (VIP) usa quadros Ego4D para aprender uma representação visual acionável eficaz que também pode executar especificação de recompensa visual zero-shot para treinar agentes incorporados. Estes são ilustrativos da tendência mais ampla na comunidade de pesquisa (por exemplo, PVR, OVRL, MVP) para representações visuais pré-treinamento de imagens da web e vídeos egocêntricos.

Embora o trabalho anterior tenha se concentrado em um pequeno conjunto de tarefas robóticas, um córtex visual para IA incorporada deve funcionar bem para um conjunto diversificado de tarefas sensório-motoras em diversos ambientes em diversas modalidades. Embora trabalhos anteriores sobre pré-treinamento de representações visuais nos dêem um vislumbre do que pode ser viável, eles são fundamentalmente incomensuráveis, com diferentes formas de pré-treinamento das representações visuais em diferentes conjuntos de dados, avaliados em diferentes tarefas de IA incorporadas. A falta de consistência significava que não havia como saber qual das representações visuais pré-treinadas existentes era a melhor.

Como primeiro passo, selecionamos o CortexBench, composto por 17 diferentes tarefas sensório-motoras em simulação, abrangendo locomoção, navegação e manipulação hábil e móvel, implementando o padrão da comunidade para aprender a política para cada tarefa. Os ambientes visuais variam de planos infinitos planos a configurações de mesa a digitalizações 3D fotorrealistas de espaços internos do mundo real. As formas de realização do agente variam de braços estacionários a mãos hábeis, de agentes de navegação cilíndricos idealizados a manipuladores móveis articulados. As condições de aprendizagem variam desde a aprendizagem por imitação de poucos tiros até a aprendizagem por reforço em larga escala. Isso nos permitiu realizar uma avaliação rigorosa e consistente de modelos pré-treinados novos e existentes. Antes do nosso trabalho, o melhor desempenho para cada tarefa no CortexBench era obtido por um modelo ou algoritmo projetado especificamente para essa tarefa. Em contraste, o que queremos é um modelo e/ou algoritmo que alcance desempenho competitivo em todas as tarefas. Organismos biológicos têm um córtex visual de propósito geral, e é isso que buscamos para os agentes corporificados.


Nós nos propusemos a pré-treinar um único córtex visual de uso geral que pode ter um bom desempenho em todas essas tarefas. Uma escolha crítica para o pré-treinamento é a escolha do conjunto de dados. Não estava totalmente claro como seria um bom conjunto de dados de pré-treinamento para IA incorporada. Existem grandes quantidades de dados de vídeo disponíveis online, mas não é prático experimentar todas as combinações desses conjuntos de dados existentes.

Começamos com o Ego4D como nosso conjunto de dados principal e, em seguida, exploramos se a adição de conjuntos de dados adicionais melhora os modelos pré-treinados. Ter um vídeo egocêntrico é importante porque permite que os robôs aprendam a ver de uma perspectiva de primeira pessoa. Como o Ego4D é fortemente focado em atividades cotidianas como cozinhar, jardinagem e artesanato, também consideramos conjuntos de dados de vídeo egocêntricos que exploram casas e apartamentos. Por fim, também estudamos se conjuntos de dados de imagens estáticas ajudam a melhorar nossos modelos.

Cumulativamente, nosso trabalho representa o maior e mais abrangente estudo empírico até o momento de representações visuais para IA incorporada, abrangendo mais de 5 representações visuais pré-treinadas de trabalhos anteriores e múltiplas ablações de VC-1 treinadas em mais de 4.000 horas de vídeo humano egocêntrico de sete diferentes conjuntos de dados, que exigiram mais de 10.000 horas de GPU de treinamento e avaliação.

Hoje, temos o código aberto do VC-1, nosso melhor modelo de córtex visual seguindo os valores FAIR de pesquisa aberta para o benefício de todos. Nossos resultados mostram que as representações VC-1 correspondem ou superam o aprendizado do zero em todas as 17 tarefas. Também descobrimos que a adaptação do VC-1 em dados relevantes para tarefas torna-o competitivo ou supera os resultados mais conhecidos em todas as tarefas no CortexBench. Até onde sabemos, o VC-1 é o primeiro modelo pré-treinado visual que se mostrou competitivo com resultados de última geração em um conjunto tão diversificado de tarefas de IA incorporadas. Estamos compartilhando nossos aprendizados detalhados, como o dimensionamento do tamanho do modelo, tamanho do conjunto de dados e diversidade afetam o desempenho de modelos pré-treinados, em um trabalho de pesquisa relacionado.

Coordenação adaptativa de habilidades para manipulação móvel robótica

Embora o VC-1 demonstre forte desempenho em habilidades sensório-motoras no CortexBench, essas são tarefas de horizonte curto (navegar, pegar um objeto, manipular um objeto com as mãos, etc.). A próxima geração de agentes de IA incorporados (implantados em robôs) também precisará realizar tarefas de longo prazo e se adaptar a ambientes novos e em mudança, incluindo distúrbios inesperados do mundo real.

Nosso segundo anúncio se concentra no pick-and-place móvel – um robô é inicializado em um novo ambiente e encarregado de mover objetos do local inicial para o local desejado, emulando a tarefa de arrumar uma casa. O robô deve navegar até um receptáculo com objetos, como o balcão da cozinha (a localização aproximada é fornecida a ele), procurar e pegar um objeto, navegar até o receptáculo do local desejado, colocar o objeto e repetir.

Nós nos propusemos a pré-treinar um único córtex visual de uso geral que pode ter um bom desempenho em todas essas tarefas. Uma escolha crítica para o pré-treinamento é a escolha do conjunto de dados. Não estava totalmente claro como seria um bom conjunto de dados de pré-treinamento para IA incorporada. Existem grandes quantidades de dados de vídeo disponíveis online, mas não é prático experimentar todas as combinações desses conjuntos de dados existentes.

Começamos com o Ego4D como nosso conjunto de dados principal e, em seguida, exploramos se a adição de conjuntos de dados adicionais melhora os modelos pré-treinados. Ter um vídeo egocêntrico é importante porque permite que os robôs aprendam a ver de uma perspectiva de primeira pessoa. Como o Ego4D é fortemente focado em atividades cotidianas como cozinhar, jardinagem e artesanato, também consideramos conjuntos de dados de vídeo egocêntricos que exploram casas e apartamentos. Por fim, também estudamos se conjuntos de dados de imagens estáticas ajudam a melhorar nossos modelos.

Cumulativamente, nosso trabalho representa o maior e mais abrangente estudo empírico até o momento de representações visuais para IA incorporada, abrangendo mais de 5 representações visuais pré-treinadas de trabalhos anteriores e múltiplas ablações de VC-1 treinadas em mais de 4.000 horas de vídeo humano egocêntrico de sete diferentes conjuntos de dados, que exigiram mais de 10.000 horas de GPU de treinamento e avaliação.

Hoje, temos o código aberto do VC-1, nosso melhor modelo de córtex visual seguindo os valores FAIR de pesquisa aberta para o benefício de todos. Nossos resultados mostram que as representações VC-1 correspondem ou superam o aprendizado do zero em todas as 17 tarefas. Também descobrimos que a adaptação do VC-1 em dados relevantes para tarefas torna-o competitivo ou supera os resultados mais conhecidos em todas as tarefas no CortexBench. Até onde sabemos, o VC-1 é o primeiro modelo pré-treinado visual que se mostrou competitivo com resultados de última geração em um conjunto tão diversificado de tarefas de IA incorporadas. Estamos compartilhando nossos aprendizados detalhados, como o dimensionamento do tamanho do modelo, tamanho do conjunto de dados e diversidade afetam o desempenho de modelos pré-treinados, em um trabalho de pesquisa relacionado.

Habilidades aprendidas versus API do Boston Dynamics

Coordenação adaptativa de habilidades para manipulação móvel robótica

Embora o VC-1 demonstre forte desempenho em habilidades sensório-motoras no CortexBench, essas são tarefas de horizonte curto (navegar, pegar um objeto, manipular um objeto com as mãos, etc.). A próxima geração de agentes de IA incorporados (implantados em robôs) também precisará realizar tarefas de longo prazo e se adaptar a ambientes novos e em mudança, incluindo distúrbios inesperados do mundo real.

Nosso segundo anúncio se concentra no pick-and-place móvel – um robô é inicializado em um novo ambiente e encarregado de mover objetos do local inicial para o local desejado, emulando a tarefa de arrumar uma casa. O robô deve navegar até um receptáculo com objetos, como o balcão da cozinha (a localização aproximada é fornecida a ele), procurar e pegar um objeto, navegar até o receptáculo do local desejado, colocar o objeto e repetir.

— vídeo 1

Apresentamos a Adaptive Skill Coordination (ASC), uma abordagem para robôs aprenderem tarefas com várias habilidades. Aqui está o ASC implantado no Spot arrumando uma casa – navegando até uma mesa/balcão, encontrando e pegando um objeto e colocando-o em outro lugar, repetindo – com desempenho quase perfeito!

To tackle such long-horizon tasks, we and our collaborators at Georgia Tech developed a new technique called Adaptive Skill Coordination (ASC), which consists of three components:

A library of basic sensorimotor skills (navigation, pick, place)

A skill coordination policy that chooses which skills are appropriate to use at which time

A corrective policy that adapts pretrained skills when out-of-distribution states are perceived

All sensorimotor policies are “model-free.” We use sensor-to-actions neural networks with no task-specific modules, like mapping or planning. The robot is trained entirely in simulation and transferred to the physical world without any real-world training data.

— video 2

O ASC consiste em 3 componentes:

1. uma biblioteca de habilidades visuomotoras básicas (navegação, pick, place)

2. uma política de coordenação de habilidades que escolhe quais habilidades são apropriadas para usar quando

3. uma política corretiva que adapta habilidades pré-treinadas quando estados fora da distribuição são percebidos


Demonstramos a eficácia do ASC implantando-o no robô Spot da Boston Dynamics em ambientes novos/desconhecidos do mundo real. Escolhemos o robô Boston Dynamics Spot devido aos recursos robustos de detecção, navegação e manipulação. No entanto, operar o Spot hoje envolve uma grande quantidade de intervenção humana. Por exemplo, pegar um objeto requer que uma pessoa clique no objeto no tablet do robô. Nosso objetivo é construir modelos de IA que possam sentir o mundo a partir de sensores integrados e comandos de motor por meio das APIs do Boston Dynamics.

Usando o simulador Habitat e os conjuntos de dados HM3D e ReplicaCAD, que incluem varreduras 3D internas de 1.000 casas, ensinamos um robô Spot simulado a se mover por uma casa invisível, pegar objetos fora do lugar e colocá-los no local certo . Em seguida, implantamos essa política de tiro zero no mundo real (sim2real) sem construir explicitamente um mapa no mundo real e, em vez disso, contamos com nosso robô para usar sua noção aprendida de como são as casas.

Quando colocamos nosso trabalho à prova, usamos dois ambientes do mundo real significativamente diferentes, onde Spot foi solicitado a reorganizar uma variedade de objetos – um apartamento de 185 metros quadrados totalmente mobiliado e um laboratório universitário de 65 metros quadrados. No geral, o ASC alcançou um desempenho quase perfeito, obtendo sucesso em 59 dos 60 (98 por cento) episódios, superando instabilidades de hardware, falhas de coleta e distúrbios adversários, como obstáculos em movimento ou caminhos bloqueados. Em comparação, as linhas de base tradicionais, como planejamento de tarefas e movimentos, são bem-sucedidas em apenas 73% dos casos, devido à incapacidade de se recuperar de distúrbios do mundo real. Também estudamos a robustez a perturbações adversárias, como alterar o layout do ambiente, andar na frente do robô para bloquear repetidamente seu caminho ou mover objetos-alvo no meio do episódio. Apesar de ser treinado inteiramente em simulação, o ASC é robusto a tais distúrbios, tornando-o adequado para muitos problemas de horizonte longo em robótica e aprendizado por reforço.

Isso abre caminhos para que a pesquisa sim2real se expanda para tarefas ainda mais desafiadoras do mundo real, como assistência em tarefas diárias como cozinhar e limpar, e até mesmo colaboração humano-robô. Nosso trabalho é um passo em direção a assistentes de robôs escaláveis, robustos e diversificados do futuro, que podem operar em novos ambientes prontos para uso e não exigem coleta de dados cara do mundo real.

Coordenação de habilidades adaptativas para manipulação robótica móvel

Repensando a transferência sim2real

Uma das tarefas mais importantes no aprendizado do sim2real é construir modelos de simulação que reflitam fielmente o comportamento do robô no mundo real. No entanto, isso é desafiador, pois o mundo real é vasto e está em constante mudança, e o simulador precisa captar essa diversidade. Nenhum simulador é uma réplica perfeita da realidade, e o principal desafio é superar a lacuna entre o desempenho do robô na simulação e no mundo real. A hipótese operacional padrão desse campo é que a redução do gap sim2real envolve a criação de simuladores de alta fidelidade física e seu uso para aprender as políticas do robô.

No ano passado, adotamos uma abordagem contraintuitiva para o sim2real. Em vez de construir simulações de alta fidelidade do mundo, construímos um simulador abstrato do Spot, que não modela a física de baixo nível na simulação, e aprendemos uma política que pode raciocinar em um nível superior (como para onde ir em vez de como mover as pernas). Chamamos isso de simulação cinemática, onde o robô é teletransportado para um local e o objeto-alvo é preso ao braço do robô, quando está próximo à garra e à vista. No mundo real, os controladores do Boston Dynamics são usados para realizar as ações comandadas por essa política de alto nível.

Para navegação, o ASC recebe a coordenada do objetivo e apenas observa a localização dos obstáculos por meio de sua câmera de profundidade. Por ser treinado para operar sem mapas, o ASC pode superar as mudanças em seu ambiente e também contornar o bloqueio adversário ativo.

Os robôs pré-treinados no sim2real têm sido limitados principalmente a tarefas de horizonte curto e navegação visual, sem qualquer interação com o ambiente. Pick-and-place móvel é uma tarefa de horizonte longo e requer interação com o ambiente e alternância entre diferentes fases de navegação, seleção, colocação etc. Isso geralmente é muito desafiador para aprendizado de reforço e requer demonstrações ou mão sofisticada recompensas projetadas. Nossa abstração de alto nível e simulação cinemática nos permitem aprender tarefas de longo horizonte, com recompensas esparsas, sem a necessidade de raciocinar sobre física de baixo nível.

Implantação no mundo real em apartamento

Futuras áreas de exploração

Embora ainda não tenhamos aplicado o córtex visual ao nosso robô de rearranjo de objetos, esperamos integrá-lo em um único sistema. Com tantas variáveis imprevisíveis no mundo real, ter fortes representações visuais e pré-treinamento em um número diversificado de vídeos egocêntricos mostrando muitas atividades e ambientes diferentes será um passo importante para construir robôs ainda melhores.

A voz é uma área que estamos particularmente interessados em explorar. Por exemplo, em vez de fornecer uma definição de tarefa, o processamento de linguagem natural pode ser integrado, para que alguém possa usar sua voz para dizer ao seu assistente para pegar os pratos da sala de jantar e movê-los para a pia da cozinha. Também queremos explorar como nosso robô pode funcionar melhor com as pessoas, como antecipar suas necessidades e ajudá-las em uma tarefa de várias etapas, como assar um bolo.

Estas são apenas algumas das muitas áreas que exigem mais pesquisa e exploração. Acreditamos que, com um forte córtex visual pré-treinado em vídeo egocêntrico e habilidades visuomotoras pré-treinadas em simulação, esses avanços podem um dia servir como blocos de construção para experiências baseadas em IA, onde assistentes virtuais e robôs físicos podem ajudar humanos e interagir perfeitamente com o virtual e o físico. mundo.


Publicado em 02/04/2023 04h44

Artigo original:


333