Ao explorar mundos virtuais, a Inteligência Artificial aprende de novas maneiras

Imagem via Unsplash

Seres inteligentes aprendem interagindo com o mundo. Pesquisadores de inteligência artificial adotaram uma estratégia semelhante para ensinar novas habilidades a seus agentes virtuais.

Em 2009, um cientista da computação da Universidade de Princeton chamado Fei-Fei Li inventou um conjunto de dados que mudaria a história da inteligência artificial. Conhecido como ImageNet, o conjunto de dados inclui milhões de imagens rotuladas que podem treinar modelos sofisticados de aprendizado de máquina para reconhecer algo em uma imagem. As máquinas superaram as habilidades de reconhecimento humano em 2015. Logo depois, Li começou a procurar o que ela chamou de outra das “Estrelas do Norte” que daria à IA um impulso diferente em direção à verdadeira inteligência.

Ela encontrou inspiração olhando para trás no tempo, mais de 530 milhões de anos, para a explosão cambriana, quando inúmeras espécies de animais terrestres apareceram pela primeira vez. Uma teoria influente postula que a explosão de novas espécies foi impulsionada em parte pelo surgimento de olhos que podiam ver o mundo ao seu redor pela primeira vez. Li percebeu que a visão em animais nunca ocorre por si só, mas está “profundamente inserida em um corpo holístico que precisa se mover, navegar, sobreviver, manipular e mudar no ambiente em rápida mudança”, disse ela. “É por isso que foi muito natural para mim girar em direção a uma visão mais ativa [para IA].”

Hoje, o trabalho de Li se concentra em agentes de IA que não aceitam simplesmente imagens estáticas de um conjunto de dados, mas podem se mover e interagir com seus ambientes em simulações de mundos virtuais tridimensionais.

Este é o objetivo amplo de um novo campo conhecido como IA incorporada, e Li não é o único a adotá-lo. Ele se sobrepõe à robótica, já que os robôs podem ser o equivalente físico dos agentes de IA incorporados no mundo real e o aprendizado por reforço – que sempre treinou um agente interativo para aprender usando recompensas de longo prazo como incentivo. Mas Li e outros acham que a IA incorporada poderia impulsionar uma grande mudança de habilidades simples de aprendizado de máquinas, como reconhecer imagens, para aprender a realizar tarefas humanas complexas com várias etapas, como fazer uma omelete.

“Naturalmente, ficamos mais ambiciosos e dizemos: ‘Ok, que tal construir um agente inteligente?’ E nesse ponto, você vai pensar em IA incorporada”, disse Jitendra Malik, cientista da computação da Universidade de Califórnia, Berkeley.

O trabalho na IA incorporada hoje inclui qualquer agente que possa sondar e mudar seu próprio ambiente. Enquanto na robótica o agente de IA sempre vive em um corpo robótico, os agentes modernos em simulações realistas podem ter um corpo virtual ou podem sentir o mundo através de um ponto de vista de câmera em movimento que ainda pode interagir com o ambiente. “O significado de corporificação não é o corpo em si, é a necessidade holística e a funcionalidade de interagir e fazer coisas com seu ambiente”, disse Li.

Essa interatividade oferece aos agentes uma maneira totalmente nova – e em muitos casos, melhor – de aprender sobre o mundo. É a diferença entre observar uma possível relação entre dois objetos e ser o único a experimentar e fazer com que a relação aconteça você mesmo. Armado com esta nova compreensão, o pensamento vai, uma maior inteligência seguirá. E com um conjunto de novos mundos virtuais em funcionamento, os agentes de IA incorporados já começaram a oferecer esse potencial, fazendo progressos significativos em seus novos ambientes.

“No momento, não temos nenhuma prova de inteligência que exista que não esteja aprendendo por meio da interação com o mundo”, disse Viviane Clay, pesquisadora de IA incorporada na Universidade de Osnabrück, na Alemanha.

Rumo a uma simulação perfeita

Embora os pesquisadores há muito quisessem criar mundos virtuais realistas para os agentes de IA explorarem, foi apenas nos últimos cinco anos que eles puderam começar a construí-los. A capacidade veio de melhorias nos gráficos impulsionadas pelas indústrias de filmes e videogames. Em 2017, os agentes de IA puderam se sentir em casa nos primeiros mundos virtuais para retratar realisticamente espaços internos – em casas literais, embora virtuais. Um simulador chamado AI2-Thor, construído por cientistas da computação do Allen Institute for AI, permite que os agentes perambulem por cozinhas, banheiros, salas e quartos naturalistas. Os agentes podiam estudar visões tridimensionais que mudavam à medida que se moviam, expondo novos ângulos quando decidissem dar uma olhada mais de perto.

Esses novos mundos também deram aos agentes a chance de raciocinar sobre mudanças em uma nova dimensão: o tempo. “Essa é a grande diferença”, disse Manolis Savva, pesquisador de computação gráfica da Simon Fraser University que construiu vários mundos virtuais. “No cenário de IA incorporado? você tem esse fluxo de informações temporalmente coerente e tem controle sobre ele.”

Esses mundos simulados agora são bons o suficiente para treinar agentes para realizar tarefas inteiramente novas. Em vez de apenas reconhecer um objeto, eles podem interagir com ele, pegá-lo e navegar por ele – passos aparentemente pequenos, mas essenciais para qualquer agente entender seu ambiente. E em 2020, os agentes virtuais foram além da visão para ouvir os sons que as coisas virtuais fazem, oferecendo outra maneira de aprender sobre objetos e como eles funcionam no mundo.

Agentes de IA incorporados que podem operar em mundos virtuais, como o ambiente ManipulaTHOR mostrado aqui, aprendem de maneira diferente e podem ser mais adequados para tarefas mais complicadas e humanas.

Cortesia de Roozbeh Mottaghi e do Allen Institute for AI


Isso não quer dizer que o trabalho acabou. “É muito menos real do que o mundo real, até mesmo o melhor simulador”, disse Daniel Yamins, cientista da computação da Universidade de Stanford. Com colegas do MIT e da IBM, Yamins co-desenvolveu o ThreeDWorld, que coloca um forte foco em imitar a física da vida real em mundos virtuais – coisas como como os líquidos se comportam e como alguns objetos são rígidos em uma área e macios em outras.

“Isso é muito difícil de fazer”, disse Savva. “É um grande desafio de pesquisa.”

Ainda assim, basta que os agentes de IA comecem a aprender de novas maneiras.

Comparando redes neurais

Até agora, uma maneira fácil de medir o progresso da IA incorporada é comparar o desempenho dos agentes incorporados aos algoritmos treinados nas tarefas de imagem estática mais simples. Os pesquisadores observam que essas comparações não são perfeitas, mas os primeiros resultados sugerem que os agentes de IA incorporados aprendem de maneira diferente – e às vezes melhor – do que seus antepassados.

Em um artigo recente, os pesquisadores descobriram que um agente de IA incorporado era mais preciso na detecção de objetos especificados, melhorando a abordagem tradicional em quase 12%. “A comunidade de detecção de objetos levou mais de três anos para atingir esse nível de melhoria”, disse Roozbeh Mottaghi, coautor e cientista da computação do Allen Institute for AI. “Simplesmente interagindo com o mundo, conseguimos melhorar muito”, disse ele.

Outros artigos mostraram que a detecção de objetos melhora entre algoritmos tradicionalmente treinados quando você os coloca em uma forma incorporada e permite que eles explorem um espaço virtual apenas uma vez, ou quando você os deixa se mover para reunir várias visualizações de objetos.

Os pesquisadores também estão descobrindo que algoritmos incorporados e tradicionais aprendem de maneira fundamentalmente diferente. Como evidência, considere a rede neural – o ingrediente essencial por trás das habilidades de aprendizado de todos os algoritmos incorporados e muitos não incorporados. Uma rede neural é um tipo de algoritmo com muitas camadas de nós conectados de neurônios artificiais, vagamente modelados após as redes em cérebros humanos. Em dois artigos separados, um liderado por Clay e outro por Grace Lindsay, uma nova professora da Universidade de Nova York, os pesquisadores descobriram que as redes neurais em agentes incorporados tinham menos neurônios ativos em resposta à informação visual, o que significa que cada neurônio individual era mais seletiva sobre o que responderia. As redes não incorporadas eram muito menos eficientes e exigiam muito mais neurônios para estarem ativos na maior parte do tempo. O grupo de Lindsay até comparou as redes neurais incorporadas e não incorporadas à atividade neuronal em um cérebro vivo – o córtex visual de um camundongo – e descobriu que as versões incorporadas eram a correspondência mais próxima.

Lindsay é rápida em apontar que isso não significa necessariamente que as versões incorporadas sejam melhores – elas são apenas diferentes. Ao contrário dos documentos de detecção de objetos, o trabalho de Clay e Lindsay comparando as diferenças subjacentes nas mesmas redes neurais faz com que os agentes executem tarefas completamente diferentes – para que possam precisar de redes neurais que funcionem de maneira diferente para atingir seus objetivos.

Mas enquanto comparar redes neurais incorporadas a não incorporadas é uma medida de progresso, os pesquisadores não estão realmente interessados em melhorar o desempenho dos agentes incorporados nas tarefas atuais; essa linha de trabalho continuará separadamente, usando IA tradicionalmente treinada. O verdadeiro objetivo é aprender tarefas mais complicadas e humanas, e é aí que os pesquisadores estão mais animados ao ver sinais de progresso impressionante, principalmente nas tarefas de navegação. Aqui, um agente deve se lembrar do objetivo de longo prazo de seu destino enquanto forja um plano para chegar lá sem se perder ou colidir com objetos.

Em apenas alguns anos, uma equipe liderada por Dhruv Batra, diretor de pesquisa da Meta AI e cientista da computação do Instituto de Tecnologia da Geórgia, melhorou rapidamente o desempenho em um tipo específico de tarefa de navegação chamada navegação por objetivo. Aqui, um agente é solto em um ambiente totalmente novo e deve navegar para as coordenadas do alvo em relação à posição inicial (“Ir para o ponto que fica 5 metros ao norte e 10 metros a leste”) sem um mapa. Ao fornecer aos agentes um GPS e uma bússola e treiná-lo no mundo virtual da Meta, chamado AI Habitat, “conseguimos obter mais de 99,9% de precisão em um conjunto de dados padrão”, disse Batra. E este mês, eles expandiram com sucesso os resultados para um cenário mais difícil e realista, onde o agente não tem GPS ou bússola. O agente atingiu 94% de precisão apenas estimando sua posição com base no fluxo de pixels que vê enquanto se move.

“Este é um progresso fantástico”, disse Mottaghi. “No entanto, isso não significa que a navegação seja uma tarefa resolvida.” Em parte, isso ocorre porque muitos outros tipos de tarefas de navegação que usam instruções de linguagem mais complexas, como “Passe pela cozinha para pegar os copos na mesa de cabeceira do quarto”, permanecem com apenas cerca de 30% a 40% de precisão.

Mas a navegação ainda representa uma das tarefas mais simples da IA incorporada, pois os agentes se movem pelo ambiente sem manipular nada nele. Até agora, os agentes de IA incorporados estão longe de dominar qualquer tarefa com objetos. Parte do desafio é que, quando o agente interage com novos objetos, há muitas maneiras de dar errado, e os erros podem se acumular. Por enquanto, a maioria dos pesquisadores contorna isso escolhendo tarefas com apenas alguns passos, mas a maioria das atividades humanas, como cozinhar ou lavar a louça, exigem longas sequências de ações com vários objetos. Para chegar lá, os agentes de IA precisarão de um empurrão maior.

Aqui, novamente, Li pode estar na vanguarda, tendo desenvolvido um conjunto de dados que ela espera que faça para a IA incorporada o que seu projeto ImageNet fez para o reconhecimento de objetos de IA. Onde uma vez ela presenteou a comunidade de IA com um enorme conjunto de dados de imagens para laboratórios padronizarem os dados de entrada, sua equipe agora lançou um conjunto de dados simulados padronizados com 100 atividades humanas para os agentes completarem que podem ser testadas em qualquer mundo virtual. Ao criar métricas que comparam os agentes que realizam essas tarefas com vídeos reais de humanos realizando a mesma tarefa, o novo conjunto de dados de Li permitirá que a comunidade avalie melhor o progresso dos agentes virtuais de IA.

Uma vez que os agentes tenham sucesso nessas tarefas complicadas, Li vê o propósito da simulação como um treinamento para o espaço manobrável definitivo: o mundo real.

“A simulação é uma das áreas mais importantes e empolgantes da pesquisa robótica, na minha opinião”, disse ela.

Um robô navega em terrenos incertos no mundo real. Novos estudos sugerem que o treinamento em ambientes virtuais pode ajudar os robôs com essas e outras habilidades.

Ashish Kumar


A nova fronteira robótica

Os robôs são, inerentemente, agentes de inteligência incorporados. Ao habitar algum tipo de corpo físico no mundo real, eles representam a forma mais extrema de agentes de IA incorporados. Mas muitos pesquisadores estão descobrindo que até mesmo esses agentes podem se beneficiar do treinamento em mundos virtuais.

“Algoritmos de última geração [em robótica], como aprendizado por reforço e esse tipo de coisa, geralmente exigem milhões de iterações para aprender algo significativo”, disse Mottaghi. Como resultado, treinar robôs reais em tarefas difíceis pode levar anos.

Mas treiná-los primeiro em mundos virtuais oferece a oportunidade de treinar muito mais rápido do que em tempo real, e milhares de agentes podem treinar ao mesmo tempo em milhares de salas ligeiramente diferentes. Além disso, o treinamento virtual também é mais seguro para o robô e qualquer humano próximo em seu caminho.

Muitos roboticistas começaram a levar os simuladores mais a sério em 2018, quando pesquisadores da OpenAI provaram que era possível transferir habilidades da simulação para o mundo real. Eles treinaram uma mão robótica para manipular um cubo que só havia visto em simulações. Sucessos mais recentes permitiram que drones voadores aprendessem a evitar colisões no ar, carros autônomos para serem implantados em ambientes urbanos em dois continentes diferentes e robôs semelhantes a cães de quatro patas para completar uma caminhada de uma hora nos Alpes suíços ao mesmo tempo. leva humanos.

No futuro, os pesquisadores também podem fechar a lacuna entre as simulações e o mundo real enviando humanos para o espaço virtual por meio de fones de ouvido de realidade virtual. Um dos principais objetivos da pesquisa em robótica, observa Dieter Fox, diretor sênior de pesquisa em robótica da NVIDIA e professor da Universidade de Washington, é construir robôs que sejam úteis para os humanos no mundo real. Mas para fazer isso, eles devem primeiro ser expostos e aprender a interagir com os humanos.

“Usar a realidade virtual para colocar humanos nesses ambientes simulados e permitir que eles demonstrem coisas e interajam com os robôs será muito poderoso”, disse Fox.

Quer existam em simulações ou no mundo real, os agentes de IA incorporados estão aprendendo mais como nós, em tarefas que são mais parecidas com as que fazemos todos os dias. E o campo está progredindo em todas as frentes ao mesmo tempo – novos mundos, novas tarefas e novos algoritmos de aprendizado.

“Vejo uma convergência de aprendizado profundo, aprendizado robótico, visão e também linguagem”, disse Li. “E agora eu penso neste moonshot ou North Star em direção à IA incorporada, vamos aprender a tecnologia fundamental de inteligência, ou IA, que pode realmente levar a grandes avanços.”


Publicado em 02/07/2022 09h14

Artigo original: