Agente de Inteligência Artificial pode aprender a base de causa e efeito de uma tarefa de navegação durante o treinamento

Pesquisadores do MIT demonstraram que uma classe especial de redes neurais de Deep Learning é capaz de aprender a verdadeira estrutura de causa e efeito de uma tarefa de navegação durante o treinamento. Crédito: Massachusetts Institute of Technology

As redes neurais podem aprender a resolver todos os tipos de problemas, desde a identificação de gatos em fotos até a direção de um carro que dirige sozinho. Mas se esses poderosos algoritmos de reconhecimento de padrões realmente entendem as tarefas que estão realizando permanece uma questão em aberto.

Por exemplo, uma rede neural encarregada de manter um carro autônomo em sua pista pode aprender a fazer isso observando os arbustos ao lado da estrada, em vez de aprender a detectar as pistas e focar no horizonte da estrada.

Pesquisadores do MIT mostraram agora que certo tipo de rede neural é capaz de aprender a verdadeira estrutura de causa e efeito da tarefa de navegação para a qual está sendo treinada. Como essas redes podem compreender a tarefa diretamente de dados visuais, elas devem ser mais eficazes do que outras redes neurais ao navegar em um ambiente complexo, como um local com árvores densas ou condições climáticas em rápida mudança.

No futuro, este trabalho pode melhorar a confiabilidade e confiabilidade dos agentes de aprendizado de máquina que estão realizando tarefas de alto risco, como dirigir um veículo autônomo em uma rodovia movimentada.

“Como esses sistemas de aprendizado de máquina inspirados no cérebro são capazes de realizar o raciocínio de forma causal, podemos saber e apontar como eles funcionam e tomam decisões. Isso é essencial para aplicações críticas de segurança”, diz o co-autor Ramin Hasani , pós-doutorado no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL).

Os co-autores incluem o estudante de graduação em engenharia elétrica e ciência da computação e co-autor principal Charles Vorbach; CSAIL Ph.D. aluno Alexander Amini; Mathias Lechner, estudante de graduação do Instituto de Ciência e Tecnologia da Áustria; e a autora sênior Daniela Rus, o Professor Andrew e Erna Viterbi de Engenharia Elétrica e Ciência da Computação e diretor do CSAIL. A pesquisa será apresentada na Conferência 2021 sobre Sistemas de Processamento de Informação Neural (NeurIPS) em dezembro.

Um resultado que chama a atenção

As redes neurais são um método de aprendizado de máquina no qual o computador aprende a concluir uma tarefa por tentativa e erro, analisando muitos exemplos de treinamento. E as redes neurais “líquidas” mudam suas equações subjacentes para se adaptar continuamente a novas entradas.

A nova pesquisa baseia-se em trabalhos anteriores em que Hasani e outros mostraram como um tipo de sistema de Deep Learning inspirado no cérebro chamado de Política de Circuito Neural (NCP), construído por células de rede neural líquida, é capaz de controlar autonomamente um veículo autônomo, com uma rede de apenas 19 neurônios de controle.

Os pesquisadores observaram que os NCPs realizando uma tarefa de manutenção de faixa mantinham sua atenção no horizonte da estrada e nas fronteiras ao tomar uma decisão de direção, da mesma forma que um ser humano faria (ou deveria) ao dirigir um carro. Outras redes neurais que estudaram nem sempre se concentraram na estrada.

“Essa foi uma observação legal, mas não a quantificamos. Então, queríamos encontrar os princípios matemáticos de por que e como essas redes são capazes de capturar a verdadeira causa dos dados”, diz ele.

Eles descobriram que, quando um NCP está sendo treinado para completar uma tarefa, a rede aprende a interagir com o ambiente e a responder pelas intervenções. Em essência, a rede reconhece se sua saída está sendo alterada por uma determinada intervenção e, a seguir, relaciona a causa e o efeito.

Durante o treinamento, a rede é executada para frente para gerar uma saída e, em seguida, para trás para corrigir os erros. Os pesquisadores observaram que os NCPs relacionam causa e efeito durante o modo de avanço e o modo de retrocesso, o que permite que a rede concentre sua atenção na verdadeira estrutura causal de uma tarefa.

Hasani e seus colegas não precisaram impor nenhuma restrição adicional ao sistema ou realizar qualquer configuração especial para o NCP aprender essa causalidade – ela surgiu automaticamente durante o treinamento.

Resistindo às mudanças ambientais

Eles testaram os NCPs por meio de uma série de simulações nas quais drones autônomos realizavam tarefas de navegação. Cada drone usou entradas de uma única câmera para navegar.

Os drones foram encarregados de viajar até um objeto alvo, perseguir um alvo em movimento ou seguir uma série de marcadores em ambientes variados, incluindo uma floresta de sequoias e um bairro. Eles também viajaram em diferentes condições climáticas, como céu claro, chuva forte e nevoeiro.

Os pesquisadores descobriram que os NCPs tiveram um desempenho tão bom quanto as outras redes em tarefas mais simples com bom tempo, mas superaram todos eles nas tarefas mais desafiadoras, como perseguir um objeto em movimento durante uma tempestade.

“Observamos que os NCPs são a única rede que presta atenção ao objeto de interesse em diferentes ambientes durante a execução da tarefa de navegação, onde quer que você o teste, e em diferentes condições de iluminação ou ambiente. Este é o único sistema que pode fazer isso casualmente e realmente aprender o comportamento que pretendemos que o sistema aprenda “, diz ele.

Seus resultados mostram que o uso de NCPs também pode permitir que drones autônomos naveguem com sucesso em ambientes com mudanças nas condições, como uma paisagem ensolarada que repentinamente se torna nebulosa.

“Depois que o sistema aprende o que realmente deve fazer, ele pode ter um bom desempenho em novos cenários e condições ambientais que nunca experimentou. Este é um grande desafio dos sistemas de aprendizado de máquina atuais que não são causais. Acreditamos que esses resultados são muito empolgantes , pois mostram como a causalidade pode emergir da escolha de uma rede neural “, diz ele.

No futuro, os pesquisadores querem explorar o uso de NCPs para construir sistemas maiores. Colocar milhares ou milhões de redes juntas pode permitir que enfrentem tarefas ainda mais complicadas.


Publicado em 15/10/2021 14h45

Artigo original:

Estudo original: