Novo algoritmo desbloqueia insights de alta resolução para visão computacional

FeatUp é um algoritmo que atualiza a resolução de redes profundas para melhorar o desempenho em tarefas de visão computacional, como reconhecimento de objetos, análise de cena e medição de profundidade. Créditos:Imagem: Mark Hamilton e Alex Shipps/MIT CSAIL, imagem superior via Unsplash.

Imagine-se olhando para uma rua movimentada por alguns momentos e depois tentando esboçar a cena que viu de memória. A maioria das pessoas consegue desenhar as posições aproximadas dos objetos principais, como carros, pessoas e faixas de pedestres, mas quase ninguém consegue desenhar todos os detalhes com precisão perfeita. O mesmo se aplica à maioria dos algoritmos modernos de visão computacional: eles são fantásticos na captura de detalhes de alto nível de uma cena, mas perdem detalhes refinados à medida que processam informações.

Agora, os pesquisadores do MIT criaram um sistema chamado “FeatUp” que permite que algoritmos capturem todos os detalhes de alto e baixo nível de uma cena ao mesmo tempo – quase como uma cirurgia ocular Lasik para visão computacional.

Quando os computadores aprendem a “ver” olhando imagens e vídeos, eles constroem “ideias” do que está em uma cena por meio de algo chamado “recursos”. Para criar esses recursos, redes profundas e modelos de base visual dividem as imagens em uma grade de pequenos quadrados e processam esses quadrados como um grupo para determinar o que está acontecendo em uma foto. Cada pequeno quadrado geralmente é composto de 16 a 32 pixels, portanto a resolução desses algoritmos é dramaticamente menor do que as imagens com as quais eles trabalham. Ao tentar resumir e compreender as fotos, os algoritmos perdem muita clareza de pixel.

O algoritmo FeatUp pode impedir essa perda de informações e aumentar a resolução de qualquer rede profunda sem comprometer a velocidade ou a qualidade. Isso permite que os pesquisadores melhorem de forma rápida e fácil a resolução de qualquer algoritmo novo ou existente. Por exemplo, imagine tentar interpretar as previsões de um algoritmo de detecção de câncer de pulmão com o objetivo de localizar o tumor. Aplicar o FeatUp antes de interpretar o algoritmo usando um método como mapas de ativação de classe (CAM) pode produzir uma visão dramaticamente mais detalhada (16-32x) de onde o tumor pode estar localizado de acordo com o modelo.

Vídeo: Mark Hamilton

O FeatUp não apenas ajuda os profissionais a entender seus modelos, mas também pode melhorar uma panóplia de diferentes tarefas, como detecção de objetos, segmentação semântica (atribuir rótulos a pixels em uma imagem com rótulos de objetos) e estimativa de profundidade. Ele consegue isso fornecendo recursos mais precisos e de alta resolução, que são cruciais para a construção de aplicações de visão que vão desde direção autônoma até imagens médicas.

“A essência de toda visão computacional reside nesses recursos profundos e inteligentes que emergem das profundezas das arquiteturas de aprendizagem profunda. O grande desafio dos algoritmos modernos é que eles reduzem imagens grandes a grades muito pequenas de recursos ‘inteligentes’, obtendo insights inteligentes, mas perdendo os detalhes mais sutis”, diz Mark Hamilton, estudante de doutorado do MIT em engenharia elétrica e ciência da computação, MIT Computer Science. e afiliado do Laboratório de Inteligência Artificial (CSAIL) e co-autor principal de um artigo sobre o projeto. “A FeatUp ajuda a possibilitar o melhor dos dois mundos: representações altamente inteligentes com a resolução da imagem original. Esses recursos de alta resolução aumentam significativamente o desempenho em uma variedade de tarefas de visão computacional, desde aprimorar a detecção de objetos e melhorar a previsão de profundidade até fornecer uma compreensão mais profunda do processo de tomada de decisão da sua rede por meio de análise de alta resolução.”

Renascimento da resolução

À medida que estes grandes modelos de IA se tornam cada vez mais predominantes, há uma necessidade crescente de explicar o que estão fazendo, o que estão a ver e o que estão a pensar.

Mas como exatamente a FeatUp pode descobrir esses detalhes sutis? Curiosamente, o segredo está nas imagens que se mexem e balançam.

Em particular, o FeatUp aplica pequenos ajustes (como mover a imagem alguns pixels para a esquerda ou direita) e observa como um algoritmo responde a esses leves movimentos da imagem. Isso resulta em centenas de mapas de feições profundas, todos ligeiramente diferentes, que podem ser combinados em um único conjunto nítido e de alta resolução de feições profundas. “Imaginamos que existem alguns recursos de alta resolução e que, quando os mexermos e desfocarmos, eles corresponderão a todos os recursos originais de baixa resolução das imagens distorcidas. Nosso objetivo é aprender como refinar os recursos de baixa resolução em recursos de alta resolução usando esse ‘jogo’ que nos permite saber se estamos indo bem”, diz Hamilton. Esta metodologia é análoga à forma como os algoritmos podem criar um modelo 3D a partir de múltiplas imagens 2D, garantindo que o objeto 3D previsto corresponda a todas as fotos 2D usadas para criá-lo. No caso do FeatUp, eles prevêem um mapa de características de alta resolução que é consistente com todos os mapas de características de baixa resolução formados pela tremulação da imagem original.

A equipe observa que as ferramentas padrão disponíveis no PyTorch eram insuficientes para suas necessidades e introduziu um novo tipo de camada de rede profunda em sua busca por uma solução rápida e eficiente. Sua camada personalizada, uma operação especial conjunta de upsampling bilateral, foi 100 vezes mais eficiente do que uma implementação ingênua no PyTorch. A equipe também mostrou que esta nova camada poderia melhorar uma ampla variedade de algoritmos diferentes, incluindo segmentação semântica e previsão de profundidade. Essa camada melhorou a capacidade da rede de processar e compreender detalhes de alta resolução, proporcionando a qualquer algoritmo que a utilizasse um aumento substancial de desempenho.

“Outra aplicação é chamada recuperação de pequenos objetos, onde nosso algoritmo permite a localização precisa de objetos. Por exemplo, mesmo em cenas de estradas desordenadas, os algoritmos enriquecidos com o FeatUp podem ver pequenos objetos como cones de trânsito, refletores, luzes e buracos onde seus primos de baixa resolução falham. Isto demonstra a sua capacidade de transformar características grosseiras em sinais detalhadamente detalhados”, afirma Stephanie Fu ’22, MNG ’23, estudante de doutoramento na Universidade da Califórnia em Berkeley e outra co-autora principal do novo artigo da FeatUp. “Isso é especialmente crítico para tarefas urgentes, como localizar um sinal de trânsito em uma via expressa congestionada em um carro sem motorista. Isto pode não apenas melhorar a precisão de tais tarefas, transformando suposições gerais em localizações exatas, mas também pode tornar esses sistemas mais confiáveis, interpretáveis e confiáveis.”

Qual o proximo?

Em relação às aspirações futuras, a equipe enfatiza a potencial adoção generalizada da FeatUp dentro e fora da comunidade de pesquisa, semelhante às práticas de aumento de dados. “O objetivo é tornar esse método uma ferramenta fundamental no deep learning, enriquecendo modelos para perceber o mundo com mais detalhes sem a ineficiência computacional do processamento tradicional de alta resolução”, afirma Fu.

“O FeatUp representa um avanço maravilhoso no sentido de tornar as representações visuais realmente úteis, ao produzi-las em resoluções de imagem completas”, diz Noah Snavely, professor de ciência da computação da Universidade Cornell, que não esteve envolvido na pesquisa. “As representações visuais aprendidas tornaram-se muito boas nos últimos anos, mas quase sempre são produzidas em resolução muito baixa – você pode colocar uma bela foto em resolução total e obter de volta uma pequena grade de recursos do tamanho de um selo postal. Isso é um problema se você deseja usar esses recursos em aplicativos que produzem saídas de resolução total. A FeatUp resolve esse problema de forma criativa, combinando ideias clássicas em super-resolução com abordagens modernas de aprendizagem, resultando em belos mapas de recursos de alta resolução.”

“Esperamos que esta ideia simples possa ter ampla aplicação. Ele fornece versões de alta resolução de análise de imagens que antes pensávamos que só poderiam ser de baixa resolução”, diz o autor sênior William T. Freeman, professor de engenharia elétrica e ciência da computação do MIT e membro do CSAIL.

Os autores principais Fu e Hamilton são acompanhados pelos estudantes de doutorado do MIT Laura Brandt SM ’21 e Axel Feldmann SM ’21, bem como por Zhoutong Zhang SM ’21, PhD ’22, todos afiliados atuais ou antigos do MIT CSAIL. Sua pesquisa é apoiada, em parte, por uma bolsa de pesquisa de pós-graduação da National Science Foundation, pela National Science Foundation e pelo Escritório do Diretor de Inteligência Nacional, pelo Laboratório de Pesquisa da Força Aérea dos EUA e pelo Acelerador de Inteligência Artificial da Força Aérea dos EUA. O grupo apresentará seu trabalho em maio na Conferência Internacional sobre Representações de Aprendizagem.


Publicado em 28/03/2024 08h16

Artigo original:

Estudo original: