Um framework de reconhecimento facial baseada em transformadores de visão

Ilustração do ViT baseado em peças da equipe para reconhecimento facial. Uma imagem facial é processada por um CNN de referência leve que produz um conjunto de referências faciais. Os pontos de referência são usados para amostrar partes faciais da imagem de entrada, que são usadas como entrada para um ViT para extração e reconhecimento de recursos. Todo o sistema é treinado de ponta a ponta sem supervisão de referência. São mostrados exemplos de pontos de referência detectados pelo ponto de referência CNN. Crédito: Sun & Tzimiropoulos.

As ferramentas de reconhecimento facial são modelos computacionais que podem identificar pessoas específicas em imagens, bem como CCTV ou imagens de vídeo. Essas ferramentas já estão sendo usadas em uma ampla gama de configurações do mundo real, por exemplo, auxiliando agentes policiais e de controle de fronteiras em suas investigações criminais e esforços de vigilância, e para autenticação e aplicações biométricas. Embora a maioria dos modelos existentes tenha um desempenho notavelmente bom, ainda pode haver muito espaço para melhorias.

Pesquisadores da Queen Mary University of London criaram recentemente uma nova e promissora arquitetura para reconhecimento facial. Essa arquitetura, apresentada em um artigo pré-publicado no arXiv, é baseada em uma estratégia de extração de características faciais de imagens que difere da maioria das propostas até agora.

“Métodos holísticos usando redes neurais convolucionais (CNNs) e perdas baseadas em margem dominaram a pesquisa sobre reconhecimento facial”, disseram Zhonglin Sun e Georgios Tzimiropoulos, os dois pesquisadores que realizaram o estudo, ao TechXplore.

“Neste trabalho, partimos dessa configuração de duas maneiras: (a) empregamos o Vision Transformer como arquitetura para treinar uma linha de base muito forte para reconhecimento facial, chamada simplesmente de fViT, que já supera a maioria dos (b) Em segundo lugar, capitalizamos a propriedade inerente do Transformer para processar informações (tokens visuais) extraídas de grades irregulares para criar um pipeline para reconhecimento facial que lembra os métodos de reconhecimento facial baseados em partes.”

As abordagens de reconhecimento facial mais difundidas são baseadas em CNNs, uma classe de redes neurais artificiais (CNNs) que podem aprender autonomamente a encontrar padrões em imagens, por exemplo, identificando objetos ou pessoas específicas. Embora alguns desses métodos tenham alcançado desempenhos muito bons, trabalhos recentes destacaram o potencial de outra classe de algoritmos para reconhecimento facial, conhecidos como transformadores de visão (ViTs).

Em contraste com as CNNs, que normalmente analisam as imagens inteiramente, as ViTs dividem uma imagem em fragmentos de um tamanho específico e, em seguida, adicionam incorporações a esses fragmentos. A sequência resultante de vetores é então alimentada a um transformador padrão, um modelo de deep learning que pesa diferencialmente diferentes partes dos dados que está analisando.

“O ViT, ao contrário das CNNs, pode realmente operar em manchas extraídas de grades irregulares e não requer a grade de amostragem espaçada uniformemente usada para convoluções”, explicaram os pesquisadores em seu artigo. “Como o rosto humano é um objeto estruturado composto de partes (por exemplo, olhos, nariz, lábios) e inspirado pelo trabalho seminal de reconhecimento facial baseado em partes antes do deep learning, propomos a aplicação de ViT em manchas que representam partes faciais”.

A arquitetura do transformador de visão criada por Sun e Tzimiropoulos, apelidada de fViT, é composta por uma rede leve e um transformador de visão. A rede prevê as coordenadas dos pontos de referência faciais (por exemplo, nariz, boca, etc.), enquanto o transformador analisa as manchas contendo os pontos de referência previstos.

Os pesquisadores treinaram diferentes transformadores faciais usando dois conjuntos de dados conhecidos, o MS1MV3, que contém imagens de 93.431 pessoas, e o VGGFace2, com 3,1 milhões de imagens e 8.600 identidades. conseqüentemente, eles realizaram uma série de testes para avaliar seus modelos, alterando também algumas de suas características para testar como isso afetava seu desempenho.

Sua arquitetura alcançou uma precisão notável para todos os conjuntos de dados nos quais foi testada, comparável a muitos outros modelos de reconhecimento facial de última geração. Além disso, seus modelos pareciam delinear com sucesso os marcos faciais sem serem especificamente treinados para isso.

No futuro, este estudo recente pode inspirar o desenvolvimento de outros modelos de reconhecimento facial baseados em transformadores de visão. Além disso, a arquitetura dos pesquisadores poderia ser implementada em aplicativos ou ferramentas de software que poderiam se beneficiar da análise seletiva de diferentes marcos faciais.


Publicado em 24/12/2022 23h32

Artigo original:

Estudo original: