Um modelo que pode criar animações realistas de rostos falantes

Crédito: Biswas et al.

Nos últimos anos, as animações geradas por computador de animais e humanos tornaram-se cada vez mais detalhadas e realistas. No entanto, produzir animações convincentes do rosto de um personagem enquanto ele fala continua sendo um desafio fundamental, pois normalmente envolve a combinação bem-sucedida de uma série de diferentes elementos de áudio e vídeo.

Uma equipe de cientistas da computação da TCS Research na Índia criou recentemente um novo modelo que pode produzir animações de rosto falante altamente realistas que integram gravações de áudio com os movimentos da cabeça de um personagem. Esse modelo, apresentado em um artigo apresentado no ICVGIP 2021, a décima segunda Conferência Indiana sobre Visão Computacional, Gráficos e Processamento de Imagens, pode ser usado para criar avatares virtuais, assistentes digitais e filmes animados mais convincentes.

“Para uma experiência de visualização agradável, a percepção do realismo é de extrema importância e, apesar dos recentes avanços da pesquisa, a geração de um rosto falante realista continua sendo um problema de pesquisa desafiador”, disse Brojeshwar Bhowmick, um dos pesquisadores que realizaram o estudo. TechXplore. “Juntamente com a sincronização precisa dos lábios, a animação realista de rostos falantes requer outros atributos de realismo, como piscar de olhos naturais, movimentos da cabeça e preservar informações de identidade de rostos de alvos arbitrários”.

A maioria dos métodos baseados em fala existentes para gerar animações de rosto se concentram em garantir uma boa sincronização entre os movimentos dos lábios e a fala gravada, preservando a identidade de um personagem e garantindo que ele pisque os olhos ocasionalmente. Alguns desses métodos também tentaram gerar movimentos de cabeça convincentes, principalmente emulando aqueles realizados por falantes humanos em um pequeno vídeo de treinamento.

“Esses métodos derivam o movimento da cabeça do vídeo de condução, que pode não estar correlacionado com o conteúdo da fala atual e, portanto, parecer irreal para a animação de discursos longos”, disse Bhowmick. “Em geral, o movimento da cabeça depende em grande parte da informação prosódica da fala em uma janela de tempo atual”.

Estudos anteriores descobriram que há uma forte correlação entre os movimentos da cabeça realizados por falantes humanos e o tom e a amplitude de sua voz. Essas descobertas inspiraram Bhowmick e seus colegas a criar um novo método que pode produzir movimentos de cabeça para animações de rosto que refletem a voz de um personagem e o que ele está dizendo.

Em um de seus trabalhos anteriores, os pesquisadores apresentaram uma arquitetura baseada em generative adversarial network (GAN) que poderia gerar animações convincentes de rostos conversando. Embora essa técnica fosse promissora, ela só conseguia produzir animações nas quais a cabeça dos alto-falantes não se movia.

“Desenvolvemos agora um pipeline completo de animação facial realista orientada por fala que gera vídeos de rostos falantes com sincronização labial precisa, piscadas naturais e movimento realista da cabeça, criando uma abordagem hierárquica para o aprendizado desembaraçado de movimento e textura”, disse Bhowmick. “Aprendemos o movimento induzido pela fala em pontos de referência faciais e usamos os pontos de referência para gerar a textura dos quadros de vídeo de animação”.

O novo modelo generativo criado por Bhowmick e seus colegas pode efetivamente gerar movimentos de cabeça realistas e orientados pela fala para rostos falantes animados, que estão fortemente correlacionados com as características vocais de um falante e o que ele está dizendo. Assim como a técnica que eles criaram no passado, esse novo modelo é baseado em GANs, uma classe de algoritmos de aprendizado de máquina que se mostrou altamente promissora para gerar conteúdo artificial.

O modelo pode identificar sobre o que um falante está falando e a entonação de sua voz durante janelas de tempo específicas. Posteriormente, ele usa essas informações para produzir movimentos de cabeça correspondentes e correlacionados.

“Nosso método é fundamentalmente diferente dos métodos de última geração que se concentram na geração de um estilo de fala específico da pessoa a partir do vídeo de condução de amostra do sujeito-alvo”, disse Bhowmick. “Dado que a relação entre o áudio e o movimento da cabeça não é única, nosso mecanismo de atenção tenta aprender a importância dos recursos de áudio local para o movimento local da cabeça, mantendo a previsão suave ao longo do tempo, sem exigir qualquer entrada de vídeo no momento do teste. também use meta-aprendizagem para geração de textura, pois ajuda a se adaptar rapidamente a rostos desconhecidos usando muito poucas imagens no momento do teste.”

Bhowmick e seus colegas avaliaram seu modelo em uma série de conjuntos de dados de referência, comparando seu desempenho com o de técnicas de ponta desenvolvidas no passado. Eles descobriram que ele poderia gerar animações altamente convincentes com excelente sincronização labial, piscar de olhos naturais e movimentos de cabeça coerentes com a fala.

“Nosso trabalho é um passo adiante para alcançar animações realistas de rostos falantes que podem se traduzir em vários aplicativos do mundo real, como assistentes digitais, dublagem de vídeo ou telepresença”, acrescentou Bhowmick. “Em nossos próximos estudos, planejamos integrar expressões faciais e emoções realistas ao lado de sincronização labial, piscar de olhos e movimento de cabeça coerente com a fala”.


Publicado em 31/01/2022 16h13

Artigo original:

Estudo original: