doi.org/10.48550/arxiv.24
Credibilidade: 999
#Vídeo
Um grupo de pesquisadores de inteligência artificial da Universidade de Pequim, Kuaishou Technology e da Universidade de Correios e Telecomunicações de Pequim, desenvolveu um novo modelo de IA chamado Pyramid Flow, que pode ser usado para gerar vídeos virtuais em alta resolução (768p). O grupo escreveu um artigo explicando como o modelo foi criado, suas características e possíveis usos, e publicou o artigo no site arXiv, que é um servidor de pré-impressão.
Nos últimos anos, muitas empresas e instituições têm se esforçado para criar modelos de IA que gerem vídeos. Isso acontece porque esses modelos podem ser usados para criar conteúdo virtual de vídeo para ser utilizado na televisão e no cinema, com um custo muito menor do que filmar cenas reais.
Isso faz com que os modelos de IA estejam se tornando muito valiosos, rapidamente. Neste novo projeto, a equipe da China decidiu tornar o Pyramid Flow um modelo de código aberto, o que significa que qualquer pessoa que queira desenvolver uma aplicação (um programa para rodar o modelo) e usá-la em seu próprio computador – inclusive para fins comerciais – pode fazê-lo de graça.
Os criadores do Pyramid Flow trouxeram uma novidade para os modelos de geração de vídeo por IA: ele gera o vídeo em várias etapas de baixa resolução antes de criar o resultado final. A equipe de pesquisa afirma que o programa pode gerar um vídeo de cinco segundos em 56 segundos, com uma resolução de 384p.
Eles destacam que essa abordagem gera vídeos usando muito menos poder de computação, o que o torna mais barato. Além disso, reduz significativamente o número de “tokens” necessários para a geração do vídeo, tornando o processo mais eficiente.
O time de pesquisadores disponibilizou o código do Pyramid Flow no GitHub sob uma licença MIT, o que significa que qualquer pessoa pode usá-lo e modificá-lo livremente. Também colocaram vídeos de exemplo que mostram os resultados altamente realistas que o modelo pode alcançar. Além disso, eles listaram os conjuntos de dados de código aberto que usaram para treinar o modelo, que, juntos, somaram 10 milhões de vídeos curtos.
A equipe de pesquisa não mencionou o impacto das discussões em andamento sobre vídeos virtuais feitos a partir de bancos de dados de código aberto, que alguns consideram uma violação dos direitos autorais. No entanto, eles sugerem que o Pyramid Flow pode ser uma ferramenta adequada para melhorar materiais de código aberto, sem a necessidade de pagar a terceiros.
Publicado em 22/10/2024 21h41
Artigo original:
Estudo original: