Essa Inteligência Artificial gera imagens de alta qualidade 30 vezes mais rápido em uma única etapa

Com seu método DMD, os pesquisadores do MIT criaram um gerador de imagem de IA de uma etapa que atinge qualidade de imagem comparável ao StableDiffusion v1.5 e é 30 vezes mais rápido. Créditos:Ilustração de Alex Shipps/MIT CSAIL usando seis imagens geradas por IA desenvolvidas por pesquisadores.

doi.org/10.48550/arXiv.2311.18828
Credibilidade: 888
#Inteligência Artificial 

Na nossa era atual de inteligência artificial, os computadores podem gerar a sua própria “arte” através de modelos de difusão, adicionando iterativamente estrutura a um estado inicial ruidoso até surgir uma imagem ou vídeo nítido. Os modelos de difusão de repente ocuparam um lugar na mesa de todos: digite algumas palavras e experimente paisagens oníricas instantâneas e cheias de dopamina na interseção da realidade e da fantasia. Nos bastidores, envolve um processo complexo e demorado que exige inúmeras iterações para que o algoritmo aperfeiçoe a imagem.

Os pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) introduziram uma nova estrutura que simplifica o processo de várias etapas dos modelos de difusão tradicionais em uma única etapa, abordando as limitações anteriores.

Isto é feito através de um tipo de modelo professor-aluno: ensinar um novo modelo de computador para imitar o comportamento de modelos originais mais complicados que geram imagens.

A abordagem, conhecida como destilação de correspondência de distribuição (DMD), mantém a qualidade das imagens geradas e permite uma geração muito mais rápida.

“Nosso trabalho é um método novo que acelera os modelos de difusão atuais, como Difusão Estável e DALLE-3, em 30 vezes”, diz Tianwei Yin, estudante de doutorado do MIT em engenharia elétrica e ciência da computação, afiliado do CSAIL e pesquisador principal do DMD.

“Esse avanço não apenas reduz significativamente o tempo computacional, mas também mantém, senão supera, a qualidade do conteúdo visual gerado.

Teoricamente, a abordagem combina os princípios das redes adversárias generativas (GANs) com os dos modelos de difusão, alcançando a geração de conteúdo visual em uma única etapa – um forte contraste com as centenas de etapas de refinamento iterativo exigidas pelos atuais modelos de difusão.

Poderia ser potencialmente um novo método de modelagem generativa que se destaca em velocidade e qualidade.

Este modelo de difusão de etapa única poderia aprimorar as ferramentas de design, permitindo a criação mais rápida de conteúdo e potencialmente apoiando avanços na descoberta de medicamentos e na modelagem 3D, onde a rapidez e a eficácia são fundamentais.

Distribuição de sonhos DMD habilmente tem dois componentes.

Primeiro, utiliza uma perda de regressão, que ancora o mapeamento para garantir uma organização grosseira do espaço de imagens para tornar o treinamento mais estável.

Em seguida, utiliza uma perda de correspondência de distribuição, que garante que a probabilidade de gerar uma determinada imagem com o modelo do aluno corresponda à sua frequência de ocorrência no mundo real.

Para isso, utiliza dois modelos de difusão que atuam como guias, ajudando o sistema a entender a diferença entre imagens reais e geradas e possibilitando o treinamento do gerador rápido de uma etapa.

O sistema atinge uma geração mais rápida treinando uma nova rede para minimizar a divergência de distribuição entre as imagens geradas e aquelas do conjunto de dados de treinamento usado pelos modelos de difusão tradicionais.

“Nosso principal insight é aproximar os gradientes que orientam a melhoria do novo modelo usando dois modelos de difusão”, diz Yin.

“Dessa forma, destilamos o conhecimento do modelo original e mais complexo em um modelo mais simples e rápido, ao mesmo tempo em que contornamos os notórios problemas de instabilidade e colapso de modo em GANs.

Yin e colegas usaram redes pré-treinadas para o novo modelo de estudante, simplificando o processo.

Ao copiar e ajustar parâmetros dos modelos originais, a equipe conseguiu uma rápida convergência de treinamento do novo modelo, que é capaz de produzir imagens de alta qualidade com a mesma base arquitetônica.

“Isso permite a combinação com outras otimizações de sistema baseadas na arquitetura original para acelerar ainda mais o processo de criação”, acrescenta Yin.

Quando testado contra os métodos usuais, utilizando uma ampla gama de benchmarks, o DMD mostrou um desempenho consistente.

No benchmark popular de geração de imagens com base em classes específicas no ImageNet, o DMD é a primeira técnica de difusão de uma etapa que produz imagens praticamente iguais às dos modelos originais e mais complexos, atingindo uma distância inicial de Fréchet super próxima ( FID) de apenas 0,3, o que é impressionante, já que o objetivo do FID é julgar a qualidade e a diversidade das imagens geradas.

Além disso, o DMD se destaca na geração de texto para imagem em escala industrial e atinge desempenho de geração de última geração em uma etapa.

Ainda há uma pequena lacuna de qualidade ao lidar com aplicativos de texto para imagem mais complicados, sugerindo que há espaço para melhorias no futuro.

Além disso, o desempenho das imagens geradas pelo DMD está intrinsecamente ligado às capacidades do modelo de professor utilizado durante o processo de destilação.

No formulário atual, que usa Difusão Estável v1.

5 como modelo de professor, o aluno herda limitações como a renderização de representações detalhadas de texto e rostos pequenos, sugerindo que as imagens geradas por DMD poderiam ser aprimoradas ainda mais por modelos de professor mais avançados.

“Diminuir o número de iterações tem sido o Santo Graal nos modelos de difusão desde o seu início”, diz Fredo Durand, professor de engenharia elétrica e ciência da computação do MIT, investigador principal do CSAIL e autor principal do artigo.

“Estamos muito entusiasmados por finalmente permitir a geração de imagens em uma única etapa, o que reduzirá drasticamente os custos de computação e acelerará o processo.

“Finalmente, um artigo que combina com sucesso a versatilidade e alta qualidade visual dos modelos de difusão com o desempenho em tempo real dos GANs”, diz Alexei Efros, professor de engenharia elétrica e ciência da computação na Universidade da Califórnia em Berkeley que não foi envolvidos neste estudo.

“Espero que este trabalho abra possibilidades fantásticas para edição visual de alta qualidade em tempo real.

Os colegas autores de Yin e Durand são o professor de engenharia elétrica e ciência da computação do MIT e investigador principal do CSAIL, William T.

Freeman, bem como os cientistas pesquisadores da Adobe, Michaël Gharbi SM ’15, PhD ’18; Ricardo Zhang; Eli Shechtman; e Parque Taesung.

O seu trabalho foi apoiado, em parte, por subvenções da Fundação Nacional de Ciência dos EUA (incluindo uma para o Instituto de Inteligência Artificial e Interações Fundamentais), pela Agência de Ciência e Tecnologia de Defesa de Singapura e por financiamento do Instituto de Ciência e Tecnologia de Gwangju e da Amazon.

Seu trabalho será apresentado na Conferência sobre Visão Computacional e Reconhecimento de Padrões em junho.


Publicado em 29/03/2024 19h41

Artigo original:

Estudo original: