O princípio da física que inspirou a arte moderna da IA

Imagem via Unsplash

Os modelos de difusão geram imagens incríveis aprendendo a reverter o processo que, entre outras coisas, faz com que a tinta se espalhe pela água.

Peça ao DALL·E 2, um sistema de geração de imagens criado pela OpenAI, para pintar um quadro de “peixe dourado bebendo Coca-Cola na praia”, e ele produzirá imagens surreais exatamente disso. O programa teria encontrado imagens de praias, peixes dourados e Coca-Cola durante o treinamento, mas é altamente improvável que tivesse visto uma em que os três estivessem juntos. No entanto, DALL·E 2 pode reunir os conceitos em algo que poderia deixar Dalí orgulhoso.

DALL·E 2 é um tipo de modelo generativo – um sistema que tenta usar dados de treinamento para gerar algo novo que seja comparável aos dados em termos de qualidade e variedade. Esse é um dos problemas mais difíceis no machine learning, e chegar a esse ponto foi uma jornada difícil.

Os primeiros modelos generativos importantes para imagens usaram uma abordagem de inteligência artificial chamada rede neural – um programa composto de muitas camadas de unidades computacionais chamadas neurônios artificiais. Mas mesmo quando a qualidade de suas imagens melhorou, os modelos mostraram-se pouco confiáveis e difíceis de treinar. Enquanto isso, um modelo generativo poderoso – criado por um pesquisador de pós-doutorado apaixonado por física – permaneceu adormecido, até que dois estudantes de pós-graduação fizeram descobertas técnicas que deram vida à fera.

DALL · E 2 é uma besta. O principal insight que torna as imagens do DALL·E 2 possíveis – assim como as de seus concorrentes Stable Diffusion e Imagen – vem do mundo da física. O sistema que os sustenta, conhecido como modelo de difusão, é fortemente inspirado pela termodinâmica de não-equilíbrio, que governa fenômenos como a propagação de fluidos e gases. “Existem muitas técnicas que foram inicialmente inventadas por físicos e agora são muito importantes no machine learning”, disse Yang Song, pesquisador de machine learning da OpenAI.

O poder desses modelos abalou a indústria e os usuários. “Este é um momento emocionante para modelos generativos”, disse Anima Anandkumar, cientista da computação do Instituto de Tecnologia da Califórnia e diretor sênior de pesquisa de machine learning da Nvidia. E embora as imagens de aparência realista criadas por modelos de difusão às vezes possam perpetuar vieses sociais e culturais, disse ela, “demonstramos que modelos generativos são úteis para tarefas posteriores [que] melhoram a imparcialidade dos modelos preditivos de IA”.

Altas probabilidades

Para entender como funciona a criação de dados para imagens, vamos começar com uma imagem simples feita de apenas dois pixels adjacentes em tons de cinza. Podemos descrever completamente esta imagem com dois valores, com base na sombra de cada pixel (de zero sendo totalmente preto a 255 sendo totalmente branco). Você pode usar esses dois valores para plotar a imagem como um ponto no espaço 2D.

Se plotarmos várias imagens como pontos, podem surgir agrupamentos – certas imagens e seus valores de pixel correspondentes que ocorrem com mais frequência do que outras. Agora imagine uma superfície acima do plano, onde a altura da superfície corresponde à densidade dos aglomerados. Esta superfície mapeia uma distribuição de probabilidade. É mais provável que você encontre pontos de dados individuais abaixo da parte mais alta da superfície e poucos onde a superfície é mais baixa.

DALL·E 2 produziu essas imagens de “peixes dourados sorvendo Coca-Cola na praia”. O programa, criado pela OpenAI, provavelmente nunca encontrou imagens semelhantes, mas ainda pode gerá-las por conta própria.

Agora você pode usar essa distribuição de probabilidade para gerar novas imagens. Tudo o que você precisa fazer é gerar aleatoriamente novos pontos de dados, respeitando a restrição de gerar dados mais prováveis com mais frequência – um processo chamado “amostragem” da distribuição. Cada novo ponto é uma nova imagem.

A mesma análise vale para fotografias em tons de cinza mais realistas com, digamos, um milhão de pixels cada. Só que agora, plotar cada imagem requer não dois eixos, mas um milhão. A distribuição de probabilidade sobre tais imagens será uma superfície complexa de mais de um milhão de dimensões. Se você amostrar essa distribuição, produzirá um milhão de valores de pixel. Imprima esses pixels em uma folha de papel e a imagem provavelmente se parecerá com uma foto do conjunto de dados original.

O desafio da modelagem generativa é aprender essa complicada distribuição de probabilidade para algum conjunto de imagens que constituem dados de treinamento. A distribuição é útil em parte porque captura informações extensas sobre os dados e em parte porque os pesquisadores podem combinar distribuições de probabilidade em diferentes tipos de dados (como texto e imagens) para compor resultados surreais, como um peixinho dourado bebendo Coca-Cola na praia . “Você pode misturar e combinar diferentes conceitos … para criar cenários totalmente novos que nunca foram vistos em dados de treinamento”, disse Anandkumar.

Em 2014, um modelo chamado rede adversária generativa (GAN) tornou-se o primeiro a produzir imagens realistas. “Havia tanta empolgação”, disse Anandkumar. Mas os GANs são difíceis de treinar: eles podem não aprender a distribuição de probabilidade completa e podem ficar presos na produção de imagens de apenas um subconjunto da distribuição. Por exemplo, um GAN treinado em imagens de uma variedade de animais pode gerar apenas fotos de cachorros.

O machine learning precisava de um modelo mais robusto. Jascha Sohl-Dickstein, cujo trabalho foi inspirado pela física, forneceria um.

Bolhas de excitação

Na época em que os GANs foram inventados, Sohl-Dickstein era um pós-doutorando na Universidade de Stanford trabalhando em modelos generativos, com um interesse secundário em termodinâmica de não-equilíbrio. Este ramo da física estuda sistemas que não estão em equilíbrio térmico – aqueles que trocam matéria e energia internamente e com seu ambiente.

Um exemplo ilustrativo é uma gota de tinta azul que se difunde através de um recipiente com água. A princípio, forma uma bolha escura em um ponto. Neste ponto, se você quiser calcular a probabilidade de encontrar uma molécula de tinta em algum pequeno volume do recipiente, você precisa de uma distribuição de probabilidade que modele claramente o estado inicial, antes que a tinta comece a se espalhar. Mas essa distribuição é complexa e, portanto, difícil de amostrar.

Eventualmente, no entanto, a tinta se difunde por toda a água, tornando-a azul pálida. Isso leva a uma distribuição de probabilidade muito mais simples e uniforme de moléculas que pode ser descrita com uma expressão matemática direta. A termodinâmica de não-equilíbrio descreve a distribuição de probabilidade em cada etapa do processo de difusão. Crucialmente, cada passo é reversível – com passos pequenos o suficiente, você pode voltar de uma distribuição simples para uma complexa.

Sohl-Dickstein usou os princípios de difusão para desenvolver um algoritmo para modelagem generativa. A ideia é simples: o algoritmo primeiro transforma imagens complexas no conjunto de dados de treinamento em ruído simples – semelhante a passar de uma gota de tinta para água azul clara difusa – e depois ensina o sistema a reverter o processo, transformando o ruído em imagens.

Veja como funciona. Primeiro, o algoritmo pega uma imagem do conjunto de treinamento. Como antes, digamos que cada um dos milhões de pixels tenha algum valor e podemos plotar a imagem como um ponto no espaço de um milhão de dimensões. O algoritmo adiciona algum ruído a cada pixel em cada intervalo de tempo, equivalente à difusão de tinta após um pequeno intervalo de tempo. À medida que esse processo continua, os valores dos pixels têm menos relação com seus valores na imagem original e os pixels se parecem mais com uma simples distribuição de ruído. (O algoritmo também desloca cada valor de pixel um pouquinho em direção à origem, o valor zero em todos esses eixos, a cada intervalo de tempo. Esse deslocamento evita que os valores de pixel cresçam muito para que os computadores possam trabalhar facilmente.)

Faça isso para todas as imagens no conjunto de dados, e uma distribuição inicial complexa de pontos no espaço de um milhão de dimensões (que não pode ser descrita e amostrada facilmente) se transforma em uma distribuição normal e simples de pontos ao redor da origem.

“A sequência de transformações transforma lentamente sua distribuição de dados em apenas uma grande bola de ruído”, disse Sohl-Dickstein. Este “processo de avanço” deixa você com uma distribuição que você pode experimentar com facilidade.

Em seguida, vem a parte do machine learning: forneça a uma rede neural as imagens ruidosas obtidas de uma passagem direta e treine-a para prever as imagens menos ruidosas que vieram um passo antes. Ele cometerá erros no início, então você ajusta os parâmetros da rede para que funcione melhor. Eventualmente, a rede neural pode transformar de forma confiável uma imagem ruidosa, que é representativa de uma amostra da distribuição simples, em uma imagem representativa de uma amostra da distribuição complexa.

A rede treinada é um modelo generativo completo. Agora você nem precisa de uma imagem original para fazer um passe para frente: você tem uma descrição matemática completa da distribuição simples, então pode fazer uma amostra diretamente dela. A rede neural pode transformar essa amostra – essencialmente apenas estática – em uma imagem final que se assemelha a uma imagem no conjunto de dados de treinamento.

Sohl-Dickstein relembra os primeiros resultados de seu modelo de difusão. “Você apertava os olhos e dizia: ‘Acho que aquela bolha colorida parece um caminhão'”, disse ele. “Passei tantos meses da minha vida olhando para diferentes padrões de pixels e tentando ver a estrutura que pensei: ‘Isso é muito mais estruturado do que eu já consegui antes’. Fiquei muito animado.”

Vislumbrando o Futuro

Sohl-Dickstein publicou seu algoritmo de modelo de difusão em 2015, mas ainda estava muito atrás do que os GANs poderiam fazer. Embora os modelos de difusão pudessem amostrar toda a distribuição e nunca ficarem presos cuspindo apenas um subconjunto de imagens, as imagens pareciam piores e o processo era muito lento. “Não acho que na época isso foi visto como emocionante”, disse Sohl-Dickstein.

Seriam necessários dois alunos, nenhum dos quais conhecendo Sohl-Dickstein ou um ao outro, para conectar os pontos desse trabalho inicial aos modelos de difusão modernos como DALL·E 2. O primeiro foi Song, um aluno de doutorado em Stanford na época. Em 2019, ele e seu consultor publicaram um novo método para construir modelos generativos que não estimavam a distribuição de probabilidade dos dados (a superfície de alta dimensão). Em vez disso, estimou o gradiente da distribuição (pense nisso como a inclinação da superfície de alta dimensão).

Imagem via Unsplash

Song descobriu que sua técnica funcionava melhor se ele primeiro perturbasse cada imagem no conjunto de dados de treinamento com níveis crescentes de ruído e, em seguida, pedisse à sua rede neural para prever a imagem original usando gradientes da distribuição, eliminando-a efetivamente. Uma vez treinada, sua rede neural poderia pegar uma imagem ruidosa amostrada de uma distribuição simples e transformá-la progressivamente de volta em uma imagem representativa do conjunto de dados de treinamento. A qualidade da imagem era ótima, mas seu modelo de machine learning era dolorosamente lento para provar. E ele fez isso sem conhecimento do trabalho de Sohl-Dickstein. “Eu não conhecia os modelos de difusão”, disse Song. “Depois que nosso artigo de 2019 foi publicado, recebi um e-mail de Jascha. Ele apontou para mim que [nossos modelos] têm conexões muito fortes.”

Em 2020, o segundo aluno viu essas conexões e percebeu que o trabalho de Song poderia melhorar os modelos de difusão de Sohl-Dickstein. Jonathan Ho havia concluído recentemente seu trabalho de doutorado em modelagem generativa na Universidade da Califórnia, em Berkeley, mas continuou trabalhando nisso. “Achei que era a subdisciplina matematicamente mais bonita do machine learning”, disse ele.

Ho redesenhou e atualizou o modelo de difusão de Sohl-Dickstein com algumas das ideias de Song e outros avanços do mundo das redes neurais. “Eu sabia que, para chamar a atenção da comunidade, precisava fazer com que o modelo gerasse amostras de ótima aparência”, disse ele. “Eu estava convencido de que essa era a coisa mais importante que eu poderia fazer na época.”

Sua intuição estava certa. Ho e seus colegas anunciaram esse novo e aprimorado modelo de difusão em 2020, em um artigo intitulado “Denoising Diffusion Probabilistic Models”. Rapidamente se tornou um marco tão importante que os pesquisadores agora se referem a ele simplesmente como DDPM. De acordo com uma referência de qualidade de imagem – que compara a distribuição de imagens geradas com a distribuição de imagens de treinamento – esses modelos igualaram ou superaram todos os modelos generativos concorrentes, incluindo GANs. Não demorou muito para que os grandes jogadores percebessem. Agora, DALL·E 2, Stable Diffusion, Imagen e outros modelos comerciais usam alguma variação de DDPM.

Imagem via Unsplash

Os modelos de difusão modernos têm mais um ingrediente-chave: modelos de linguagem grandes (LLMs), como o GPT-3. Estes são modelos generativos treinados em texto da internet para aprender distribuições de probabilidade sobre palavras em vez de imagens. Em 2021, Ho – agora um cientista de pesquisa em uma empresa furtiva – e seu colega Tim Salimans no Google Research, junto com outras equipes em outros lugares, mostraram como combinar informações de um LLM e um modelo de difusão de geração de imagem para usar texto (digamos, “peixinho dourado bebendo Coca-Cola na praia”) para orientar o processo de difusão e, portanto, de geração de imagem. Esse processo de “difusão guiada” está por trás do sucesso dos modelos de texto para imagem, como o DALL·E 2.

“Eles estão muito além das minhas expectativas mais loucas”, disse Ho. “Não vou fingir que vi tudo isso chegando.”

Gerando Problemas

Por mais bem-sucedidos que esses modelos tenham sido, as imagens do DALL·E 2 e similares ainda estão longe de serem perfeitas. Grandes modelos de linguagem podem refletir preconceitos culturais e sociais, como racismo e sexismo, no texto que geram. Isso porque eles são treinados em textos retirados da internet e, muitas vezes, esses textos contêm linguagem racista e sexista. Os LLMs que aprendem uma distribuição de probabilidade sobre esse texto ficam imbuídos dos mesmos vieses. Os modelos de difusão também são treinados em imagens não selecionadas retiradas da Internet, que podem conter dados igualmente tendenciosos. Não é de admirar que a combinação de LLMs com os modelos de difusão atuais às vezes resulte em imagens que refletem os males da sociedade.

Anandkumar tem experiência em primeira mão. Quando ela tentou gerar avatares estilizados de si mesma usando um aplicativo baseado em modelo de difusão, ela ficou chocada. “Tantas [muitas] das imagens eram altamente sexualizadas”, disse ela, “enquanto as coisas que apresentava aos homens não eram”. Ela não está sozinha.

Esses vieses podem ser reduzidos selecionando e filtrando os dados (uma tarefa extremamente difícil, dada a imensidão do conjunto de dados) ou verificando os prompts de entrada e as saídas desses modelos. “Claro, nada é um substituto para testes de segurança cuidadosos e extensivos” de um modelo, disse Ho. “Este é um desafio importante para o campo.”

Apesar dessas preocupações, Anandkumar acredita no poder da modelagem generativa. “Gosto muito da citação de Richard Feynman: ‘O que não posso criar, não entendo'”, disse ela. Um maior entendimento permitiu que sua equipe desenvolvesse modelos generativos para produzir, por exemplo, dados de treinamento sintéticos de classes sub-representadas para tarefas preditivas, como tons de pele mais escuros para reconhecimento facial, ajudando a melhorar a imparcialidade. Os modelos generativos também podem nos fornecer informações sobre como nossos cérebros lidam com entradas ruidosas ou como eles evocam imagens mentais e contemplam ações futuras. E a construção de modelos mais sofisticados poderia dotar as IAs de recursos semelhantes.

“Acho que estamos apenas no início das possibilidades do que podemos fazer com IA generativa”, disse Anandkumar.


Publicado em 13/01/2023 11h49

Artigo original: