Como a ferramenta de texto para vídeo da OpenAI, Sora, pode mudar a ciência e a sociedade

Sora é uma das várias ferramentas de IA que gera vídeo a partir de prompts de textoCrédito: OpenAI

doi.org/10.1038/d41586-024-00661-0
Credibilidade: 999
#Inteligência Artificial 

A estreia da impressionante ferramenta de texto para vídeo Sora da OpenAI levantou questões importantes.

O lançamento da ferramenta de IA de texto para vídeo Sora da OpenAI no mês passado foi recebido com uma mistura de apreensão e entusiasmo por pesquisadores preocupados com o uso indevido da tecnologia. A empresa sediada na Califórnia mostrou a capacidade de Sora de criar vídeos fotorrealistas a partir de algumas pequenas instruções de texto, com exemplos incluindo clipes de uma mulher andando por uma rua iluminada por neon em Tóquio e um cachorro pulando entre duas janelas.

Tracy Harwood, especialista em cultura digital da Universidade De Montfort em Leicester, Reino Unido, diz estar “chocada” com a velocidade com que a inteligência artificial (IA) de texto para vídeo se desenvolveu. Há um ano, as pessoas riam de um vídeo produzido por IA do ator norte-americano Will Smith comendo espaguete. Agora, alguns investigadores estão preocupados que a tecnologia possa virar a política global em 2024.

A OpenAI, que também desenvolveu o ChatGPT e a tecnologia de texto para imagem DALL·E, estreou o Sora em 15 de fevereiro, anunciando que estava disponibilizando a tecnologia “para os red teamers avaliarem áreas críticas quanto a danos ou riscos”. ‘Red teaming’ refere-se ao processo de realização de ataques simulados ou exploração de uma tecnologia para ver como esta lidaria com atividades nefastas, como a criação de desinformação e conteúdo de ódio, no mundo real.

Sora não é o primeiro exemplo de tecnologia de texto para vídeo; outros incluem o Gen-2, produzido pela Runway na cidade de Nova York e lançado no ano passado, e o Lumiere, liderado pelo Google, anunciado em janeiro. Harwood diz que ficou “desapontada” com algumas dessas outras ofertas. “Eles estão se tornando cada vez mais simples naquilo que apresentam a você”, diz ela, acrescentando que os programas exigem instruções muito específicas para que produzam conteúdo atraente.

A desinformação é um grande desafio para estas tecnologias de conversão de texto em vídeo, acrescenta Harwood. “Chegaremos muito rapidamente a um ponto em que seremos inundados por uma enxurrada de informações realmente convincentes. Isso é realmente preocupante.”

Medos eleitorais

Isto coloca problemas específicos nas próximas eleições, incluindo as eleições presidenciais nos EUA em Novembro e as eleições gerais iminentes no Reino Unido. “Haverá um número colossal de vídeos e áudios falsos circulando”, diz Dominic Lees, que pesquisa IA generativa e produção cinematográfica na Universidade de Reading, no Reino Unido. O áudio falso do líder do Partido Trabalhista do Reino Unido, Keir Starmer, foi divulgado em outubro de 2023, e o áudio falso do presidente dos EUA, Joe Biden, incentivando os democratas a não votarem, circulou em janeiro.

Uma solução pode ser exigir que a IA de texto para vídeo use marcas d’água, seja na forma de uma marca visível no vídeo, rotulando-o como IA, ou como uma assinatura artificial reveladora nos metadados do vídeo, mas Lees não tem certeza isso será um sucesso. “No momento, as marcas d’água podem ser removidas”, diz ele, e a inclusão de uma marca d’água nos metadados de um vídeo depende de as pessoas pesquisarem ativamente se um vídeo que assistiram é real ou não. “Não creio que possamos honestamente pedir ao público de todo o mundo que faça isso em todos os vídeos que assistem”, diz Lees.

Também existem benefícios potenciais para a tecnologia. Harwood sugere que poderia ser usado para apresentar textos difíceis, como um artigo acadêmico, em um formato mais fácil de entender. “Uma das maiores coisas para as quais ele poderia ser usado é comunicar as descobertas a um público leigo”, diz ela. “Ele pode visualizar conceitos bastante complexos.”

Outro uso potencial pode ser na área de saúde, com a IA de texto para vídeo capaz de conversar com pacientes no lugar de um médico humano. “Algumas pessoas podem achar isto desconcertante”, diz Claire Malone, consultora e comunicadora científica no Reino Unido. “Outros podem achar extremamente conveniente se quiserem fazer perguntas a um profissional médico várias vezes ao dia.”

Gestão de dados

Ferramentas de IA de texto para vídeo, como o Sora, poderiam ajudar os investigadores a percorrer enormes conjuntos de dados, como os produzidos pelo laboratório europeu de física de partículas CERN, perto de Genebra, na Suíça, e outros grandes projetos científicos, diz Malone. A IA generativa poderia “peneirar o código e realizar as tarefas mundanas de investigação”, acrescenta ela, mas também realizar “um trabalho muito mais sofisticado [como] fornecer-lhe dados e pedir-lhe que faça previsões”.

Preocupações também foram levantadas por pessoas que trabalham nas indústrias criativas. O ator norte-americano Tom Hanks sugeriu no ano passado que a IA poderia permitir-lhe continuar a aparecer em filmes “de agora até ao reino” após a sua morte. “Se você fosse um jovem ator ambicioso pensando em seu futuro e lhe dissessem: ‘Sinto muito, Tom Hanks sempre fará os papéis principais’, você planejaria um futuro nisso?” diz Lees.

A IA de texto para vídeo levantará questões amplas que a sociedade enfrentará. “Teremos que aprender a avaliar o conteúdo que vemos de uma forma que não fizemos no passado”, diz Harwood. “Essas ferramentas colocam a oportunidade de ser criador de conteúdo de mídia nas mãos de todos”, diz ela. “Vamos lidar com as consequências disso. É uma mudança fundamental na forma como os materiais serão consumidos.”


Publicado em 21/03/2024 16h23

Artigo original:

Estudo original: