Os filtros de voz de IA podem fazer você parecer com qualquer pessoa e fazer com que qualquer pessoa pareça com você

Com apenas 15-30 segundos da voz de alguém, você pode, teoricamente, soar como eles. Davis Sánchez em Pexels

A crescente atenção dada à tecnologia deepfake de IA nos últimos anos se concentrou principalmente em truques visuais. Pense em vídeos capazes de sobrepor estranhamente o rosto de uma pessoa ao corpo de outra geração de arte surreal com base nas sugestões dos usuários e na ética problemática que envolve todas essas habilidades. Mas outro método-chave para convencer imitações digitais é apenas recentemente obter um exame e uma discussão adequados.

Os filtros vocais, embora não sejam necessariamente novos, só recentemente começaram a ser levados mais a sério graças à assistência da IA. Infelizmente, ele apresenta sua própria série de sérias implicações sociais e, como a indústria de deepfake de vídeo, parece haver pouco que os reguladores possam fazer para detê-lo.

Ferramentas de IA emergentes, como Koe Recast e Voice.ai, estão aprimorando rapidamente sua capacidade de transformar entradas de áudio para soar como praticamente qualquer pessoa que se queira, desde que forneçam material de origem suficiente para analisar. Em alguns casos, esses programas precisam apenas de um clipe entre 15 e 30 segundos para gerar imitações convincentes. Embora Koe Recast esteja apenas em sua fase de teste alfa privado, exemplos já estão disponíveis descrevendo um breve segundo clipe de Mark Zuckerberg soando como um narrador pesado, uma mulher e até um personagem de anime estridente.

Mark Zuckerberg soando como um narrador pesado, uma mulher e até um personagem de anime estridente

“Meu objetivo é ajudar as pessoas a se expressarem de qualquer maneira que as deixe mais felizes”, disse a criadora da Koe Recast, Asara Near, à Ars Technica em uma entrevista na semana passada. Near acrescentou que pretende lançar um aplicativo de desktop capaz de transformar as vozes dos usuários em tempo real em plataformas como Discord e Zoom. Quando perguntado sobre o potencial de maus atores usarem o Koe Recast para ataques pessoais e desinformação, Near argumentou que, “Como acontece com qualquer tecnologia, é possível que haja pontos positivos e negativos, mas acho que a grande maioria da humanidade consiste em maravilhosos pessoas e se beneficiarão muito com isso.”

Os críticos, no entanto, permanecem céticos quanto a confiar no público em geral com essas ferramentas potencialmente caóticas. Recentemente, alguns representantes terceirizados de call center também começaram a usar software de IA para apagar os sotaques de seus países nativos, a fim de soar mais “americanos” na tentativa de mitigar os preconceitos do consumidor ocidental. Enquanto os criadores da ferramenta argumentam que sua invenção previne o preconceito, muitos responderam que ela simplesmente fornece um meio para evitar lidar com os problemas maiores em questão – ou seja, xenofobia e racismo.

Da mesma forma, funcionários de algumas empresas maiores foram vítimas de golpistas que solicitam transferências de fundos e senhas enquanto utilizam imitação de áudio semelhante para imitar os chefes. “Entre as empresas maiores, acho que cada vez mais estão começando a ver isso porque são alvos realmente maduros para esse tipo de coisa”, explicou Kyle Alspach, repórter de segurança cibernética da Protocol, ao falar recentemente no NPR?s Marketplace.

Embora Alspach também tenha notado que esses tipos de golpes ainda estão em sua infância, provavelmente não demorará muito para que essas táticas se tornem mais comuns e, infelizmente, mais difíceis de distinguir fato de ficção. Então, infelizmente, simplesmente não há como parar a rápida escalada do mimetismo visual e de áudio habilitado para IA.

Publicado em 16/09/2022 12h51

Artigo original:

https://www.popsci.com/technology/ai-vocal-filters/