Alexa, eu tenho o COVID-19?

Ilustração de Rune Fisker

Os pesquisadores estão explorando maneiras de usar a voz das pessoas para diagnosticar infecções por coronavírus, demência, depressão e muito mais.

Em março, quando o escopo impressionante da pandemia do coronavírus começou a se tornar claro, autoridades em todo o mundo começaram a convocar o público para se juntar à luta. Os hospitais pediram às empresas locais que doassem máscaras faciais. Os pesquisadores convocaram pessoas que se recuperaram do COVID-19 para doar seu plasma sanguíneo. E em Israel, o ministério da defesa e uma empresa iniciante chamada Vocalis Health pediram às pessoas que doassem suas vozes.

A Vocalis, uma empresa de análise de voz com escritórios em Israel e nos Estados Unidos, havia desenvolvido anteriormente um aplicativo para smartphone que podia detectar surtos de doença pulmonar obstrutiva crônica, ouvindo sinais de que os usuários estavam com falta de ar ao falar. A empresa queria fazer o mesmo com o COVID-19. Pessoas com teste positivo para o coronavírus poderiam participar simplesmente baixando um aplicativo de pesquisa Vocalis. Uma vez por dia, eles iniciavam o aplicativo e falavam em seus telefones, descrevendo uma imagem em voz alta e contando de 50 a 70.

Em seguida, a Vocalis começou a processar essas gravações com seu sistema de aprendizado de máquina, ao lado das vozes de pessoas com teste negativo para a doença, na tentativa de identificar uma impressão de voz para a doença. Em meados do verão, a empresa tinha mais de 1.500 amostras de voz e uma versão piloto de uma ferramenta de triagem digital COVID-19. A ferramenta, que a empresa está testando em todo o mundo, não tem como objetivo fornecer um diagnóstico definitivo, mas ajudar os médicos a fazer a triagem de casos potenciais, identificando as pessoas que podem precisar de mais testes, quarentena ou atendimento médico presencial. “Podemos ajudar com nosso algoritmo de IA?” pergunta Tal Wenderow, o presidente e executivo-chefe da Vocalis. “Isso não é invasivo, não é uma droga, não estamos mudando nada. Tudo que você precisa fazer é falar.”

Eles não são os únicos correndo para encontrar biomarcadores vocais de COVID-19 – pelo menos três outros grupos de pesquisa estão trabalhando em projetos semelhantes. Outras equipes estão analisando gravações de áudio de tosses do COVID-19 e desenvolvendo algoritmos de análise de voz projetados para detectar quando alguém está usando uma máscara facial.

É um sinal de como o jovem campo de diagnóstico vocal está ávido por deixar sua marca. Na última década, os cientistas usaram inteligência artificial (IA) e sistemas de aprendizado de máquina para identificar potenciais biomarcadores vocais de uma ampla variedade de condições, incluindo demência, depressão, transtorno do espectro do autismo e até mesmo doenças cardíacas. As tecnologias que desenvolveram são capazes de detectar diferenças sutis na maneira como as pessoas com certas condições falam, e as empresas ao redor do mundo estão começando a comercializá-las.

Por enquanto, a maioria das equipes está adotando uma abordagem lenta e gradual, projetando ferramentas personalizadas para uso em consultórios médicos ou ensaios clínicos. Mas muitos sonham em implantar essa tecnologia de forma mais ampla, aproveitando microfones que são onipresentes em produtos de consumo para identificar doenças e distúrbios. Esses sistemas podem um dia permitir que epidemiologistas usem smartphones para rastrear a propagação de doenças e transformar alto-falantes inteligentes em dispositivos médicos domésticos. “No futuro, seu robô, seu Siri, sua Alexa simplesmente dirão: ‘Oh, você está resfriado'”, diz Björn Schuller, especialista em reconhecimento de fala e emoção com um cargo conjunto na Universidade de Augsburg, na Alemanha e Imperial College London, que está liderando um dos estudos COVID-19.

Mas a análise vocal automatizada ainda é um campo novo e tem uma série de armadilhas em potencial, desde diagnósticos errôneos até a invasão da privacidade pessoal e médica. Muitos estudos permanecem pequenos e preliminares, e passar da prova de conceito ao produto não será fácil. “Estamos no início disso”, diz Schuller.

Algumas doenças causam distorções vocais óbvias; considere o entorpecimento revelador de alguém que sofre de alergias. Mas muitos cientistas acham que a análise vocal poderia ajudar a identificar uma enorme gama de distúrbios, graças à complexidade da fala humana.

Sinais de fala

Falar requer a coordenação de numerosas estruturas e sistemas anatômicos. Os pulmões enviam ar pelas cordas vocais, que produzem sons que são formados pela língua, lábios e cavidades nasais, entre outras estruturas. O cérebro, junto com outras partes do sistema nervoso, ajuda a regular todos esses processos e a determinar as palavras que alguém está dizendo. Uma doença que afeta qualquer um desses sistemas pode deixar pistas diagnósticas na fala de uma pessoa.

O aprendizado de máquina deu aos cientistas uma maneira de detectar aberrações, rapidamente e em escala. Os pesquisadores agora podem alimentar centenas ou milhares de amostras de voz em um computador para pesquisar recursos que distinguem pessoas com várias condições médicas daquelas sem elas.

Muitos dos primeiros trabalhos na área se concentraram na doença de Parkinson, que tem efeitos bem conhecidos na fala – e para a qual não existe um teste diagnóstico definitivo. O distúrbio causa uma variedade de sintomas motores, incluindo tremores, rigidez muscular e problemas de equilíbrio e coordenação. A perda de controle se estende aos músculos envolvidos na fala; como resultado, muitas pessoas com Parkinson têm vozes fracas e suaves. “É uma daquelas coisas que você pode ouvir com o ouvido humano”, diz Reza Hosseini Ghomi, neuropsiquiatra da EvergreenHealth em Kirkland, Washington, que identificou características vocais associadas a várias doenças neurodegenerativas. “Mas se você pode obter 10.000 amostras e um computador, pode obter muito mais precisão.”

Mais de uma década atrás, Max Little, um pesquisador em aprendizado de máquina e processamento de sinal agora na Universidade de Birmingham, no Reino Unido, começou a investigar se a análise de voz poderia ajudar os médicos a fazer diagnósticos difíceis. Em um estudo, Little e seus colegas usaram gravações de áudio de 43 adultos, 33 dos quais tinham doença de Parkinson, dizendo a sílaba “ahhh”. Eles usaram algoritmos de processamento de fala para analisar 132 recursos acústicos de cada gravação, finalmente identificando 10 – incluindo características como soprosidade e oscilações trêmulas no tom e no timbre – que pareciam ser mais preditivos de Parkinson. Usando apenas esses 10 recursos, o sistema poderia identificar as amostras de fala de pessoas com a doença com quase 99% de precisão1.

Little e outros na área também demonstraram que certas características vocais se correlacionam com a gravidade dos sintomas de Parkinson. Os sistemas ainda não são robustos o suficiente para uso rotineiro na prática clínica, diz Little, mas existem muitas aplicações potenciais. A análise vocal pode fornecer uma maneira rápida e de baixo custo de monitorar indivíduos com alto risco da doença; para rastrear grandes populações; ou possivelmente até mesmo para criar um serviço de telefone que pudesse diagnosticar remotamente pessoas que não têm acesso a um neurologista. Os pacientes poderiam usar a tecnologia em casa – na forma de um aplicativo para smartphone, por exemplo – para rastrear seus próprios sintomas e monitorar sua resposta à medicação. “Este tipo de tecnologia pode permitir um instantâneo de alta velocidade, um instantâneo quase contínuo de como os sintomas de alguém estão mudando”, diz Little.

Um homem com doença de Parkinson trabalha em sua fala com sua esposa. As mudanças vocais associadas ao distúrbio podem ajudar os médicos a diagnosticá-lo e avaliar os tratamentos. Crédito: Don Kelsen / Los Angeles Times / Getty

Os pesquisadores agora estão trabalhando para identificar biomarcadores baseados na fala para outros tipos de doenças neurodegenerativas. Por exemplo, um trio de cientistas em Toronto, Canadá, usou amostras de voz e transcrições de mais de 250 pessoas para identificar dezenas de diferenças entre a fala de pessoas com possível ou provável doença de Alzheimer e a de pessoas sem ela2. Entre os participantes, aqueles com Alzheimer tendem a usar palavras mais curtas, vocabulários menores e mais fragmentos de frases. Eles também se repetiam e usavam uma proporção mais alta de pronomes, como “isso” ou “isso”, para nomes próprios. “Pode ser um sinal de que eles simplesmente não estão se lembrando dos nomes das coisas, então, em vez disso, precisam usar pronomes”, diz Frank Rudzicz, cientista da computação da Universidade de Toronto, que liderou o estudo.

Quando o sistema considerou 35 dessas características vocais juntas, foi capaz de identificar pessoas com Alzheimer com precisão de 82%. (Desde então, melhorou para cerca de 92%, diz Rudzicz, observando que os erros tendem a ser mais ou menos igualmente divididos entre falsos negativos e falsos positivos.) “Essas características somam uma espécie de impressão digital de demência”, diz Rudzicz. “É um padrão oculto muito complexo que é difícil de ver na superfície, mas o aprendizado de máquina pode identificá-lo com dados suficientes.”

Como algumas dessas mudanças vocais ocorrem nos estágios iniciais das doenças neurodegenerativas, os pesquisadores esperam que as ferramentas de análise da voz possam eventualmente ajudar os médicos a diagnosticar tais condições mais cedo e potencialmente intervir antes que outros sintomas se tornem óbvios.

Por enquanto, entretanto, essa ideia permanece amplamente teórica; os cientistas ainda precisam fazer grandes testes longitudinais de longo prazo para demonstrar que a análise da voz pode realmente detectar doenças mais cedo do que os métodos de diagnóstico padrão.

E alguns médicos observam que a análise da voz sozinha raramente produzirá diagnósticos definitivos. “Aprendo muito ouvindo a voz de alguém”, diz Norman Hogikyan, laringologista da Universidade de Michigan em Ann Arbor. “Eu faço isso para viver. Mas eu coloquei isso junto com uma história e depois meu exame. Todas as três partes dessa avaliação são importantes.”

Pesquisadores da área enfatizam que o objetivo não é substituir médicos ou criar dispositivos de diagnóstico autônomos. Em vez disso, eles veem a análise de voz como uma ferramenta que os médicos podem usar para informar suas decisões, como outro “sinal vital” que eles podem monitorar ou testar que podem solicitar “Minha visão é que coletar amostras de fala se tornará tão comum quanto fazer um exame de sangue”, diz Isabel Trancoso, pesquisadora em processamento de linguagem falada na Universidade de Lisboa.

Aplicativos em expansão

Uma série de empresas iniciantes de análise de voz – incluindo Winterlight Labs, uma empresa de Toronto cofundada por Rudzicz, e Aural Analytics em Scottsdale, Arizona – estão agora fornecendo seu software para empresas farmacêuticas. Muitos estão usando a tecnologia para ajudar a avaliar se as pessoas inscritas em seus ensaios clínicos estão respondendo a tratamentos experimentais. “Usando a fala como um proxy mais sutil para mudanças na saúde neurológica, você pode ajudar a empurrar as drogas até a linha de chegada ou pelo menos identificar aquelas que não são promissoras no início”, diz Visar Berisha, o cofundador e diretor de análise na Aural Analytics.

As doenças neurodegenerativas são apenas o começo. Os cientistas identificaram padrões de fala distintos em crianças com distúrbios do neurodesenvolvimento. Em um pequeno estudo de 2017, Schuller e seus colegas determinaram que algoritmos que analisavam o balbucio de bebês de dez meses de idade poderiam identificar com alguma precisão quais crianças seriam diagnosticadas com transtorno do espectro do autismo3. O sistema classificou corretamente cerca de 80% das crianças com autismo e 70% das crianças neurotípicas.

Os pesquisadores também descobriram que muitas crianças com transtorno de déficit de atenção e hiperatividade falam mais alto e mais rápido do que seus pares neurotípicos e mostram mais sinais de tensão vocal. A empresa PeakProfiling em Berlim está desenvolvendo uma ferramenta de análise clínica da fala que espera ajudar os médicos a diagnosticar a doença.

Mas alguns médicos são céticos sobre a quantidade de informações úteis que esses sistemas realmente fornecem. “Parte disso é um pouco exagerado”, diz Rhea Paul, especialista em distúrbios da comunicação na Sacred Heart University em Fairfield, Connecticut. Crianças com distúrbios do neurodesenvolvimento geralmente apresentam muitos sintomas comportamentais facilmente observáveis, observa ela.

Além disso, ainda não está claro se os algoritmos estão realmente identificando marcadores específicos para, digamos, transtorno do espectro do autismo, ou apenas detectando sinais gerais de desenvolvimento atípico do cérebro – ou mesmo apenas aberrações transitórias na fala. “O desenvolvimento é um caminho sinuoso e nem toda criança que começa com aparência de autista se torna um adulto com autismo”, diz Paul. Mesmo que os cientistas identifiquem um biomarcador vocal específico altamente confiável, ela acrescenta, ele só deve ser usado para identificar crianças que podem se beneficiar de uma avaliação mais completa. “Não deveria ser suficiente por si só rotular uma criança, especialmente tão cedo na vida.”

Os cientistas também estão transformando a tecnologia em doenças mentais. Numerosas equipes em todo o mundo desenvolveram sistemas que podem captar a fala lenta, pausada e monótona que tende a caracterizar a depressão, e outros identificaram biomarcadores vocais associados a psicose, suicídio e transtorno bipolar.

“A voz é extremamente rica em termos de transmitir nossos sinais emocionais”, diz Charles Marmar, psiquiatra da Universidade de Nova York. “A taxa, o ritmo, o volume, o tom, a prosódia [ênfase e entonação] – essas características, dizem se o paciente está deprimido e desanimado, se está agitado e ansioso ou se está disfórico e maníaco.”

Em seu próprio trabalho, Marmar usou o aprendizado de máquina para identificar 18 características vocais associadas ao transtorno de estresse pós-traumático (PTSD) em 129 militares veteranos do sexo masculino. Ao analisar essas características – que eram principalmente indicadores de fala lenta, plana e monótona – o sistema pôde identificar, com quase 90% de precisão, qual dos veteranos tinha PTSD4.

Marmar e seus colegas agora estão expandindo sua pesquisa para mulheres e civis; se a equipe puder generalizar as descobertas, Marmar acha que a tecnologia pode ser uma maneira útil de identificar rapidamente as pessoas que podem precisar de uma avaliação psiquiátrica mais completa. “A primeira aplicação do mundo real seria para triagem de alto rendimento de PTSD”, diz ele. “Você pode fazer 4.000 telas de voz em questão de horas.”

Aplicativos de consumo semelhantes já estão começando a aparecer no mundo. O Departamento de Assuntos de Veteranos dos Estados Unidos está estudando se um aplicativo que monitora a saúde mental pode identificar membros do serviço que passam por sofrimento psicológico. O aplicativo para smartphone, desenvolvido pela Cogito, uma empresa de orientação e análise de conversação em Boston, Massachusetts, coleta metadados sobre os hábitos dos usuários – como a frequência com que ligam ou enviam mensagens de texto para outras pessoas – e analisa memorandos de voz que deixam em seus telefones.

Pode até haver biomarcadores vocais para condições que parecem não ter nada a ver com a fala. Em um estudo de 2018, cientistas que analisaram amostras de fala de 101 pessoas que deveriam se submeter a angiogramas coronarianos descobriram que certos padrões de frequência vocal estavam associados a doenças coronárias mais graves5.

Não está claro o que explica essas diferenças. “Nós lutamos com o mecanismo porque não é óbvio”, diz Amir Lerman, cardiologista da Mayo Clinic em Rochester, Minnesota, que liderou a pesquisa. A doença arterial coronariana poderia teoricamente mudar a voz reduzindo o fluxo sanguíneo, diz ele. Mas também é possível que não seja a própria doença que causa as alterações vocais, mas outros fatores de risco associados, como estresse ou depressão.

Tradução complicada

Esse estudo demonstra a promessa e as limitações desta tecnologia. Uma coisa é um computador identificar padrões vocais, mas outra tarefa, mais difícil, é entender o que eles significam e se são clinicamente significativos. São características fundamentais da doença em questão? Ou apenas marcadores de alguma outra diferença entre grupos, como idade, sexo, tamanho do corpo, educação ou fadiga, qualquer um dos quais poderia ser um fator de confusão? “Estamos tentando deixar de simplesmente inserir dados em um algoritmo e realmente mergulhar nos conjuntos de dados, criando um modelo da doença primeiro e, em seguida, testando-o com aprendizado de máquina”, diz Ghomi.

A maioria dos estudos até agora identificou biomarcadores potenciais em apenas uma pequena população única de pacientes. “A reprodutibilidade ainda é uma questão”, diz Lerman. “Minha voz é hoje e amanhã e depois de amanhã a mesma?” Para garantir que os resultados possam ser generalizados – e para reduzir a possibilidade de viés, um problema conhecido por atormentar os algoritmos médicos – os pesquisadores precisarão testar seus sistemas de classificação em amostras maiores e mais diversas e em uma variedade de idiomas. “Não queremos validar um modelo de fala apenas com 300 pacientes”, diz Jim Schwoebel, vice-presidente de dados e pesquisa da Sonde Health, uma empresa de análise de voz com sede em Boston. “Achamos que precisamos de 10.000 ou mais.”

A empresa opera SurveyLex, uma plataforma online que permite aos pesquisadores criar e distribuir facilmente pesquisas de voz, bem como o projeto Voiceome, um esforço para coletar amostras de voz e informações de saúde de até 100.000 pessoas, em uma ampla variedade de tarefas de fala e locais e acentos. “Você pode estar deprimido em Nova York e soar deprimido de maneira diferente em Houston, Texas”, diz Schwoebel.

Para muitas das aplicações que os pesquisadores têm em mente, os sistemas de análise de voz terão que não apenas distinguir pessoas doentes de controles saudáveis, mas também diferenciar entre uma variedade de doenças e condições. E eles precisarão fazer isso fora do laboratório, em situações cotidianas não controladas e em uma ampla variedade de dispositivos de consumo. “Você tem smartphones com uma gama limitada de sensores, e as pessoas os usam em todos os lugares, em ambientes muito descontrolados”, diz Julien Epps, pesquisador que estuda processamento de sinais de voz na University of New South Wales em Sydney, Austrália.

Quando Epps e seus colegas, incluindo um pesquisador da Sonde Health, analisaram amostras de voz gravadas com microfones de alta qualidade em um laboratório, eles foram capazes de detectar depressão com aproximadamente 94% de precisão (consulte “Tons deprimidos”). Ao usar amostras de fala que as pessoas gravaram em seus próprios ambientes em seus smartphones, a precisão caiu para menos de 75%, os pesquisadores relataram em um artigo de 2019.

Fonte: Zhaocheng Huang, Univ. Nova Gales do Sul

E só porque a tecnologia não é invasiva não significa que seja isenta de riscos. Isso apresenta sérias preocupações com a privacidade, incluindo a possibilidade de que indivíduos possam ser identificados a partir de amostras de fala anônimas, que os sistemas possam capturar inadvertidamente conversas privadas e que informações médicas confidenciais possam ser vendidas, compartilhadas, hackeadas ou utilizadas indevidamente.

Se a tecnologia não for regulamentada de maneira adequada, existe o perigo de as seguradoras ou empregadores usarem esses sistemas para analisar amostras de fala sem consentimento explícito ou para obter informações pessoais de saúde e, potencialmente, discriminar seus clientes ou funcionários.

E há o risco perene de falsos positivos e sobrediagnóstico. “Temos que ser reais e perceber que muito disso ainda é pesquisa”, diz Rudzicz. “E precisamos começar a pensar sobre o que vai acontecer quando colocarmos em prática.”


Publicado em 01/10/2020 00h21

Artigo original:

Estudo original:


Achou importante? Compartilhe!


Assine nossa newsletter e fique informado sobre Astrofísica, Biofísica, Geofísica e outras áreas. Preencha seu e-mail no espaço abaixo e clique em “OK”: