Revolucionando a restauração da visão por meio da inteligência artificial

O machine learning avança significativamente as próteses neurais, otimizando a redução da resolução da imagem, replicando de perto as respostas naturais da retina e abrindo novos caminhos para a codificação sensorial em próteses. Crédito: SciTechDaily.com

doi.org/10.1038/s41467-024-45105-5
Credibilidade: 989
#Machine 

Os pesquisadores da EPFL desenvolveram uma abordagem de machine learning para compactar dados de imagem com maior precisão do que métodos de computação sem aprendizado, com aplicações para implantes de retina e outras próteses sensoriais.

Um grande desafio para o desenvolvimento de melhores próteses neurais é a codificação sensorial: transformar informações capturadas do ambiente por sensores em sinais neurais que podem ser interpretados pelo sistema nervoso. Mas como o número de eléctrodos numa prótese é limitado, este input ambiental deve ser reduzido de alguma forma, preservando ao mesmo tempo a qualidade dos dados que são transmitidos ao cérebro.

Avanços na compressão de dados para próteses de retina

Demetri Psaltis (Laboratório de Óptica) e Christophe Moser (Laboratório de Dispositivos Fotônicos Aplicados) colaboraram com Diego Ghezzi do Hôpital oftalmique Jules-Gonin – Fondation Asile des Aveugles (anteriormente Cátedra Medtronic em Neuroengenharia na EPFL) para aplicar o machine learning ao problema de compressão dados de imagem com múltiplas dimensões, como cor, contraste, etc. No caso deles, o objetivo da compressão era diminuir a resolução, ou seja, reduzir o número de pixels de uma imagem sendo transmitida por meio de uma prótese de retina.

“Atualmente, a redução da resolução para implantes de retina é feita pela média de pixels, que é essencialmente o que o software gráfico faz quando você deseja reduzir o tamanho de um arquivo. Mas no final das contas, este é um processo matemático; não há aprendizagem envolvida”, explica Ghezzi.

Comparação entre a imagem original (esquerda); a imagem processada usando computação sem aprendizagem (meio); e a imagem processada usando a estrutura ator-modelo. Crédito: © EPFL CC BY SA

Abordagem baseada em aprendizagem para redução da resolução de imagens

“Descobrimos que se aplicássemos uma abordagem baseada na aprendizagem, obteríamos melhores resultados em termos de codificação sensorial otimizada. Mas o mais surpreendente foi que, quando usamos uma rede neural irrestrita, ela aprendeu a imitar aspectos do processamento da retina por conta própria.”

Especificamente, a abordagem de machine learning dos pesquisadores, chamada de estrutura de modelo de ator, foi especialmente boa em encontrar um “ponto ideal” para o contraste da imagem. Ghezzi usa o Photoshop como exemplo. “Se você mover o controle deslizante de contraste muito em uma ou outra direção, a imagem ficará mais difícil de ver. Nossa rede desenvolveu filtros para reproduzir algumas das características do processamento da retina.”

Os resultados foram publicados recentemente na revista científica Nature CoRevolutionizing Vision Restoration Through Artificial Intelligencemmunications.

Validação In-Silico e Ex-Vivo

Na estrutura do modelo ator, duas redes neurais funcionam de forma complementar. A porção do modelo, ou modelo direto, atua como um gêmeo digital da retina: primeiro é treinado para receber uma imagem de alta resolução e gerar um código neural binário que seja o mais semelhante possível ao código neural gerado por uma retina biológica. A rede de atores é então treinada para reduzir a resolução de uma imagem de alta resolução que pode extrair um código neural do modelo direto que seja o mais próximo possível daquele produzido pela retina biológica em resposta à imagem original.

Usando essa estrutura, os pesquisadores testaram imagens reduzidas tanto na retina digital gêmea quanto em retinas de cadáveres de camundongos que foram removidas (explantadas) e colocadas em um meio de cultura. Ambos os experimentos revelaram que a abordagem ator-modelo produziu imagens que provocaram uma resposta neuronal mais semelhante à resposta da imagem original do que uma imagem gerada por uma abordagem de computação sem aprendizado, como a média de pixels.

Apesar dos desafios metodológicos e éticos envolvidos no uso de retinas de camundongos explantadas, Ghezzi afirma que foi essa validação ex-vivo de seu modelo que torna seu estudo uma verdadeira inovação na área.

“Não podemos confiar apenas no modelo digital, ou in-silico. É por isso que fizemos esses experimentos – para validar nossa abordagem.”

Outros horizontes sensoriais

Como a equipe tem experiência anterior de trabalho com próteses de retina, este foi o primeiro uso da estrutura ator-modelo para codificação sensorial. Mas Ghezzi vê potencial para expandir as aplicações da estrutura dentro e além do domínio da restauração da visão. Ele acrescenta que será importante determinar quanto do modelo, validado com retinas de camundongos, é aplicável a humanos.

“O próximo passo óbvio é ver como podemos comprimir uma imagem de forma mais ampla, além da redução de pixels, para que a estrutura possa brincar com múltiplas dimensões visuais ao mesmo tempo. Outra possibilidade é transpor este modelo retinal para resultados de outras regiões do cérebro. Poderia até estar potencialmente ligado a outros dispositivos, como próteses auditivas ou de membros”, diz Ghezzi.


Publicado em 03/03/2024 20h40

Artigo original:

Estudo original: