As flutuações da dopamina em sub-regiões cerebrais distintas predizem recompensas ao longo de uma série de escalas de tempo

doi.org/10.1038/s41593-023-01566-3
Credibilidade: 989
#Tempo

Estudos anteriores de neurociência sugerem que aumentos transitórios na dopamina cerebral são sinais críticos para aprender sobre recompensas e motivação para obter mais recompensas. Pesquisadores da Universidade da Califórnia em São Francisco realizaram um estudo explorando aumentos transitórios de dopamina em sub-regiões específicas do corpo estriado, uma parte do cérebro conhecida por apoiar a aprendizagem e a tomada de decisões baseadas em recompensas.

Suas descobertas, publicadas na Nature Neuroscience, sugerem que as flutuações transitórias da dopamina em três partes diferentes do corpo estriado refletem previsões de recompensa em diferentes horizontes de tempo (ou seja, uma fração de segundo, dezenas de segundos e centenas de segundos depois, respectivamente).

“Um pulso de dopamina pode indicar que nos encontramos numa situação melhor do que esperávamos e, portanto, as nossas estimativas anteriores de recompensa precisam ser atualizadas”, disse Josh Berke, principal autor do artigo, ao Medical Xpress. “Essa teoria do ‘erro de previsão de recompensa’ tem sido muito influente, em parte porque conecta padrões de atividade cerebral a certos cálculos no machine learning, mas há vários aspectos dessa teoria que são, na melhor das hipóteses, incompletos.”

O recente estudo realizado por Berke e seus colaboradores teve como objetivo abordar dois aspectos problemáticos desta teoria do “erro de previsão de recompensa”. A primeira delas é a definição pouco clara do termo “previsão de recompensa”, que não especifica quando uma recompensa é esperada (por exemplo, dentro de um segundo, um minuto, uma hora, etc.).

“Um segundo problema é que originalmente se pensava que os sinais de dopamina eram transmitidos uniformemente por todo o prosencéfalo, mas estudos mais recentes encontraram diferentes sinais de dopamina em diferentes locais do cérebro”, disse Berke. “Então, isso indica que precisamos de muitas teorias diferentes para explicar esses diferentes sinais de dopamina?”

Para esclarecer aspectos pouco claros da teoria do erro de previsão de recompensas, Berke e seus colegas realizaram experimentos em ratos usando um sensor molecular recentemente desenvolvido. Este sensor utiliza uma proteína geneticamente modificada que muda sua fluorescência quando ligada à dopamina.

“Implantamos esse sensor em três áreas diferentes do corpo estriado do rato, a área do cérebro que recebe a entrada mais forte de dopamina”, explicou Berke. “Essas diferentes áreas fazem parte de circuitos distintos e de grande escala no cérebro, que processam diferentes tipos de informação”.

Os investigadores examinaram as flutuações da dopamina, destacadas pelo seu sensor molecular, à medida que os ratos realizavam uma série de tarefas comportamentais. Os ratos receberam recompensas em taxas variadas e ouviram sinais que indicavam recompensas futuras com diferentes atrasos e probabilidades.

Curiosamente, eles descobriram que as flutuações da dopamina em cada uma das três sub-regiões do estriado que examinaram refletiam diferentes escalas de tempo para a expectativa de recompensas dos ratos.

“Em uma área, mais preocupada com o controle motor, a dopamina flutua com frequência, e a resposta a um sinal preditivo de recompensa só é forte se prever a entrega da recompensa em uma fração de segundo”, disse Berke. “Uma segunda área do estriado parece se preocupar com recompensas em dezenas de segundos, e uma terceira em cerca de centenas de segundos. Achamos que pode haver um gradiente contínuo de escalas de tempo de previsão de recompensas, envolvendo circuitos paralelos dentro do cérebro.”

As diferentes escalas de tempo e sub-regiões associadas do estriado reveladas por Berke e seus colegas poderiam explicar observações experimentais intrigantes relatadas anteriormente, registrando diferentes sinais de dopamina, todas com uma única estrutura teórica. Além disso, a existência de diferentes escalas de tempo de previsão de recompensas poderia sustentar alguns dos comportamentos complexos e aparentemente incoerentes observados em animais.

“Por exemplo, ao cantar uma música, há muito pouca separação de tempo entre mover as cordas vocais e ouvir o resultado agradável (ou não)”, disse Berke. “Esse feedback deve ser rápido para um aprendizado eficaz. No entanto, às vezes fazemos escolhas e não descobrimos os resultados por um tempo considerável. Precisamos de mecanismos cerebrais para superar essa lacuna de tempo, para determinar se a escolha foi boa.”

A nova visão recolhida por esta equipe de investigadores pode ajudar a compreender melhor a ligação entre os transientes de dopamina nas sub-regiões do estriado e a aprendizagem baseada em recompensas. Além disso, poderiam esclarecer alguns dos processos subjacentes à tomada de decisões.

“Muitas vezes, tomamos decisões sobre como agir a longo prazo (por exemplo, para perder peso), mas quando confrontados com uma escolha imediata não agimos em conformidade”, explicou Berke.

“Esta incompatibilidade tem sido estudada há muito tempo e foi considerada ‘irracional’. No entanto, é possível que esta seja uma consequência inevitável de ter vários subsistemas de decisão operando em paralelo, cada um preocupado com uma duração diferente do futuro. À medida que os resultados potenciais se aproximam com o tempo, mais subsistemas se envolvem e pressionam por resultados de curto prazo.”

Este estudo poderá em breve informar o desenvolvimento de novos modelos teóricos que expliquem a previsão de recompensas em diferentes escalas de tempo. Enquanto isso, Berke e seus colaboradores planejam desenvolver suas descobertas para conduzir novos experimentos observando os sinais de dopamina e sua interação com outros circuitos neurais.

“Estamos agora investigando como esses sinais de dopamina interagem com outros componentes do circuito, como parte do desenvolvimento de uma compreensão mais rica de como esses circuitos funcionam e como eles funcionam mal em distúrbios como dependência, doença de Parkinson e síndrome de Tourette. programa ativo que estuda como imaginamos possibilidades futuras e ajustamos nosso comportamento de acordo.”

Publicado em 08/03/2024 14h09

Artigo original:

https://www.nature.com/articles/s41593-023-01566-3#citeas

Estudo original:

https://doi.org/10.1038/s41593-023-01566-3