Por que os sistemas de IA ainda confundem os pesquisadores

Imagem via Unsplash

#Inteligência 

Um segredo aberto sobre sistemas de inteligência artificial como o ChatGPT é que todos eles têm uma peculiaridade perturbadora: nem mesmo os pesquisadores que os constroem entendem completamente como funcionam. Esses grandes modelos de linguagem, ou LLMs, são programas de computador especiais baseados em estruturas matemáticas chamadas redes neurais. Embora as redes neurais sejam agora omnipresentes na investigação científica e na vida quotidiana, e os investigadores as estudem há mais de meio século, o seu funcionamento interno permanece misterioso. Como isso é possível?

Não é que a matemática subjacente seja especialmente complicada. As redes neurais mais simples, chamadas redes feed-forward, são organizadas como enormes teias de “neurônios” interconectados – na verdade, apenas cópias da mesma função matemática simples – dispostos em camadas. As saídas de uma camada tornam-se as entradas da próxima camada na hierarquia. Um conjunto de números chamados “parâmetros” da rede quantifica a força das conexões entre os neurônios. As redes utilizadas nos LLMs, conhecidas como transformadores, possuem uma estrutura um pouco mais complicada e podem ter centenas de bilhões de parâmetros.

Para construir uma rede neural, os pesquisadores primeiro especificam seu tamanho e layout e, em seguida, definem todos os seus parâmetros com valores aleatórios. Essa configuração simples significa que as redes neurais recém-nascidas geram resultados que não têm nenhuma relação com suas entradas. A dificuldade dos investigadores em compreender o seu comportamento começa com o processo de formação através do qual as redes aprendem a produzir resultados úteis. Durante o treinamento, os pesquisadores alimentam uma rede com uma montanha de dados, juntamente com um critério para avaliar diferentes resultados possíveis. Cada vez que a rede vê uma nova entrada, ela emite uma saída e depois ajusta seus parâmetros em direção a valores que produzirão uma saída melhor.

Esta estratégia é extremamente simples – é análoga a descer uma montanha dando pequenos passos repetidamente na direção onde a encosta é mais íngreme. Experimente fazer isso em uma caminhada real e é provável que você caia rapidamente em uma fenda. Mas quando as redes neurais utilizam esta abordagem, navegando em paisagens com muitos milhares de milhões de dimensões, funciona muito melhor do que deveria. Sem uma imagem clara da topografia desta vasta paisagem, é difícil compreender por que a rede acaba com um conjunto específico de parâmetros.

A dificuldade em compreender o processo de treinamento é um problema, mas o comportamento das redes neurais treinadas pode ser igualmente confuso. Em princípio, é fácil seguir todas as operações matemáticas simples que geram coletivamente os resultados da rede. Mas em grandes redes, é difícil transformar toda essa matemática numa explicação qualitativa do que é responsável por qualquer resultado, e os investigadores têm tido pouco sucesso na identificação do papel dos neurónios individuais. Essa é mais uma razão pela qual é difícil entender o comportamento dos LLMs.

O que há de novo e digno de nota

Os pesquisadores adotaram muitas abordagens diferentes para estudar o funcionamento interno das redes neurais. Enquanto alguns procuram pistas diretamente em sistemas reais de IA, outros dão um passo atrás e analisam a matemática subjacente, provando teoremas rigorosos sobre como as redes devem comportar-se.

Muitas dessas investigações matemáticas concentram-se no layout de uma rede neural. Especificar o layout de uma rede feed-forward simples é apenas uma questão de definir dois números: a “profundidade” da rede (o número de camadas de neurônios) e sua “largura” (o número de neurônios em cada camada). Só há alguns anos é que os investigadores estabeleceram o compromisso entre profundidade e largura, mesmo nestas redes simples. Mais recentemente, os pesquisadores continuaram esta linha de trabalho estudando empiricamente o papel da profundidade e da largura em grandes modelos de linguagem.

Uma consideração ainda mais básica do que o layout de uma rede é o seu tamanho geral. A última década de progresso ilustrou dramaticamente que aumentar o número de parâmetros em uma rede neural quase sempre melhora seu desempenho. Mas esta observação é difícil de conciliar com o quadro teórico tradicionalmente utilizado pelos estatísticos, que prevê que, a partir de um certo ponto, mais parâmetros deverão ser prejudiciais. Há dois anos, os investigadores deram um passo no sentido de resolver esta tensão, provando que parâmetros adicionais podem ajudar a tornar as saídas da rede neural menos sensíveis a pequenas alterações nas suas entradas.

Os pesquisadores também estudaram como as redes neurais aprendem durante o processo de treinamento. Uma linha de trabalho estabeleceu uma correspondência matemática precisa entre redes neurais e técnicas de machine learning aparentemente não relacionadas que eram populares no início dos anos 2000. Os resultados entusiasmaram muitos pesquisadores porque essas técnicas mais antigas são mais fáceis de analisar. Mas até agora, a conexão é válida apenas para tipos específicos de redes neurais – uma teoria abrangente permanece indefinida.

A análise teórica abstrata pode ajudar a esclarecer as capacidades intrínsecas das redes neurais, mas tem limites. É mais difícil provar teoremas sobre redes mais complexas como as subjacentes a grandes modelos de linguagem, e estes modelos são treinados em conjuntos de dados enormes e confusos, que também são difíceis de caracterizar. Mas isso não impediu os pesquisadores de tentar.


Sobre o autor

BEN BRUBAKER


Publicado em 25/03/2024 20h39

Artigo original: