Novas rachaduras na teoria abrem a caixa preta do Deep Learning

Eric Nyquist for Quanta Magazine

Mesmo que as máquinas conhecidas como “redes neurais profundas” tenham aprendido a conversar, dirigir carros, vencer videogames e campeões de Go, sonhar, pintar quadros e ajudar a fazer descobertas científicas, elas também confundiram seus criadores humanos, que nunca esperaram os chamados ” algoritmos de aprendizagem profunda “para funcionar tão bem. Nenhum princípio subjacente guiou o projeto desses sistemas de aprendizagem, a não ser uma vaga inspiração tirada da arquitetura do cérebro (e ninguém realmente entende como isso funciona também).

[Naftali Tishby, o autor desse artigo, faleceu em Jerusalém há cerca de um mês. Seu legado ficou e permanece atual.]

Como um cérebro, uma rede neural profunda tem camadas de neurônios – artificiais que são frutos da memória do computador. Quando um neurônio dispara, ele envia sinais aos neurônios conectados na camada acima. Durante o Deep Learning, as conexões na rede são fortalecidas ou enfraquecidas conforme necessário para tornar o sistema melhor no envio de sinais de dados de entrada – os pixels de uma foto de um cachorro, por exemplo – através das camadas de neurônios associados com conceitos de nível, como “cachorro”. Depois que uma rede neural profunda “aprendeu” com milhares de fotos de cães de amostra, ela pode identificar cães em novas fotos com a maior precisão possível. O salto mágico de casos especiais para conceitos gerais durante o aprendizado dá às redes neurais profundas seu poder, da mesma forma que fundamenta o raciocínio humano, a criatividade e as outras faculdades coletivamente chamadas de “inteligência”. Os especialistas se perguntam o que há no Deep Learning que permite a generalização – e em que medida os cérebros apreendem a realidade da mesma maneira.

As redes neurais profundas aprendem ajustando os pontos fortes de suas conexões para melhor transmitir os sinais de entrada através de várias camadas para os neurônios associados aos conceitos gerais corretos. Quando os dados são alimentados em uma rede, cada neurônio artificial que dispara (rotulado como “1”) transmite sinais para certos neurônios na próxima camada, que provavelmente dispararão se vários sinais forem recebidos. O processo filtra o ruído e retém apenas os recursos mais relevantes. Lucy Reading-Ikkanda / Quanta Magazine

No mês passado, um vídeo do YouTube de uma palestra em uma conferência em Berlim, amplamente compartilhada entre pesquisadores de inteligência artificial, ofereceu uma resposta possível. Na palestra, Naftali Tishby, um cientista da computação e neurocientista da Universidade Hebraica de Jerusalém, apresentou evidências em apoio a uma nova teoria que explica como funciona o Deep Learning. Tishby argumenta que as redes neurais profundas aprendem de acordo com um procedimento chamado de “gargalo de informação”, que ele e dois colaboradores descreveram pela primeira vez em termos puramente teóricos em 1999. A ideia é que uma rede livra dados de entrada ruidosos de detalhes estranhos como se espremendo o informações por meio de um gargalo, retendo apenas os recursos mais relevantes para os conceitos gerais. Novos experimentos de computador de Tishby e seu aluno Ravid Shwartz-Ziv revelam como esse procedimento de compressão acontece durante o Deep Learning, pelo menos nos casos que eles estudaram.

As descobertas de Tishby deixaram a comunidade de IA agitada. “Acredito que a ideia do gargalo de informações pode ser muito importante em pesquisas futuras de redes neurais profundas”, disse Alex Alemi, do Google Research, que já desenvolveu novos métodos de aproximação para aplicar uma análise de gargalo de informações a grandes redes neurais profundas. O gargalo pode servir “não apenas como uma ferramenta teórica para entender por que nossas redes neurais funcionam tão bem como funcionam atualmente, mas também como uma ferramenta para construir novos objetivos e arquiteturas de redes”, disse Alemi.

Alguns pesquisadores continuam céticos de que a teoria seja totalmente responsável pelo sucesso do Deep Learning, mas Kyle Cranmer, físico de partículas da Universidade de Nova York que usa aprendizado de máquina para analisar colisões de partículas no Grande Colisor de Hádrons, disse que, como princípio geral de aprendizado, “de alguma forma, cheira bem”.

Geoffrey Hinton, um pioneiro do Deep Learning que trabalha no Google e na Universidade de Toronto, enviou um e-mail para Tishby após assistir à palestra em Berlim. “É extremamente interessante”, escreveu Hinton. “Tenho que ouvir mais 10.000 vezes para realmente entender, mas é muito raro hoje em dia ouvir uma palestra com uma ideia realmente original que pode ser a resposta para um quebra-cabeça realmente importante.”

De acordo com Tishby, que vê o gargalo de informação como um princípio fundamental por trás do aprendizado, seja você um algoritmo, uma mosca, um ser consciente ou um cálculo físico de comportamento emergente, essa resposta tão esperada “é que a parte mais importante de aprender é realmente esquecer. ”

O gargalo

Tishby começou a contemplar o gargalo de informações na época em que outros pesquisadores estavam meditando sobre redes neurais profundas, embora nenhum dos conceitos ainda tivesse sido nomeado. Era a década de 1980 e Tishby estava pensando em como os humanos são bons em reconhecimento de fala – um grande desafio para a IA na época. Tishby percebeu que o ponto crucial da questão era a questão da relevância: quais são as características mais relevantes de uma palavra falada e como podemos separá-las das variáveis que as acompanham, como sotaques, murmúrios e entonação? Em geral, quando enfrentamos o mar de dados que é a realidade, quais sinais guardamos?

Naftali Tishby, professor de ciência da computação na Universidade Hebraica de Jerusalém.

Com o coração partido e triste saber que Naftali Tishby faleceu. Tive a grande honra de interagir com ele tanto quando visitei a universidade hebraica em 2014 e há dois anos @deepmath. Um pensador profundamente comprometido. Que o seu legado permaneça

“Essa noção de informação relevante foi mencionada muitas vezes na história, mas nunca formulada corretamente”, disse Tishby em uma entrevista no mês passado. “Por muitos anos, as pessoas pensaram que a teoria da informação não era a maneira certa de pensar sobre relevância, começando com conceitos errôneos que chegam ao próprio Shannon.”

Claude Shannon, o fundador da teoria da informação, de certa forma liberou o estudo da informação a partir dos anos 1940, permitindo que ela fosse considerada de forma abstrata – como 1s e 0s com significado puramente matemático. Shannon considerou que, como Tishby colocou, “informação não é sobre semântica.” Mas, argumentou Tishby, isso não é verdade. Usando a teoria da informação, ele percebeu, “você pode definir ‘relevante’ em um sentido preciso.”

Imagine X é um conjunto de dados complexo, como os pixels de uma foto de cachorro, e Y é uma variável mais simples representada por esses dados, como a palavra “cachorro”. Você pode capturar todas as informações “relevantes” em X sobre Y compactando X o máximo que puder sem perder a capacidade de prever Y. Em seu artigo de 1999, Tishby e os coautores Fernando Pereira, agora no Google, e William Bialek, agora na Universidade de Princeton, formulou isso como um problema de otimização matemática. Foi uma ideia fundamental sem nenhuma aplicação matadora.

“Há 30 anos venho pensando nessas linhas em vários contextos”, disse Tishby. “Minha única sorte foi que as redes neurais profundas se tornaram tão importantes.”

Olhos nos rostos nas pessoas nas cenas

Embora o conceito por trás das redes neurais profundas tenha sido difundido por décadas, seu desempenho em tarefas como reconhecimento de voz e imagem só decolou no início de 2010, devido a regimes de treinamento aprimorados e processadores de computador mais poderosos. Tishby reconheceu sua conexão potencial com o princípio do gargalo de informações em 2014, depois de ler um artigo surpreendente dos físicos David Schwab e Pankaj Mehta.

A dupla descobriu que um algoritmo de Deep Learning inventado por Hinton chamado de “rede de crença profunda” funciona, em um caso particular, exatamente como a renormalização, uma técnica usada na física para diminuir o zoom em um sistema físico por granulação grossa sobre seus detalhes e calculando seu estado geral. Quando Schwab e Mehta aplicaram a rede de crença profunda a um modelo de um ímã em seu “ponto crítico”, onde o sistema é fractal, ou auto-similar em todas as escalas, eles descobriram que a rede usava automaticamente o procedimento de renormalização para descobrir o estado do modelo. Foi uma indicação surpreendente de que, como o biofísico Ilya Nemenman disse na época, “extrair características relevantes no contexto da física estatística e extrair características relevantes no contexto de aprendizagem profunda não são apenas palavras semelhantes, são uma e a mesma. ”

O único problema é que, em geral, o mundo real não é fractal. “O mundo natural não é ouvido com ouvido com ouvido com ouvido; são olhos nos rostos das pessoas nas cenas “, disse Cranmer. “Então, eu não diria que [o procedimento de renormalização] é o motivo pelo qual o Deep Learning em imagens naturais está funcionando tão bem.” Mas Tishby, que na época estava passando por quimioterapia para câncer de pâncreas, percebeu que tanto o Deep Learning quanto o procedimento de granulação grossa poderiam ser abrangidos por uma ideia mais ampla. “Pensar na ciência e no papel de minhas velhas ideias foi uma parte importante da minha cura e recuperação”, disse ele.

Noga Zaslavsky, à esquerda, e Ravid Shwartz-Ziv ajudaram a desenvolver a teoria do gargalo da informação de aprendizagem profunda como alunos de graduação da Naftali Tishby.

Em 2015, ele e seu aluno Noga Zaslavsky levantaram a hipótese de que o Deep Learning é um procedimento de gargalo de informações que comprime dados ruidosos tanto quanto possível, preservando informações sobre o que os dados representam. Os novos experimentos de Tishby e Shwartz-Ziv com redes neurais profundas revelam como o procedimento de gargalo realmente funciona. Em um caso, os pesquisadores usaram pequenas redes que poderiam ser treinadas para rotular os dados de entrada com 1 ou 0 (pense “cachorro” ou “nenhum cachorro”) e deram a suas 282 conexões neurais forças iniciais aleatórias. Em seguida, eles rastrearam o que aconteceu enquanto as redes se engajavam no Deep Learning com 3.000 conjuntos de dados de entrada de amostra.

O algoritmo básico usado na maioria dos procedimentos de aprendizagem profunda para ajustar as conexões neurais em resposta aos dados é chamado de “descida gradiente estocástica”: cada vez que os dados de treinamento são alimentados na rede, uma cascata de atividade de disparo sobe pelas camadas de neurônios artificiais. Quando o sinal atinge a camada superior, o padrão de disparo final pode ser comparado ao rótulo correto para a imagem – 1 ou 0, “cachorro” ou “nenhum cachorro”. Quaisquer diferenças entre esse padrão de disparo e o padrão correto são “retropropagadas” pelas camadas, o que significa que, como um professor corrigindo um exame, o algoritmo fortalece ou enfraquece cada conexão para tornar a camada de rede melhor na produção do sinal de saída correto. Ao longo do treinamento, padrões comuns nos dados de treinamento se refletem na força das conexões, e a rede se torna especialista em rotular corretamente os dados, como reconhecendo um cachorro, uma palavra ou um 1.

Em seus experimentos, Tishby e Shwartz-Ziv rastrearam quanta informação cada camada de uma rede neural profunda retinha sobre os dados de entrada e quanta informação cada uma retinha sobre o rótulo de saída. Os cientistas descobriram que, camada por camada, as redes convergiram para o limite teórico do gargalo de informações: um limite teórico derivado do artigo original de Tishby, Pereira e Bialek que representa o melhor absoluto que o sistema pode fazer na extração de informações relevantes. No limite, a rede comprimiu a entrada tanto quanto possível, sem sacrificar a capacidade de prever com precisão seu rótulo.

Tishby e Shwartz-Ziv também fizeram a intrigante descoberta de que o Deep Learning ocorre em duas fases: uma curta fase de “adaptação”, durante a qual a rede aprende a rotular seus dados de treinamento, e uma fase de “compressão” muito mais longa, durante a qual se torna bom na generalização, medida por seu desempenho na rotulagem de novos dados de teste.

Lucy Reading-Ikkanda / Revista Quanta; adaptado de arXiv: 1703.00810 [cs.LG].

À medida que uma rede neural profunda ajusta suas conexões por gradiente descendente estocástico, a princípio o número de bits que armazena sobre os dados de entrada permanece aproximadamente constante ou aumenta ligeiramente, à medida que as conexões se ajustam para codificar padrões na entrada e a rede se torna boa em ajustar rótulos para isto. Alguns especialistas compararam esta fase à memorização.

Em seguida, o aprendizado muda para a fase de compressão. A rede começa a distribuir informações sobre os dados de entrada, rastreando apenas os recursos mais fortes – aquelas correlações que são mais relevantes para o rótulo de saída. Isso acontece porque, em cada iteração de descida do gradiente estocástico, correlações mais ou menos acidentais nos dados de treinamento dizem à rede para fazer coisas diferentes, ajustando a força de suas conexões neurais para cima e para baixo em um passeio aleatório. Essa randomização é efetivamente o mesmo que compactar a representação do sistema dos dados de entrada. Por exemplo, algumas fotos de cães podem ter casas ao fundo, enquanto outras não. Conforme uma rede circula por essas fotos de treinamento, ela pode “esquecer” a correlação entre casas e cachorros em algumas fotos, enquanto outras fotos a neutralizam. É esse esquecimento de especificidades, argumentam Tishby e Shwartz-Ziv, que permite ao sistema formar conceitos gerais. De fato, seus experimentos revelaram que as redes neurais profundas aumentam seu desempenho de generalização durante a fase de compressão, tornando-se melhores na rotulagem de dados de teste. (Uma rede neural profunda treinada para reconhecer cães em fotos pode ser testada em novas fotos que podem ou não incluir cães, por exemplo.)

Resta saber se o gargalo de informação governa todos os regimes de Deep Learning, ou se existem outras rotas para generalização além da compressão. Alguns especialistas em IA veem a ideia de Tishby como um dos muitos insights teóricos importantes sobre o Deep Learning que surgiram recentemente. Andrew Saxe, um pesquisador de IA e neurocientista teórico da Universidade de Harvard, observou que certas redes neurais profundas muito grandes não parecem precisar de uma fase de compressão prolongada para generalizar bem. Em vez disso, os pesquisadores programam algo chamado parada antecipada, que encurta o treinamento para evitar que a rede codifique muitas correlações em primeiro lugar.

Tishby argumenta que os modelos de rede analisados por Saxe e seus colegas diferem das arquiteturas de rede neural profunda padrão, mas que, no entanto, o limite teórico de gargalo de informações define o desempenho de generalização dessas redes melhor do que outros métodos. Perguntas sobre se o gargalo se mantém para redes neurais maiores são parcialmente abordadas pelos experimentos mais recentes de Tishby e Shwartz-Ziv, não incluídos em seu artigo preliminar, no qual eles treinam redes neurais muito maiores, com 330.000 conexões profundas, para reconhecer dígitos manuscritos em o banco de dados do Instituto Nacional de Padrões e Tecnologia Modificado de 60.000 imagens, uma referência bem conhecida para medir o desempenho de algoritmos de Deep Learning. Os cientistas viram a mesma convergência das redes ao limite teórico do gargalo da informação; eles também observaram as duas fases distintas de Deep Learning, separadas por uma transição ainda mais nítida do que nas redes menores. “Estou completamente convencido de que este é um fenômeno geral”, disse Tishby.

Humanos e Máquinas

O mistério de como os cérebros filtram os sinais dos nossos sentidos e os elevam ao nível da nossa consciência despertou grande parte do interesse inicial em redes neurais profundas entre os pioneiros da IA, que esperavam fazer a engenharia reversa das regras de aprendizagem do cérebro. Os praticantes de IA desde então abandonaram amplamente esse caminho na corrida louca para o progresso tecnológico, em vez de bater em sinos e assobios que aumentam o desempenho com pouca consideração pela plausibilidade biológica. Ainda assim, à medida que suas máquinas pensantes realizam feitos cada vez maiores – até mesmo alimentando temores de que a IA algum dia possa representar uma ameaça existencial – muitos pesquisadores esperam que essas explorações revelem percepções gerais sobre aprendizado e inteligência.

Brenden Lake, um professor assistente de psicologia e ciência de dados da Universidade de Nova York que estuda semelhanças e diferenças em como humanos e máquinas aprendem, disse que as descobertas de Tishby representam “um passo importante para abrir a caixa preta das redes neurais”, mas ele ressaltou que o cérebro representa uma caixa preta muito maior e mais preta. Nossos cérebros adultos, que possuem várias centenas de trilhões de conexões entre 86 bilhões de neurônios, com toda a probabilidade empregam uma série de truques para aumentar a generalização, indo além dos procedimentos básicos de aprendizagem de reconhecimento de imagem e som que ocorrem durante a infância e que podem, de muitas maneiras, assemelhar-se aprendizagem profunda.

Por exemplo, Lake disse que as fases de adaptação e compressão que Tishby identificou não parecem ter análogos na maneira como as crianças aprendem caracteres manuscritos, que ele estuda. As crianças não precisam ver milhares de exemplos de um personagem e comprimir sua representação mental por um longo período de tempo antes de serem capazes de reconhecer outras instâncias dessa carta e escrevê-la elas mesmas. Na verdade, eles podem aprender com um único exemplo. Os modelos de Lake e seus colegas sugerem que o cérebro pode desconstruir a nova letra em uma série de golpes – construções mentais previamente existentes – permitindo que a concepção da carta seja anexada a um edifício de conhecimento prévio. “Em vez de pensar na imagem de uma letra como um padrão de pixels e aprender o conceito de mapeamento desses recursos”, como nos algoritmos de aprendizado de máquina padrão, Lake explicou, “em vez disso, pretendo construir um modelo causal simples da letra”, um caminho mais curto para a generalização.

Essas ideias inteligentes podem conter lições para a comunidade de IA, promovendo o vaivém entre os dois campos. Tishby acredita que sua teoria do gargalo de informações acabará se revelando útil em ambas as disciplinas, mesmo que assuma uma forma mais geral no aprendizado humano do que na IA. Um insight imediato que pode ser obtido da teoria é um melhor entendimento de quais tipos de problemas podem ser resolvidos por redes neurais reais e artificiais. “Ele oferece uma caracterização completa dos problemas que podem ser aprendidos”, disse Tishby. Esses são “problemas em que posso eliminar o ruído da entrada sem prejudicar minha capacidade de classificação. Este é um problema natural de visão, reconhecimento de voz. Esses também são precisamente os problemas com os quais nosso cérebro pode lidar. “


Publicado em 30/09/2021 20h43

Artigo original:

Estudo original: