Como a entropia de Shannon impõe limites fundamentais à comunicação

Para comunicar uma série de eventos aleatórios, como lançamentos de moedas, você precisa usar muitas informações, pois não há estrutura na mensagem. A entropia de Shannon mede essa restrição fundamental. – Imagem via Unsplash

O que é uma mensagem, realmente? Claude Shannon reconheceu que o ingrediente elementar é a surpresa.

Se alguém lhe disser um fato que você já conhece, essencialmente não lhe disse nada. Considerando que, se eles transmitirem um segredo, é justo dizer que algo realmente foi comunicado.

Essa distinção está no cerne da teoria da informação de Claude Shannon. Introduzido em um artigo histórico de 1948, “A Mathematical Theory of Communication“, fornece uma estrutura matemática rigorosa para quantificar a quantidade de informação necessária para enviar e receber com precisão uma mensagem, conforme determinado pelo grau de incerteza em torno do que a mensagem pretendida poderia ser. ditado.

Ou seja, é hora de um exemplo.

Em um cenário, eu tenho uma moeda de truque – é cara em ambos os lados. Eu vou virar duas vezes. Quanta informação é necessária para comunicar o resultado? Nenhuma, porque antes de receber a mensagem, você tem total certeza de que ambas as jogadas sairão caras.

Imagem via Unsplash

No segundo cenário, faço meus dois lançamentos com uma moeda normal – cara de um lado, coroa do outro. Podemos comunicar o resultado usando código binário: 0 para cara, 1 para coroa. Existem quatro mensagens possíveis – 00, 11, 01, 10 – e cada uma requer dois bits de informação.

Então, qual é o ponto? No primeiro cenário, você tinha total certeza sobre o conteúdo da mensagem e levou zero bits para transmiti-la. No segundo, você tinha uma chance em quatro de adivinhar a resposta certa – 25% de certeza – e a mensagem precisava de dois bits de informação para resolver essa ambiguidade. De maneira mais geral, quanto menos você souber sobre o que a mensagem dirá, mais informações serão necessárias para transmitir.

Shannon foi a primeira pessoa a tornar essa relação matematicamente precisa. Ele capturou isso em uma fórmula que calcula o número mínimo de bits – um limite mais tarde chamado de entropia de Shannon – necessário para comunicar uma mensagem. Ele também mostrou que se um remetente usa menos bits do que o mínimo, a mensagem inevitavelmente fica distorcida.

“Ele teve essa grande intuição de que a informação é maximizada quando você está mais surpreso ao aprender sobre algo”, disse Tara Javidi, teórica da informação da Universidade da Califórnia, em San Diego.

O termo “entropia” é emprestado da física, onde a entropia é uma medida de desordem. Uma nuvem tem entropia mais alta do que um cubo de gelo, já que uma nuvem permite muito mais maneiras de organizar as moléculas de água do que a estrutura cristalina de um cubo. De forma análoga, uma mensagem aleatória tem uma alta entropia Shannon – há tantas possibilidades de como suas informações podem ser organizadas – enquanto uma que obedece a um padrão estrito tem baixa entropia. Há também semelhanças formais na forma como a entropia é calculada tanto na física quanto na teoria da informação. Na física, a fórmula da entropia envolve tomar um logaritmo de possíveis estados físicos. Na teoria da informação, é o logaritmo de possíveis resultados de eventos.

A fórmula logarítmica para a entropia de Shannon desmente a simplicidade do que ela captura – porque outra maneira de pensar sobre a entropia de Shannon é como o número de perguntas sim ou não necessárias, em média, para determinar o conteúdo de uma mensagem.

Por exemplo, imagine duas estações meteorológicas, uma em San Diego e outra em St. Louis. Cada um quer enviar a previsão de sete dias para sua cidade para o outro. San Diego é quase sempre ensolarado, o que significa que você tem alta confiança sobre o que a previsão dirá. O clima em St. Louis é mais incerto – a chance de um dia ensolarado está mais próxima de 50-50.

Claude Shannon no Bell Labs em 1954.

Quantas perguntas sim ou não seriam necessárias para transmitir cada previsão de sete dias? Para San Diego, uma primeira pergunta lucrativa pode ser: todos os sete dias da previsão são ensolarados? Se a resposta for sim (e há uma boa chance de que seja), você determinou toda a previsão em uma única pergunta. Mas com St. Louis você quase tem que trabalhar na previsão um dia de cada vez: o primeiro dia está ensolarado? E quanto ao segundo?

Quanto mais certeza houver em torno do conteúdo de uma mensagem, menos perguntas do tipo sim ou não você precisará, em média, para determiná-lo.

Para dar outro exemplo, considere duas versões de um jogo de alfabeto. No primeiro, selecionei aleatoriamente uma letra do alfabeto inglês e quero que você adivinhe. Se você usar a melhor estratégia de adivinhação possível, levará em média 4,7 perguntas para obtê-la. (Uma primeira pergunta útil seria: “A letra está na primeira metade do alfabeto?”)

Na segunda versão do jogo, em vez de adivinhar o valor de letras aleatórias, você está tentando adivinhar letras em palavras reais em inglês. Agora você pode adaptar sua adivinhação para aproveitar o fato de que algumas letras aparecem com mais frequência do que outras (“É uma vogal?”) e que saber o valor de uma letra ajuda a adivinhar o valor da próxima (q é quase sempre seguido por u). Shannon calculou que a entropia da língua inglesa é de 2,62 bits por letra (ou 2,62 perguntas de sim ou não), muito menos do que os 4,7 que você precisaria se cada letra aparecesse aleatoriamente. Dito de outra forma, os padrões reduzem a incerteza, o que torna possível comunicar muito usando relativamente pouca informação.

Observe que em exemplos como esses, você pode fazer perguntas melhores ou piores. A entropia de Shannon estabelece um piso inviolável: é o número mínimo absoluto de bits, ou perguntas de sim ou não, necessários para transmitir uma mensagem.

“Shannon mostrou que existe algo como a velocidade da luz, um limite fundamental”, disse Javidi. “Ele mostrou que a entropia de Shannon é um limite fundamental para o quanto podemos comprimir uma fonte, sem arriscar distorção ou perda.”

Hoje, a entropia de Shannon serve como parâmetro em muitas configurações aplicadas, incluindo tecnologia de compressão de informações. O fato de você poder compactar um arquivo de filme grande, por exemplo, deve-se ao fato de que as cores dos pixels têm um padrão estatístico, como as palavras em inglês. Os engenheiros podem construir modelos probabilísticos para padrões de cores de pixel de um quadro para o outro. Os modelos permitem calcular a entropia de Shannon atribuindo pesos aos padrões e, em seguida, tomando o logaritmo do peso para todas as formas possíveis de exibição dos pixels. Esse valor informa o limite de compactação “sem perdas” – o máximo que o filme pode ser compactado antes de você começar a perder informações sobre seu conteúdo.

O desempenho de qualquer algoritmo de compactação pode ser comparado a esse limite. Se você está longe disso, tem um incentivo para trabalhar mais para encontrar um algoritmo melhor. Mas se você está perto disso, sabe que as leis da informação do universo o impedem de fazer muito melhor.


Publicado em 07/09/2022 11h02

Artigo original: