Шрифт:
Интервал:
Закладка:
Именно в этом взаимодействии статистических закономерностей и числа битов, необходимых для передачи единицы информации, кроется связь информации с термодинамикой. И объясняется она математическими уравнениями, использованными Шенноном.
Почему? Дело в том, что формула, которую Шеннон вывел для оценки среднего количества битов, необходимого для шифрования единицы информации, почти идентична формуле Людвига Больцмана и Джозайи Уилларда Гиббса для расчета энтропии в термодинамике.
Вот уравнение Шеннона для определения размера любой заданной единицы информации:
H = —Σi pi logb pi
А вот один из способов представления уравнения Больцмана для расчета энтропии любой определенной системы:
S = —kB Σi pi ln pi
Два этих уравнения не просто выглядят похоже — они, по сути, одинаковы.
Вскоре после вывода своей формулы Шеннон указал на сходство Джону фон Нейману, который в то время считался лучшим математиком в мире. Фон Нейман пожал плечами и предложил Шеннону назвать свою меру числа битов, необходимого для передачи единицы информации, информационной энтропией, сославшись на то, что природу термодинамической энтропии тоже никто в полной мере не понимал.
Сходство объясняется тем, что Шеннон думал о такой системе коммуникации, как письменный английский язык, подобно тому как Больцман рассуждал о газе.
Вспомним пример с воздухом на кухне. Если теплота концентрируется в горячих зонах — например, в духовке, — то молекулы там в среднем обладают большей энергией, чем молекулы в остальной части комнаты. Но способов достичь такого распределения энергии гораздо меньше, чем способов распространить энергию по комнате. Следовательно, если открыть дверцу духовки, то теплота со временем рассеется.
Шеннон руководствовался сходной логикой.
Самое длинное слово в нетехническом английском языке — antidisestablishmentarianism (“движение за неотделение церкви от государства”). В нем 28 букв.
Представьте большой круг, пропорциональный по размеру всем бессмысленным буквенным комбинациям, начиная с последовательностей из одной буквы и заканчивая последовательностями из 28 букв. Это эквивалент кухни, где рассеивается теплота.
Рядом с большим кругом находится гораздо более маленький круг, площадь которого пропорциональна количеству реально существующих английских слов. Это эквивалент кухни с горячей зоной.
Чтобы точно передать сообщение на английском языке, ни отправитель, ни получатель не должны выходить за пределы малого круга. Помехи или шум вытолкнут сообщение в большой круг со случайными буквенными последовательностями. Это сродни тому, как теплота рассеивается из горячей зоны, например из духовки, способствуя переходу от маловероятных к более вероятным формам распределения энергии.
Для того чтобы сообщение не искажалось, необходимо принять меры, подобно тому как меры принимаются для противодействия рассеянию теплоты. Во втором случае мы используем изоляционные материалы. В первом — аналогичную технику, которую Шеннон назвал избыточностью. Существуют буквы и слова, которые сами по себе не имеют значения и используются для защиты значения от превращения в шум.
Возьмем такой пример, основанный на одном из примеров Шеннона:
MST PPL HV LTL DFCLTY RDNG THS SNTNC[26]
Оно на двадцать букв короче “верной” орфографии, но значение его от этого не умаляется. По оценке Шеннона, он мог восстановить значение примерно 70 % любого текста, случайным образом удалив из него 50 % букв.
В устной речи также много избыточности. Без таких артиклей, как the и а, часто можно обойтись. В контексте некоторые слова становятся ненужными. Услышав фразу “ураган причинил большой… ”, вы, вероятно, догадаетесь, что следующим словом будет “ущерб”. Влюбленные часто завершают фразы друг друга, потому что знают контекст речи собеседника. При разговоре с незнакомцами, напротив, приходится использовать более длинные фразы, чтобы компенсировать недостаток общего контекста. Любопытно, что человеческие языки, похоже, содержат избыточность в письме и речи, поскольку отдельные фрагменты сообщения легко могут потеряться — например, при разговоре на шумном рынке или попытке общаться с детьми и взрослыми, которые только начали учить новый язык. Мы делаем паузы и прибегаем к повторениям, чтобы сберечь значение слов.
Мы все инстинктивно это понимаем. Мы повышаем и понижаем избыточность своих сообщений в зависимости от числа помех, подобно тому как мы добавляем и убираем дополнительные слои одежды в зависимости от температуры на улице. Отправляя текстовое сообщение, мы уверены, что буквы будут переданы без потерь, а адресат поймет контекст. Это свободный от шумов канал связи, а потому мы убираем множество избыточных букв, например, печатая: “С и Itr at pb”[27].
Порой мы, напротив, добавляем избыточности, страдая от помех на телефонной линии: “МОЯ… ФАМИЛИЯ… ПЕТРОВ. П — Павел, Е — Егор, Т — Тимофей, Р — Роман, О — Олег, В — Владимир”.
Лингвистическая избыточность не позволяет передаваемым идеям превратиться в шум. Подобно тому как часть теплоты теряется при переходе из горячей зоны в холодную, производя работу, часть слов и букв теряется или искажается при передаче сообщения.
Именно знания об информационной энтропии и избыточности позволяют нам строить информационные сети.
Взять, например, такие сервисы, как YouTube и Netflix, которые хранят и распространяют огромные файлы с видеоинформацией. Эти компании сокращают количество битов в таких файлах, чтобы их итоговое число было как можно ближе к их информационной энтропии. Такой процесс называется сжатием, и без него файлы были бы слишком велики для наших сетей. Затем компании, обслуживающие сети, добавляют в сжатые файлы цифровую избыточность, чтобы защитить информацию от шума. Такие дополнительные биты выполняют в изощренной электронной среде такую же функцию, как произнесение слова по буквам с целью обеспечить четкость передачи информации сквозь помехи на телефонной линии.
Информация теряется не только при преодолении расстояний. Значимая информация, как правило, искажается и со временем. Люди давно это поняли. Чернила выцветают, бумага желтеет и рвется, а надписи на глине и камнях подвергаются эрозии. Мы боролись с этим с помощью стойких чернил и прочного пергамента, но даже они гибли при пожарах в библиотеках. Тогда мы стали добавлять избыточность, создавая множество копий текстов, которые считаем важными, и часто даже воспроизводя написанное на разных языках. Авторы Розеттского камня добавили избыточности, написав одно и то же послание на трех языках, и тем самым продемонстрировали, что такая стратегия позволяет передать сообщение на две тысячи лет в будущее. Письменные языки сами по себе представляют пример избыточности, необходимой для долгосрочной защиты информации. Они не добавляют смысла устной речи, а существуют для того, чтобы охранять значение слов на протяжении долгого времени после того, как мозг, родивший их, обратится в прах.