Шрифт:
Интервал:
Закладка:
Присмотримся к фрагменту абзаца со страницы, которую компьютер счел наиболее «готической» во всем корпусе, включающем 250 романов:
Он шел по шатким плитам через двор, пока не достиг арки; здесь он остановился, ибо ему снова стало страшно. Однако, набравшись храбрости, он пошел дальше, все еще пытаясь следовать за той фигурой, и внезапно оказался в разрушенном зале, вид которого был более диким и пустынным, чем все увиденное им до сих пор. Охваченный непреодолимым ужасом, он направился обратно, но услышал ослабший измученный голос. Сердце замерло при этом звуке, его бросило в дрожь, и он был совершенно не в силах сойти с места. Звук, похожий на предсмертный стон, повторился…
У меня ползут мурашки по спине, и на то есть две причины. Во-первых, вся эта жуткая готика: разрушенные арки и предсмертные стоны. Во-вторых, жутковато, что компьютер распознал готическую атмосферу, даже не обратив внимания на слова «арка», «разрушенный» или «предсмертный стон». Он выделил этот отрывок на основе употребления местоимений, вспомогательных слов и глагольных конструкций.
Я нервничаю. Что такого знает алгоритм, чего не знаю я?
К моему облегчению, авторы высказали предположительный ответ. Нет ни одного элемента, позволяющего определить автора или жанр, ни одной уникальной черты, из которой следуют все остальные. Скорее проза имеет много отличительных черт, от галактической структуры романа до молекулярной структуры слогов. Статистические тенденции и глубокий смысл могут сосуществовать, живя бок о бок в одной и той же последовательности слов.
Большую часть времени я читаю ради архитектуры текста. Сюжет, тема, персонаж. Это высокоуровневая структура: аспекты, которые видны любому прохожему, но непроницаемы для статистики.
Если я присмотрюсь, то увижу кирпичную кладку. Клаузулы, конструкции предложений, оформление абзаца. Это микроуровневая структура, тщательно исследовать которую меня учили школьные учителя английского. Компьютер может научиться делать то же самое.
Есть и скрытая от глаз наноструктура: известь. Местоимения, предлоги, неопределенные артикли. Это строительный раствор, который скрепляет все вместе; он не заметен невооруженным глазом, но идеально подходит для химического статистического анализа.
Я знаю, что это всего лишь метафора, но призрак в моей голове говорит на языке метафор. Я воодушевленно подсчитал частоту употребления наречий в первой главе этой книги («Думать как математик»). Получилось 11 наречий на 1000 слов — почти как у Вирджинии Вулф, что я воспринял как благое знамение. Затем, не в силах удержаться, я убрал несколько наречий, пока их частота не снизилась до 8 на 1000 слов. Это уровень Хемингуэя и Тони Моррисона.
Я жульничал, и это было здорово.
Могут ли новые статистические методы гармонично сочетаться со старыми, более насыщенными, более человечными способами понимания языка? Да, теоретически.
Сила одного шага
Люди с шагомером неплохо знают, сколько шагов совершают за день: 3000 в ленивый день, 12 000 — в активный день, 40 000, если весь день убегают от неторопливого медведя. (Вероятно, всего четыре или пять, если убегают от достаточно проворного.)
Этот способ подсчета затушевывает всем нам известную истину: не все шаги равноценны.
Математики различают два вида переменных. Непрерывные переменные могут изменяться на сколь угодно малую величину. Я могу выпить литр диетической газировки, или два литра, или любой другой разъедающий зубы объем в этих пределах. Небоскреб может вознестись на 300 м, или на 300,1, или на 300,0298517. Между любыми двумя значениями, вне зависимости от того, насколько близко они расположены друг к другу, всегда можно втиснуть промежуточное.
Напротив, дискретные переменные передвигаются скачками. У вас может быть один брат или двое, но не 1,25. Карандаш в магазине может стоить 50 центов или 51, но не 50,43871 цента[216]. Между соседними значениями дискретной переменной ничего нельзя втиснуть.
Жизнь — это курьезная смесь непрерывных и дискретных величин. Объем мороженого — непрерывная величина (и удовольствие оно приносит непрерывное), и все же оно подается в дискретных рожках. Качество собеседований при приеме на работу меняется непрерывно, и все же на каждое рассмотренное резюме поступает дискретное число предложений о работе (ноль или один). Скорость автомобилей непрерывна; ограничение скорости — конкретный дискретный порог.
Процесс преобразования может развить крошечные приращения до огромных изменений. Небольшое ускорение чревато штрафом за превышение скорости. Не вовремя — на собеседовании — начавшаяся икота может стоить вам работы. Желание заказать просто чуть-чуть больше мороженого вынуждает вас не по своей вине заказать бадью на 18 ложек под названием The BellyBluster.