Шрифт:

Интервал:

Закладка:

Сделать

1 ... 64 65 66 67 68 69 70 71 72 ... 87

Перейти на страницу:

Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность

В каком романе Фрэнсиса Скотта Фицджеральда реже всего встречаются наречия? «Великий Гэтсби». А у Тони Моррисон? «Возлюбленная». Как насчет Чарльза Диккенса? «Повесть о двух городах», на втором месте «Большие надежды». Разумеется, есть исключения (Набоков чаще всего употребляет наречия в «Лолите», а эта его книга снискала, пожалуй, наибольшее признание), но тенденция ясна. Чем реже встречаются наречия, тем яснее и сильнее проза. Высокая частотность наречий свойственна рыхлым текстам второго эшелона.

Мне вспоминается, как однажды в колледже мой сосед по комнате Нилеш с улыбкой заметил: «Знаешь, что мне по душе? Ты очень часто говоришь „теоретически“. Это одно из твоих фирменных словечек».

Я оцепенел. Я задумался. И в тот момент слово «теоретически» исчезло из моего лексикона.

Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность

Нилеш оплакивал эту потерю месяцами, а я боролся с чувством вины за то, что предал сразу двух друзей: и слово, и соседа. Я ничего не мог с собой поделать. Призрак в моем мозгу, превращающий смыслы в слова, действует инстинктивно и расцветает в тени. Привлечение внимания к определенному слову отпугнуло призрака. Он пошел на попятную.

Когда я ознакомился со статистикой Блатта, ситуация повторилась. С тех пор я стал параноидально избегать наречий, превратился в неутомимого беглеца, опасаясь, что наречия проникнут в мою прозу, словно пауки залезут в рот, пока я сплю. Я признаю, что это ходульный, неестественный подход к языку, не говоря уже о том, что это наивный подход к статистике: корреляция еще не означает причинно-следственной связи. Но я ничего не могу с собой поделать. Таковы посулы и опасности цифровых гуманитарных наук, таковы они все до мозга костей (кстати, думаем-то мы другим мозгом, головным). Если рассматривать литературу всего лишь как наборы слов, то она, безусловно, содержит огромный массив данных. Но наборы слов — это еще не литература. Статистика устраняет контекст. Ее анализ начинается с уничтожения смысла. Будучи поклонником статистики, я доверяю ей. Будучи любителем книг, я содрогаюсь. Возможен ли компромисс между роскошью литературы и ледяной аналитической силой статистики? Или, как я часто опасаюсь, они прирожденные враги?

2. Да здравствуют статистики, борцы за демократию!

В 2010 году 14 ученых (под руководством Жан-Батиста Мишеля и Эреза Либермана Эйдена) опубликовали статью под названием «Количественный анализ культуры на основе миллионов оцифрованных книг»[202], вошедшую в горячую десятку поисковой выдачи. Всякий раз, прочитывая первую фразу этой статьи, я не могу удержаться от возгласа: «Че-е-е-е-ерт!» Она начинается так: «Мы создали корпус оцифрованных текстов, включающий около 4 % всех когда-либо опубликованных книг».

Че-е-е-е-ерт!

Как и все статистические проекты, это исследование потребовало кардинального упрощения. Первый шаг авторов заключался в том, что они разъяли весь набор данных (пять миллионов книг, около 500 миллиардов слов) на так называемые 1-граммы. Они поясняют этот термин: «`1-грамма` — это набор символов, не прерываемых пробелом: слова („банан“, „скуби-дайвинг“), но, кроме того, числа (3,14 159) и опечатки („чересчурр“)».

Предложения, абзацы, тезисы — все это исчезает. Остаются лишь мельчайшие фрагменты текста.

Дабы исследовать данные глубже, авторы составили перечень 1-грамм, встречающихся с частотой не менее чем один раз на миллиард. Если оценить начало, середину и конец XX столетия, мы увидим, что словарный запас англоязычных авторов растет.

Выяснилось, что реальные слова на 1900 год составили меньше половины 1-грамм (по большей части это оказались числа, опечатки, аббревиатуры и т. д.), в то время как на 2000 год больше двух третей 1-грамм были именно слова. Проведя ручной подсчет в избранных фрагментах корпуса, авторы установили общее количество английских слов на каждый год.

Затем, сопоставив массив 1-грамм с двумя популярными толковыми словарями, они обнаружили, что лексикографы с трудом успевают следить за разрастанием массива слов и держать руку на пульсе. В частности, словари упускают большую часть редких 1-грамм.

В тех текстах, которые читаю я, эти слова, не входящие в словари, почти не встречаются. Причина в том, что эти слова… ну… исключительные. Язык заселен тьмой никому не известных конструктов, встречающихся с частотой один раз на сто миллионов. В целом, по оценке авторов, «52 % всего английского лексикона (большинство слов, встречающихся в англоязычных книгах) состоят из лексической „темной материи“, упущенной в стандартных словарных статьях». Лексикографы просеивают тысячи тонн словесной руды, пропуская драгоценные камни наподобие «slenthem» (яванский металлофон).

Изучение лексикона было всего лишь разминкой для этих исследователей. Авторы продолжили изучать эволюцию грамматики, перепады популярности словоупотребления, признаки цензуры и переменчивые закономерности исторической памяти. Все это изложено лишь на дюжине страниц; в основном в статье представлены результаты отслеживания частотности тщательно выбранных 1-грамм.

1 ... 64 65 66 67 68 69 70 71 72 ... 87

Перейти на страницу:

Время переменных. Математический анализ в безумном мире - Бен Орлин

2021
Домашняя

Super Mario. Как Nintendo покорила мир - Джефф Райан

2021
Разная литература

Большой роман о математике. История мира через призму математики - Микаэль Лонэ

2021
Домашняя

ПРАВДА. Как политики, корпорации и медиа формируют нашу реальность, выставляя факты в выгодном свете - Гектор Макдональд

2021
Домашняя

Путеводитель для влюблённых в математику - Эдвард Шейнерман

2021
Домашняя

Комментарии

Минимальная длина комментария - 20 знаков. Уважайте себя и других!

Комментариев еще нет. Хотите быть первым?

Смотрите также:

Время переменных. Математический анализ в безумном мире - Бен Орлин

Super Mario. Как Nintendo покорила мир - Джефф Райан

Большой роман о математике. История мира через призму математики - Микаэль Лонэ

ПРАВДА. Как политики, корпорации и медиа формируют нашу реальность, выставляя факты в выгодном свете - Гектор Макдональд

Путеводитель для влюблённых в математику - Эдвард Шейнерман