Шрифт:
Интервал:
Закладка:
Похоже, программа «Под волшебным соусом» тоже использует такого рода подсказки. Когда математик Кэти О’Нил опробовала этот алгоритм на текстах мужчин о моде, они определились как женские на 99 %. А тексты женщин о математике оказались якобы на 99 % мужскими. Три текста самой О’Нил оказались мужскими на 99 %, 94 % и 99 %. «Моя выборка мала, — пишет она, — но я готова поспорить: эта модель основана на том стереотипе, что можно определить пол автора по выбранной им теме»[211].
Несмотря на то что эти алгоритмы неточны, у меня по-прежнему холодок бежит по коже. Похоже, маскулинность настолько пронизала мои мысли, что алгоритм может выявить мой пол двумя независимыми путями: определив, насколько часто я использую те или иные местоимения или насколько нежно я привязан к Евклиду.
Я отдаю себе отчет, что в некотором роде все это оправдывает мнение Вирджинии Вулф[212]. Она видела, что мужчины и женщины живут в разных мирах, и верила: борьба за то, чтобы дать голос женщинам, должна начаться на всех уровнях, вплоть до построения фразы. Грубая статистика подтверждает эту точку зрения: женщины пишут иначе, чем мужчины, и выбирают другие темы. И все же я немного удручен. Если тексты Вирджинии Вулф свидетельствуют о ее женственности, то мне нравится думать, что это связано с ее мудростью и чувством юмора, а не с низкой плотностью определителей при существительных. Когда Вирджиния Вулф разграничивает мужскую и женскую прозу, возникает ощущение, что ты обратился к проверенному врачу. Когда то же самое проделывает алгоритм, кажется, что тебя обыскивают в аэропорту.
«Записки федералиста», написанные в 1787 году, помогли задать американскую форму правления. Они полны политической мудрости, изощренной аргументации и неустаревающих афоризмов («зрелище смут и раздоров» — вы оценили?). Это могло бы стать убойной строчкой в резюме, но есть одна загвоздка.
Авторы не подписали свои имена.
Историки смогли установить, что 43 письма написаны Александром Гамильтоном, 14 — Джеймсом Мэдисоном, пять — Джоном Джеем и еще три письма написаны в соавторстве. Однако оставалось тайной, кто авторы еще 12 писем. Гамильтон или Мэдисон? Даже два века спустя головоломка не была разгадана.
Наступили 1960-е годы, и на сцене появились два специалиста по статистике: Фредерик Мостеллер и Дэвид Уоллес[213]. Фред и Дейв осознали всю тонкость проблемы. Предложения, написанные Гамильтоном, состояли в среднем из 34,55 слов; написанные Мэдисоном — в среднем из 34,59 слов. «По некоторым параметрам, — пишут исследователи, — авторы почти что близнецы». И дальше они сделали шаг, который совершают все специалисты по статистике, когда сталкиваются с изощренной проблемой.
Они порезали «Записки федералиста» на мелкие куски[214].
Контекст? Неважен. Смысл? Уничтожен. Пока «Записки» оставались набором текстов отцов-основателей, они были бесполезны. Они должны были стать клочками бумаги, совокупностью тенденций — иными словами, набором данных.
Даже после этого большинство слов оставались бесполезными. Их частотность зависела не от автора, а от темы. Например, «война». «Когда речь шла о вооруженных силах, частота предсказуемым образом была высокой, — пишут Фред и Дэйв. — Когда речь шла о выборах — низкой». Они присвоили таким словам статус «контекстуальные» и предприняли все усилия, чтобы избавиться от них. Они были слишком осмысленными.
Их поиски лишенных смысла слов увенчались успехом, когда они взялись за предлог upon («на основании»), который Мэдисон не употреблял почти никогда, а Гамильтон при каждом удобном случае:
Вооруженные этими данными, Фред и Дейв смогли свести каждого автора к чему-то вроде колоды карт, раздающей те или иные слова с предсказуемой вероятностью. Затем, отследив частотность определенных слов в письмах с неустановленным авторством, они смогли узнать, из какой «колоды» взят каждый текст.
Метод сработал. Их вывод: «Практически наверняка эти 12 писем написаны Мэдисоном».
Полвека спустя эта технология стала стандартной. Она помогла установить авторство древнегреческой прозы, сонетов елизаветинцев и речей Рональда Рейгана. Бен Блатт применил этот алгоритм около 30 000 раз, используя 250 общеупотребительных слов, чтобы определить, кто из двух авторов написал определенную книгу. Он получил 99,4 % верных ответов.
Мой разум знает, что здесь нет подвоха. Но мои чувства бунтуют. Как можно понять книгу, измельчив ее на биты?
В 2011 году команда авторов из Лаборатории литературоведения Стэнфорда совершила ловкий кульбит: они идентифицировали уже не авторов, а жанры[215]. Они использовали два метода: анализ частотности употребления слов и более изощренный анализ на уровне предложений (под названием «Докускоп»). К их удивлению, оба метода позволили точно определять жанры текстов.