Шрифт:
Интервал:
Закладка:
Всякий раз следует задаваться вопросом – кто именно входит в выборку и насколько нас интересует именно эта выборка. В демографии чаще всего состав когорты определяется либо признаком (например, полом) человека, либо поколением, к которому он относится.
Поэтому демографы выражаются аккуратно. Например, так[63]: Вообще, героизация революции снижается от поколения нынешних пенсионеров к более молодым возрастным когортам. Молодежь 18–24 лет здесь является исключением – скорее всего, в связи с тем, что в памяти еще остался школьный материал.
Обратите внимание, вполне может оказаться, что люди какого-то определенного возраста героизируют революцию больше, чем пенсионеры. Отдельные личности среди пенсионеров, возможно, вовсе не любят революцию. Но разбиение на когорты позволяет увидеть общую картинку с нужной степенью точности.
Когортный анализ так удобен, что давно охватывает не только демографию. Например, если вам придется изучать, как читают материалы вашего отдела или издания, следует разбить посетителей по источникам. Вы увидите, что пользователи из социальных сетей ведут себя совершенно по-другому, чем заходящие напрямую или через поисковик. При этом когорты со «средним» поведением не окажется вовсе.
Умение понять, данные по каким когортам вам нужны – это тонкое ремесло. Правильно проинтерпретировать данные по группам – искусство.
В новостях редко встречается слово «перцентиль» (оно же «персентиль», оно же «процентиль»[64]). Зато оно частый гость в аналитических докладах, которые новостникам приходится читать и пересказывать понятными словами.
Перцентилью или процентилью называют меру, в которой процентное значение общих значений равно этой мере или меньше ее. Если вам неуютно от этого определения, представьте, что мы измерили рост 5000 человек. Мы выяснили, что 90 % результатов меньше или равны определенной величине, например, 185 сантиметрам. Тогда говорят, что девяностая перцентиль равна 185 сантиметрам. Это позволяет понять, как на самом деле распределяются результаты в выборке.
Например, если на избирательные участки согласно отчету еще до обеда пришло 75 % граждан, это может свидетельствовать о вбросах. Но аналитики данных будут оперировать не такими простыми словами, а статистическими терминами.
В матстатистике не обязательно используются перцентили. Общий термин – квантиль, то есть значение, которое величина не превышает с фиксированной вероятностью. Вероятность колеблется от 0 до 1. Если мы хотим сказать, что 90 % результатов измерений роста не превышают 185 сантиметров, то по-умному это звучит так: 0,9-квантиль равна 185 сантиметрам.
Отсюда рукой подать до уже знакомой нам медианы. Это так называемая 0,5-квантиль, то есть значение, не превышающее половины величин (например, из 5000 значений роста).
Перевели дух? Тогда следует добавить, что часто статистикам интересно разбить значения на четверти и посмотреть, что творится в нижней, двух средних и последней. Их называют квартилями (от quarta, четверть).
Первая квартиль охватывает значения, помещающиеся в 0,25-квантиль. Вторая квартиль – это та же медиана, 0,5-квантиль. Третья или верхняя квартиль – это 0,75-квантиль. Ну а четвертую упоминать бессмысленно, так как она включает в себя все значения.
Еще раз. Если, не дай бог, вам придется читать отчет, где говорится о перцентилях и квартилях, вы можете легко перевести их в проценты выборки. Но, пожалуйста, не надо употреблять эти термины в собственных текстах. Опыт показывает, что обычный читатель и даже многие журналисты нетвердо ориентируются в обычных процентах, не то что статистике.
Часто говорят, что такие термины встречаются слишком редко, но это не так. Перцентиль и квартиль регулярно попадаются в релизах об исследованиях IQ, описаниях развивающих приложений, отчетах о выборах и статьях об имущественном неравенстве.
Кроме того, это мощные инструменты популяризации. Теперь таблица, где написано, что IQ 125 соответствует 95,2-перцентили, менее загадочна и несет важный смысл. Вы легко сможете написать, что люди с IQ выше 125 встречаются реже чем в 5 % случаев.
Имея дело с валютами, старайтесь четко понимать, что именно вы считаете, и какие коды валют соответствовали тому времени, о котором вы пишете. Это особенно важно при изучении договоров и не менее важно при работе с валютными конвертерами.
Характерный пример: если вы попросите Google перевести доллар США в рубли, то сделать это легко, написав запрос 1 USD in RUR. Вы увидите текущий курс, но здесь и прячется ошибка – Россия не использует код RUR с 1997 года. Google тихонько заменит его на текущий RUB, но другие конвертеры могут оказаться не такими умными.
Для справки: советские рубли в международной системе имели код SUR и в 1992 году их заменили на RUR по курсу один к одному. В 1997 году произошла деноминация, из рублевых сумм исчезли три нуля. Новая деноминированная единица получила международное название RUB. 1 RUB = 1000 RUR.
Пока все легко, так как вы можете помнить деноминацию, да и сама она была больше 20 лет назад.
Но вот республика Беларусь провела деноминацию сравнительно недавно, причем это уже вторая (а то и третья – как считать) деноминация за историю республики. Сначала там были расчетные билеты Национального банка, но сохранялись цены в советских рублях.
В 1994 году прошла деноминация, в результате которой стала использоваться валюта с кодом BYB. В 2000 году прошла еще одна деноминация, в результате которой перешли на BYR (знаменитый отсутствием копеек), а в 2016 году деноминировали BYR в 10000 раз и ввели текущую валюту – BYN. Все это белорусские рубли, но какие же они разные! На момент написания этой книги BYN, например, стоит полдоллара.
Журналист всегда должен подозревать ловушку, когда работает с незнакомыми валютами или деньгами, истории которых он не знает.
Еще в нулевых слово «типографика» бродило между дизайнерами и верстальщиками, практически не заглядывая в редакцию. Самой близкой к этой тематике дискуссией интернет-журналистов было обсуждение буквы «ё» и её права на существование.
С тех пор многое поменялось. Интернет-издания по качеству догнали, а местами и обогнали печатные. Пользователи предъявили к оформлению текстов требования, которых не могли предъявлять ранее. Распространились системы автоматической постановки правильных тире, кавычек и прочих символов. Небольшой экран мобильника заставил обратить особое внимание на выравнивание, правила переноса, неразрывные пробелы и прочие хитрости, знакомые верстальщикам.