Шрифт:
Интервал:
Закладка:
То же самое верно и в бизнесе. В Warby Parker мы используем электронные устройства для подсчета количества посетителей, вошедших и вышедших из наших розничных магазинов. Одно из возможных применений этих данных — для вычисления показателя конверсии торговой точки, то есть количества посетителей, зашедших в магазин и совершивших какую-нибудь покупку. В одном из таких магазинов персонал может попасть на склад с товаром и вернуться в торговый зал только через главный вход: эти передвижения точно так же считались электронными приборами, из-за чего показатель конверсии получался заниженным. Мы постарались исправить ситуацию, разработав статистическую модель, которая для конкретного дня недели и конкретного уровня занятости оценивала соотношение трафика персонала и посетителей магазина в качестве корректирующего фактора. В результате показатель конверсии стал гораздо более реалистичным. Следует учесть, что подобные модели могут терять свою актуальность при изменении внешних условий, например покупатели могут быть более мотивированы совершать покупки по выходным. Нужно либо периодически перенастраивать модель, либо, как мы пробуем делать сейчас, использовать более совершенные технологии, способные отличить персонал от посетителей и не включать сотрудников при подсчете трафика.
ТОЧНОСТЬ
Показатели должны отличаться точностью. Это означает, что при повторении эксперимента в тех же самых условиях значения должны получаться такими же. По аналогии со стрельбой это можно назвать кучностью: все попадания в мишень должны быть рядом на ограниченной площади. Один из инструментов, или рычагов, для контроля точности — размер выборки. Чем больше выборка, тем меньше стандартная ошибка. Однако эта взаимосвязь не линейная. Так как стандартная ошибка среднего значения равна стандартному отклонению, деленному на квадратный корень размера выборки, чтобы уменьшить стандартную ошибку в два раза, нужно в четыре раза увеличить размер выборки.
Сочетание достоверности (меткости попадания в мишень) и точности (кучности стрельбы) показано на рис. 6.1. Если у вас нет подтвержденной справочной информации, вы можете не понять, что ваши показатели недостоверны. Однако вы, скорее всего, рано или поздно поймете, если ваши показатели не отличаются точностью (нестабильны).
Вывод: стремитесь к достоверности и точности показателей и учитывайте издержки и преимущества крупных выборок.
ОТНОСИТЕЛЬНЫЕ ИЛИ АБСОЛЮТНЫЕ ПОКАЗАТЕЛИ
Очень важное решение — относительные или абсолютные показатели следует применять. Этот выбор определяет разработку показателей, которые при одном сценарии показывают очень разные картины.
Представьте, что в какой-то компании ведется классификация клиентов и 25 % от общего количества относятся к категории VIP (например, они приобрели продукцию компании на сумму больше 1 тыс. долл.). Через полгода у этой компании только 17 % VIP-клиентов. Черт, что случилось? Они что, ушли? Как все исправить?
Предположим, что в этот период усилия компании были сосредоточены на привлечении новых клиентов. Тогда, вероятно, общее количество клиентов увеличилось (показано оранжевым на рис. 6.2), а количество VIP-клиентов могло остаться тем же, при этом их пропорция уменьшилась. Фактически вполне возможно даже, что количество VIP-клиентов тоже увеличилось, но при этом пропорция стала ниже.
Рис. 6.2. У компании 25 % VIP-клиентов. В верхнем сценарии компания сосредоточила усилия на привлечении новых клиентов (показано оранжевым). Это привело к увеличению общего количества клиентов, количество VIP-клиентов осталось прежним, но пропорция уменьшилась. В нижнем сценарии компания сосредоточила усилия на работе с текущими клиентами. Пропорция и количество VIP-клиентов стали выше, но общего увеличения клиентской базы не произошло
И наоборот, предположим, что через полгода мы наблюдаем значительное увеличение количества VIP-клиентов и их пропорции. Это может отражать здоровый рост клиентской базы, но, с другой стороны, роста клиентской базы может и не быть, если усилия компании были сосредоточены исключительно на возвращении покупателей и увеличении количества повторных покупок (рис. 6.2, внизу). (Для многих компаний второй сценарий с увеличением количества повторных покупок более предпочтителен по сравнению с увеличением клиентской базы, так как стоимость привлечения новых клиентов, как правило, слишком высока.)
Как видите, выбор между применением абсолютных (количество VIP-клиентов) или относительных (их пропорция) показателей может привести к очень разным интерпретациям.
Вывод: тщательно взвесьте, что вы хотите узнать, и выберите абсолютный или относительный показатель, который будет адекватно отображать нужные вам изменения.
РОБАСТНОСТЬ
Определяйте статистически робастные[93] показатели, то есть те, что относительно нечувствительны к отдельным резко отличающимся значениям.
Рассмотрим следующий пример из San Francisco Chronicle:
Средняя заработная плата специалистов технического профиля в центральной части полуострова Сан-Франциско (округ Сан-Матео) в прошлом году составила 291 497 долл. Возможное объяснение отклонения: глава компании Facebook Марк Цукерберг получил всего один доллар в качестве зарплаты, но заработал 3,3 млрд долл. на опционах на покупку акций в 2013 году. Если вычесть 3,3 млрд долл. из общей суммы, то среднее значение получится примерно 210 тыс. долл.[94]
Использовать среднее значение в данном случае не следует, учитывая высокую степень позитивной асимметрии в данных по заработной плате. Среднее значение получается существенно завышенным (более чем на 35 %) из-за одной резко отличающейся переменной. В данном случае гораздо рациональнее выбрать показатель медианы, так как он более устойчив к резко отличающимся значениям и лучше отражает средние данные.
Стоит отметить, что в некоторых случаях могут понадобиться показатели, которые особенно чувствительны к пограничным значениям. Пиковая нагрузка на веб-сайт должна охватывать редкие максимальные значения, которые должны быть включены в диапазон. Оценить или визуализировать робастность можно с помощью повторной выборки. Возьмите набор данных и вычислите показатель. Повторите расчеты несколько раз, заменяя набор данных; получив ряд значений показателя, составьте их распределение. Насколько это распределение отличается от того, что вы ожидали или хотели бы увидеть?