Шрифт:
Интервал:
Закладка:
Это не так-то просто. Данные никогда не бывают настолько чистыми, как вам кажется. Они могут быть предвзятыми, что может повлиять на результат анализа, а очистка данных может стать трудоемким и дорогим процессом, требующим времени. Часто приходится слышать, что специалисты по работе с данными до 80 % времени тратят на их сбор, очистку и подготовку и только 20 % — на построение моделей, процесс анализа, визуализацию и формулировку заключений на основе этих данных[5]. Как показывает опыт, это вполне вероятно.
В следующей главе мы поговорим о качестве данных подробнее.
Даже если у вас есть действительно качественные данные и даже если у вас много качественных данных, это означает только то, что вы обладаете этими данными, но не то, что в вашей компании действует управление на основе данных. Некоторые люди, особенно специалисты организаций, предоставляющих услуги по работе с большими данными, называют большие данные практически панацеей: если собирать абсолютно всё, где-то должен попасться алмаз (или крупинки золота, или искомая иголка, или любая другая метафора) и компания станет успешной. Горькая правда в том, что одних только данных недостаточно. Небольшое количество чистой, достоверной информации может быть гораздо более ценно, чем петабайты мусора.
Требование № 2: данные должны быть общедоступными.
Наличие точных и своевременных данных по теме еще не делает управление в вашей компании управлением на основе данных. Данные также должны отвечать еще ряду требований.
Данные могут быть объединены
Их формат должен при необходимости допускать объединение с другими данными компании. Варианты могут быть разные: реляционные базы данных, хранилища NoSQL или Hadoop. Используйте инструмент, который отвечает вашим конкретным требованиям. Например, в течение длительного времени финансовые аналитики в компании Warby Parker использовали Excel для вычисления основных показателей, которые они предоставляли высшему руководству. Они собирали огромное количество сырых данных из разных источников и запускали функцию ВПР (VLOOKUP — функцию в Excel для поиска перекрестных ссылок в данных), чтобы объединить весь массив данных и взглянуть на них в перспективе. Изначально это работало, но по мере того как базы данных по клиентам и продажам быстро росли и информации становилось все больше, объем файла в Excel начал приближаться к 300 МВ, загрузка оперативной памяти компьютеров была максимальной, а обработка файла с помощью функции ВПР начала занимать до десяти часов и больше, при этом программа периодически зависала, и ее приходилось запускать заново. Специалисты компании применяли этот инструмент и подход так долго, как могли, но если когда-то Excel была вполне удобным инструментом, то динамичный рост компании изменил ситуацию. Механика получения этих данных превратилась для аналитиков в «пожиратель времени» и источник стресса: они никогда не знали, получат ли необходимые им данные или через десять часов им вновь придется перезапускать функцию ВПР. Условно говоря, из специалистов по анализу данных они превратились в специалистов Microsoft по сбору данных. Моя команда помогла перенести весь массив информации в реляционную базу данных в MySQL. Мы написали запросы для обработки данных для аналитиков, чтобы они могли сосредоточиться на анализе, выявлении трендов и презентации этих данных, что было гораздо более эффективным использованием их рабочего времени. Теперь, когда в их распоряжении более эффективные инструменты и больше времени, они способны проводить более глубокий анализ.
Данные можно использовать совместно
Внутри организации следует развивать культуру обмена данными, чтобы была возможность их сопоставлять и объединять, например связать историю поисковых запросов пользователя и историю осуществленных им покупок. Представим ситуацию: пациента доставили в отделение экстренной медицинской помощи, где ему оказали первую помощь, а затем выписали, и теперь ему необходимо обратиться за амбулаторным лечением и провести обследования. Очевидно, что качество обслуживания и, что важнее, качество лечения пострадают, если между этими медицинскими учреждениями не будет организован обмен информацией: когда и по какой причине пациент обратился за медицинской помощью, какое лечение ему было оказано и так далее. С точки зрения представителей здравоохранения, невозможно проанализировать или улучшить процесс в отсутствие связной и четкой картины потока пациентов, процесса диагностики и полных данных наблюдения за этими пациентами за длительный срок. Таким образом, разрозненные данные всегда стараются охватить все, что возможно. Когда больший объем данных доступен для большего количества частей системы, целое всегда бывает лучше суммы частей.
Доступны по запросу
Необходимы адекватные инструменты для работы с данными и предоставления информации по запросу. В процессе анализа и составления отчетности огромный объем сырых данных необходимо отфильтровать, сгруппировать и объединить в небольшие наборы высокоуровневых показателей, чтобы обеспечить понимание того, что происходит в бизнесе. Например, мне нужно увидеть тренд или понять разницу между сегментами покупателей. У специалистов по работе с данными должны быть инструменты, позволяющие сделать это относительно просто.
(Все эти аспекты мы подробнее проанализируем в следующих главах.)
Итак, теперь у нас есть данные и доступ к ним. Достаточно ли этого? Нет, пока недостаточно. Нужны квалифицированные специалисты, которые смогут работать с этими данными. И здесь важны не только механизмы сортировки и систематизации данных, например посредством языка запросов или макросов Excel, но, главным образом, специалисты, которые будут выбирать соответствующие показатели (подробнее об этом в главе 6). К этим показателям могут относиться уровень повторной подписки (для таких сервисов, как Netflix или Wall Street Journal), долгосрочные показатели ценности или показатели роста, но в любом случае кто-то должен решать, какие именно это будут показатели, и кто-то должен создать процесс их получения.
Таким образом, человеческий фактор в управлении компанией на основе данных — важнейший: необходимы люди, способные задавать правильные вопросы, люди с необходимыми навыками для получения нужных данных и показателей, люди, использующие данные для планирования следующих шагов. Иными словами, одни лишь данные мало чем помогут компании.
Предположим, у вас есть аналитическая группа с доступом к точным данным. Эта группа получает данные по объему продаж и гордо рапортует о росте портфеля заказов компании на 5,2 % с апреля по май (рис. 1.1).
Рис. 1.1. Рост уровня продаж на 5,2 % месяц к месяцу!