Шрифт:
Интервал:
Закладка:
Под журналистикой данных также понимается анализ алгоритмической ответственности – небольшая профессиональная область, к которой я принадлежу. Алгоритмы и иные вычислительные инструменты используются в том числе для принятия решений – от нашего имени. Алгоритмы определяют стоимость степлера, которую вы видите во время онлайн-шопинга; они подсчитывают, сколько вы будете платить за медицинскую страховку. Алгоритм фильтрует ваши данные на предмет того, человек вы или бот, при подаче резюме через платформу поиска работы. Дело в том, что в рамках демократии целью свободной прессы является привлечение к ответственности тех, кто принимает решения. Аналитика алгоритмической ответственности как раз занимается этим в цифровом мире.
История под названием «Предвзятость машины» (Machine Bias), опубликованная в 2016 г. некоммерческой организацией ProPublica, – выдающийся пример анализа алгоритмической ответственности[19]. Журналисты ProPublica обнаружили, что алгоритм, используемый при вынесении судебного приговора, был настроен против афроамериканцев. Информация, собранная во время полицейского допроса, заносилась в компьютер. Затем алгоритм COMPAS анализировал данные и прогнозировал вероятность того, что человек вновь совершит правонарушение. Предполагалось, что подсчет поможет судьям принимать более объективные решения. В результате получилось, что афроамериканцы получали более долгие сроки, нежели белые.
Несложно заметить, насколько техношовинизм ослепил разработчиков COMPAS и не позволил им увидеть вред, который алгоритм может нанести. Вера в то, что решения, принятые компьютером, лучше или честнее, чем человеческие решения, приводит к тому, что нас перестает интересовать релевантность данных, представляемых системе. «Что посеешь, то и пожнешь» – легко об этом забыть, особенно если вы действительно хотите, чтобы компьютер оказался корректен. По-настоящему важно задумываться над тем, делают ли алгоритмы и их создатели мир лучше или хуже.
Данные используются в журналистике дольше, чем думает большинство людей. Первое журналистское расследование, основанное на сборе данных, появилось в 1967 г. При помощи методов социальных исследований и вычислительной машины Филип Мейер анализировал волнения на расовой почве в Детройте для Detroit Free Press. «Среди штатных журналистов бытовала теория, согласно которой бунтари всегда были наиболее ущемленными, беспомощными, находясь в самом низу экономической лестницы. Считалось, что они бунтуют потому, что у них нет иных способов для продвижения или выражения своей позиции, – писал Мейер. – Теория не подтверждалась данными»[20]. Он провел масштабный опрос и статистический анализ результатов при помощи вычислительной машины. Оказалось, что участники беспорядков принадлежали к разным социальным слоям. Эта история принесла ему Пулитцеровскую премию. Применение методов социальных исследований в журналистике Мейер тогда назвал точным репортерством.
Позднее, когда настольные компьютеры наводнили редакции, для отслеживания данных и поиска историй репортеры стали использовать электронные таблицы и базы данных. Точное репортерство превратилось в компьютеризированную журналистику. Компьютеризированная журналистика – это тип журналистского расследования, который вы могли наблюдать в фильме «В центре внимания» (Spotlight). Сюжет строится вокруг расследования журналистов Boston Globe (получившего Пулитцеровскую премию) о сексуальном насилии над детьми среди католических священников и о тех, кто это покрывал. Журналистам нужны были электронные таблицы и базы данных, чтобы следить за сотнями случаев, сотнями священников и их приходами. Для 2002 г. подобная журналистская практика считалась ультрасовременной.
По мере того как развивался интернет и появлялись новые цифровые инструменты, компьютеризированная журналистика превратилась в то, что мы сегодня называем журналистикой данных, которая (среди прочего) включает визуальную журналистику, вычислительную журналистику, картирование, аналитику данных, разработку ботов и анализ алгоритмической ответственности. Однако дата-журналисты в первую очередь журналисты. Для нас данные – это источник, и, чтобы рассказывать истории, мы используем ряд цифровых инструментов и платформ. Иной раз истории касаются последних новостей; время от времени они развлекательные; порой это запутанное расследования. Но они всегда информативны.
Организация ProPublica, появившаяся в 2008 г., и Guardian долгое время являются лидерами в области журналистики данных[21]. ProPublica была основана на благотворительных началах ветераном The Wall Street Journal Полом Стайгером, однако достаточно быстро завоевала репутацию расследовательского локомотива. У самого Стайгера за плечами был колоссальный опыт расследовательской журналистики: с 1997 по 2007 г. он был главным редактором в The Wall Street Journal, за это время команда журнала 16 раз получала Пулитцеровскую премию. Свою первую награду команда ProPublica получила в мае 2010 г. А в 2011 г. они получили премию за материал, опубликованный исключительно онлайн.
Многие истории, получившие эту награду, были созданы людьми, среди которых был дата-журналист или хотя бы тот, кто себя таковым считает. В сентябре 2006 г. журналист и программист Адриан Головатый, создатель фреймворка Django (которым пользовались многие редакции), опубликовал онлайн-статью «Основной путь необходимой трансформации для сайтов новостных изданий» (A Fundamental Way Newspaper Sites Need to Change)[22]. Он настаивал на том, что редакциям необходимо перешагнуть традиционную модель создания статей и начать внедрять практику структурирования данных в инструментарий журналистов. Его манифест привел к тому, что вместе с Биллом Эдейром, Мэттом Уэйтом и их командой он создал фактчекинговый сайт PolitiFact, также награжденный Пулитцеровской премией в 2009 г. Во время запуска проекта Уэйт писал: «Сайт представляет собой концепт простой старой газеты, переделанной для интернета. Мы взяли за основу политическую историю “отряда правды”, когда репортер, анализируя рекламную кампанию или агитационную речь, сначала проверяет все факты и только потом пишет историю. Мы взяли этот концепт, разделили на основные части и превратили в сайт, работающий на основе данных и посвященный периоду президентских выборов 2008 г.»[23].
На этом Головатый не остановился и создал Every Block – первое новостное приложение, в котором были представлены данные о преступлениях c геолокациями. Именно там впервые использовался интерфейс Google Maps, что привело к тому, что API стал доступен рядовым пользователям[24].