Шрифт:
Интервал:
Закладка:
3. Модели способны вбирать в себя предрассудки. В то время как большинство сторонников конфиденциальности сосредоточились на вопросе сбора данных, угроза, исходящая от бездумного, плохого или дискриминационного анализа вполне может быть сильнее. Представьте себе готовящий проекты судебных решений искусственный интеллект, обученный на решениях судьи-расиста. Или модель, предназначенную для сортировки анкет кандидатов, натренированную на их оценке кадровиком, считающим женщин существами второго сорта. Опасность таких моделей не только в том, что они, подобно людям, будут обладать предрассудками, но ещё и в том, что при отсутствии должного контроля они способны тиражировать эти предрассудки в огромных масштабах.
Причины, по которым модели могут приобретать те или иные предрассудки, могут быть и не столь очевидными, как в случае приведённых выше примеров. В 2017 г. внимание общественности привлекла диссертация Джой Буоламвини, аспирантки из MIT Media Lab, под названием «Оттенки гендера: интерсекциональная фенотипическая и демографическая оценка датасетов лиц и гендерных классификаторов» (Gender Shades: Intersectional Phenotypic and Demographic Evaluation of Face Datasets and Gender Classifiers)[3181]. В своём исследовании Буоламвини использовала внушительный набор фотографий для анализа способности коммерческих библиотек (от IBM, Microsoft и Face++) распознавать лица людей в зависимости от их пола и цвета кожи. Выяснилось, что точность распознавания для женских лиц ниже, чем для мужских, а для лиц людей с более тёмными оттенками кожи ниже, чем для лиц людей с более светлой кожей. Причём проблема наблюдалась со всеми тремя библиотеками, а разрыв в точности распознавания между когортами «светлокожие мужчины» и «темнокожие женщины» составлял от 20,8 до 34,4 процентного пункта. Написанная годом позже статья Буоламвини и её коллеги Тимнит Гебру под названием «Оттенки гендера: различия в точности коммерческой гендерной классификации» (Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification)[3182] вызвала отклик у IBM и Microsoft, которые произвели доработки своего программного обеспечения.
Дефекты, подобные выявленным в исследовании Буоламвини, могут легко возникать в результате несбалансированности обучающих датасетов. Если в датасете лиц содержится недостаточное количество фотографий людей с некоторым оттенком кожи, то свёрточная нейронная сеть, обученная на этих данных, будет чаще ошибаться, встречаясь с такими же типами лиц в процессе использования. Поскольку в настоящее время активно внедряются различные сервисы на основе систем распознавания лиц (например, системы биометрической аутентификации на пользовательских устройствах, кредитоматы или системы автоматической регистрации в аэропортах), такие перекосы в работе моделей могут приводить к негативным последствиям. Более поздние исследования Буоламвини выявили наличие сходных проблем и в системах распознавания речи.
Буоламвини основала программу «Лига алгоритмической справедливости» (Algorithmic Justice League), направленную на выявление предвзятости в коде, которая может привести к дискриминации в отношении недопредставленных групп.
4. Проблема чрезмерного доверия моделям. На заре компьютерной эры люди часто не доверяли прогнозам, построенным машинами на основе применения статистических моделей. Это нередко приводило к курьёзным последствиям. Наверное, самый известный случай — это события, произошедшие в ночь с 3 на 4 ноября 1952 г., когда компьютер UNIVAC был запрограммирован для предсказания результатов выборов президента США, на которых в борьбе сошлись Эдлай Стивенсон и Дуайт Эйзенхауэр. Телекомпания CBS должна была транслировать этот эксперимент, и её тележурналист Уолтер Кронкайт так описал подготовку к нему: «Машина должна предсказывать результаты выборов каждый час, базируясь на результатах за те же периоды времени в ночь выборов 1944 и 1948 годов. Учёные, которых мы привыкли называть длинноволосыми [long hairs], работали над сопоставлением фактов [с этими предсказаниями] последние два или три месяца». Но в конце речи он сделал оговорку: «На самом деле, мы не слишком зависим от этой машины. Это может оказаться и второстепенным шоу, мы не знаем, а потом опять же… для некоторых людей оно может оказаться очень уникальным и значимым»[3183], [3184].
По всей видимости, для того, чтобы ещё больше не зависеть от машины, находящейся в телестудии, сама машина была заменена макетом. Сделка, в соответствии с которой телекомпания CBS получила для демонстрации поддельный UNIVAC (настоящая машина находилась на другом конце линии связи — в Филадельфии), появилась из просьбы телевизионной сети к компании Remington Rand о бесплатном предоставлении во временное пользование сотни электрических пишущих машинок и счётных машин. Взамен это оборудование должно было появиться на экранах во время освещения ночи выборов, то есть по сути предполагалась бесплатная реклама бесплатно предоставленных машин. Но более привлекательной идеей оказалось бесплатное предоставление компьютера взамен на его бесплатную рекламу.
По результатам подсчёта всего 3 млн голосов (7%) UNIVAC предсказывал триумф Эйзенхауэра: 438 голосов коллегии выборщиков против 93 за Стивенсона. Большинство прогнозов предсказывало близкие друг к другу результаты кандидатов, поэтому такому прогнозу в Филадельфии просто не поверили. Ввиду этого программисты быстро внесли исправления в программу, чтобы получить более «правдоподобный» результат, который и был продемонстрирован. Однако в итоге оказалось, что Эйзенхауэр получил 442 голоса против 89 — то есть очень близко именно к первоначальному прогнозу! Когда ночная история выплыла наружу, известный американский тележурналист Эд Мерроу сказал: «Главная проблема с машинами — это люди»[3185], [3186].
В наши дни люди часто, напротив, склонны переоценивать качество решений, предлагаемых моделями, предполагая, что модель обладает сверхчеловеческими способностями. На самом деле поведение модели может быть связано с дефектами, допущенными на стадии разработки. Недоверие к системам ИИ легко переходит