Шрифт:
Интервал:
Закладка:
Эти оценки часто используются для присвоения лицам разных категорий риска.
Хотя они, как правило, намного проще, чем глубокие нейронные сети, используемые во многих современных системах ИИ, инструменты оценки риска в уголовном правосудии являются основными формами ИИ. Некоторые используют эвристические структуры для получения своих оценок, хотя большинство используют простые методы машинного обучения для обучения прогностических моделей из входных наборов данных. Как таковые, они представляют парадигматический пример потенциальных социальных и этических последствий автоматического принятия решений ИИ.
Использование инструментов оценки рисков в процессах уголовного правосудия быстро расширяется, и лица, принимающие решения, как на федеральном уровне, так и на уровне штатов, приняли законодательство, предписывающее их использование. Это в основном произошло в рамках реформы, которая связана с чрезвычайно высокими показателями тюремного заключения в Соединенных Штатах, которые несоразмерны уровню преступности и международным и историческим исходным показателям. Сторонники этих инструментов выступают за их потенциал для рационализации неэффективности, снижения затрат и обеспечения строгости и воспроизводимости для жизненно важных решений. Некоторые адвокаты надеются, что эти изменения будут означать сокращение ненужного содержания под стражей и предоставят более справедливые и менее карательные решения, чем система освобождения под залог или системы, где лица, принимающие решения, такие как судьи, имеют полное усмотрение.
Это критически важные цели государственной политики, но есть основания полагать, что эти взгляды могут быть слишком оптимистичными. Остаются серьезные и нерешенные проблемы с точностью, достоверностью и смещением, как в наборах данных, так и в статистических моделях, которые управляют этими инструментами. Более того, эти инструменты также часто создаются для того, чтобы отвечать на неправильные вопросы, используются в плохо продуманных условиях или не подлежат достаточной проверке, аудиту и проверке. Эти проблемы почти универсальны в исследовательском сообществе ИИ и во всем PAI, хотя мнения расходятся в том, могут ли они быть реально решены путем улучшения инструментов.
Подавляющее большинство экспертов PAI, с которыми проводились консультации, согласились с тем, что нынешние инструменты оценки рисков не готовы к использованию при принятии решений о задержании или продолжении задержания обвиняемых по уголовным делам без использования индивидуального слушания. Одна из целей исследования состоит в том, чтобы сформулировать причины такого почти единодушного взгляда на вкладчиков и помочь наладить диалог с политиками, рассматривающими вопрос об использовании этих инструментов. Члены PAI и более широкое сообщество ИИ, однако, не имеют единого мнения о том, можно ли когда-либо совершенствовать инструменты статистической оценки риска, чтобы справедливо задерживать или продолжать задерживать кого-либо на основе их оценки риска без индивидуального слушания. Для некоторых из наших членов проблемы остаются структурными и процедурными, а также техническими. Независимо от расхождений во взглядах на эти конкретные вопросы, в этом отчете кратко изложены технические проблемы, проблемы взаимодействия человека с компьютером и проблемы управления, которые коллективно определены сообществом.
Некоторые противоречия по поводу инструментов оценки риска проистекают из различных базовых показателей, по которым оцениваются инструменты оценки риска. У политиков есть много возможных исходных условий, которые они могут использовать при принятии решения о приобретении и использовании этих инструментов, включая следующие вопросы:
А. Достигают ли инструменты оценки риска абсолютной справедливости? Это вряд ли будет достигнуто какой-либо системой или учреждением из-за серьезных ограничений в данных, а также нерешенных философских вопросов о справедливости;
В. Являются ли инструменты оценки риска настолько справедливыми, насколько они могут быть основаны на доступных наборах данных? Это может быть достижимо, но только в контексте (а) выбора конкретной меры справедливости и (б) использования наилучших доступных методов для смягчения социальных и статистических ошибок в данных. Однако на практике, учитывая ограничения в доступных данных, это часто приводит к игнорированию систематических ошибок в данных, которые трудно устранить;
C. Являются ли инструменты оценки риска улучшением по сравнению с текущими процессами и лицами, принимающими решения? Инструменты оценки риска могут быть сопоставлены с эффективностью процессов, учреждений и практик принятия решений людьми, существовавшими до их внедрения, или аналогичными системами в других юрисдикциях без инструментов оценки риска. Такие оценки могут быть основаны на измеримых целях (таких как лучшее прогнозирование явки в суде или рецидив) или на отсутствии предрасположенности к человеческим предубеждениям. В этом смысле инструменты оценки риска могут не достигать определенного понятия справедливости, а быть сравнительно лучше, чем статус-кво;
D. Являются ли инструменты оценки риска улучшением по сравнению с другими возможными реформами системы уголовного правосудия? Другие реформы могут быть направлены на достижение тех же целей (например, повышение общественной безопасности, снижение вреда содержания под стражей и снижение издержек и бремени судебного процесса) при более низких затратах, большей простоте реализации или без учета интересов гражданских прав.
Базовые показатели А и В полезны для фундаментальных исследований алгоритмической справедливости и для эмпирического анализа производительности существующих систем, но они обязательно дают неоднозначные результаты из-за существования оправданных, но несовместимых определений справедливости. Тем не менее, они могут обеспечить полезную основу для понимания философских, правовых и технических вопросов с помощью предлагаемых инструментов.
Базовая линия С является одной из широко распространенных точек зрения экспертов, работающих в космосе. Это может быть уместно для политиков и юрисдикций, покупающих инструменты в соответствии с законодательными полномочиями вне их контроля, или в ситуациях, когда политические ограничения означают, что базовый уровень D неприменим. Тем не менее, мы должны подчеркнуть, что во всех обсуждениях, проведенных PAI, базовый уровень D широко рассматривался как более фундаментально правильный и подходящий как цель выработки политики и стандарт оценки для инструментов оценки риска. Поэтому законодательные органы и судебные органы должны применять базовый уровень D всякий раз, когда это возможно для них.
§ 2. Минимальные требования к ответственному использованию инструментов оценки риска в уголовном правосудии
Что такое точность?
Точность представляет производительность модели по сравнению с принятой базовой линией или предварительно определенным правильным ответом на основе доступного набора данных. Чаще всего некоторые данные, используемые для создания модели, будут зарезервированы для тестирования и настройки модели. Эти зарезервированные данные обеспечивают новые оценки, которые помогают производителям инструментов избежать «переоснащения» в процессе экспериментов.
Точность измерения включает оценку того, выполнила ли модель наилучшую возможную работу по прогнозированию на тестовых данных. Сказать, что модель предсказывает неточно, значит сказать, что она дает неправильный ответ в соответствии с данными, либо в конкретном случае, либо во многих случаях.
Поскольку точность сфокусирована на том, как инструмент работает с данными, зарезервированными из исходного набора данных, он не