Шрифт:

Интервал:

Закладка:

Сделать

1 ... 341 342 343 344 345 346 347 348 349 ... 482

Перейти на страницу:

компактное представление в семиотическом пространстве (т. е. в пространстве той или иной символьной системы, например естественного языка). К этому «кодировщику» прилагается «декодер», способный, напротив, перевести такое компактное представление в паттерны активности мозга.

Помочь с проблемой потерь знаний при их передаче может составление своеобразного каталога общепринятых понятий и их значений, что, в свою очередь, подводит нас к ещё одной интересной аналогии: задача создания интерпретируемой модели в действительности очень похожа на задачу машинного перевода. Поэтому методы из этой области используют для создания своих моделей некоторые исследователи «объяснимого ИИ».

На сегодняшний день учёными создано множество инструментов, предназначенных для интерпретации работы нейросетевых моделей. Это и системы по визуализации активаций в свёрточных нейронных сетях, позволяющие своими глазами увидеть признаки, на которые реагирует нейронная сеть, и системы для визуализации полей внимания (в том числе в задачах по обработке естественного языка). Помогают понять структуру знаний моделей компьютерного зрения и состязательные атаки[3323], и мультимодальные архитектуры, способные работать одновременно с изображениями и их текстовым описанием, подобно уже упомянутым нами в главе о творчестве нейронных сетей моделям CLIP и DALL·E. Исследователи из Google создали специальную генеративно-состязательную архитектуру под названием StyleEx, призванную объяснять причины принятия зрительными нейросетевыми классификаторами тех или иных решений[3324]. Значительные успехи достигнуты и в развитии методов, позволяющих объяснять работу моделей, основанных на трансформерных архитектурах. Это направление получило полушуточное название «бертология» [bertology] в честь модели BERT[3325]. Одно из удивительных достижений современных бертологов — открытие того, что полносвязные слои в блоках трансформера могут играть роль механизма «ключ — значение», где ключи коррелируют с текстовыми структурами в обучающих примерах, а значения влияют на распределение вероятностей токенов на выходах сети, причём выучиваемые связи понятны людям. Также авторы исследования показали, что слои сети, расположенные ближе к её входу, отвечают за более конкретные, «низкоуровневые» закономерности в тексте, а слои, расположенные ближе к выходу сети, кодируют более абстрактные, семантические зависимости[3326]. Более того, в наши дни уже разработаны методы, позволяющие выявлять веса трансформерной модели, отвечающие за хранение конкретных фактов, и затем вмешиваться в «память» модели, производя «подмену» фактологической информации[3327], [3328]. Однако в этом направлении многое ещё предстоит сделать, чтобы работа нейросетевых моделей стала ещё более понятной экспертам-людям.

Успехи бертологии вылились в возникновение новой отрасли машинного обучения, получившей название «инженерия представлений» (Representation engineering, RepE). Инженерию представлений можно считать частью ещё более общей дисциплины — нейрофизиологии искусственных нейронных сетей. Изучая внутренние представления [hidden states] нейросетевых моделей путём анализа активаций их нейронов в ответ на определённые стимулы, мы можем затем успешно влиять на поведение сети, «сдвигая» его в нужном нам направлении за счёт коррекции некоторых весов. Например, как выяснилось, можно выявить градиент изменения весов, соответствующий повышению «честности» ответов модели, и если немного «подвинуть» веса в этом направлении, модель будет в среднем меньше врать. Модифицированная таким образом модель Llama 2 смогла прибавить целых 10 процентных пунктов на тесте TruthfulQA. Теперь исследователи заняты анализом других «направлений», таких как эмоциональность, этичность и так далее.[3329], [3330]

Основным инструментом исследователей стал метод, получивший название «низкоранговая адаптация представлений» (Low-Rank Representation Adaptation, LoRRA), выявляющий нужные градиенты изменения весов на основе маленьких наборов, содержащих порядка сотни размеченных примеров.

Другое достижение нейрофизиологии искусственных нейронных сетей — обнаружение во внутренних представлениях Llama 2 ни много ни мало карты мира! Учёных давно интересовали вопросы о том, есть ли «внутри» языковых моделей модель мира или, например, чувство времени? Новое исследование Уэса Гёрни и Макса Тегмарка доказывает, что есть. «Нет, LLM — не просто стохастические попугаи: Llama 2 содержит в буквальном смысле подробную модель мира. Мы даже обнаружили „нейрон географической долготы“» — пишут исследователи[3331].

Впрочем, часто люди не в полной мере осознают, что означает неинтерпретируемость модели с практической точки зрения. В повседневной жизни человек буквально окружён объектами, принципы поведения которых он не понимает в полной мере. Обычный человек легко может жить, не понимая, как устроен телевизор или автомобиль, как функционирует живая клетка или система государственного управления. Наконец, мы не можем «залезть в голову» других людей, чтобы получить исчерпывающее объяснение их поступков. Конечно, люди нередко рассказывают, на чём они основывались, принимая то или иное решение, однако проблема заключается в том, что эти рассказы часто имеют мало общего с действительным процессом принятия решений. Для таких объяснений post factum существует даже специальный термин — [ретроспективная] рационализация. Согласно поговорке задним умом мы всегда крепки. Однако на деле цена подобных «объяснений» нередко оказывается небольшой — вспомним хотя бы попытки Ботвинника создать шахматную программу, воплощающую в себе алгоритм игры человека-гроссмейстера, — оказалось, что профессиональный шахматист не может объяснять свой способ принятия решения с точностью, достаточной для реализации в виде эффективного алгоритма. В ряде случаев поведение «неинтерпретируемых» нейросетевых моделей является куда более предсказуемым и контролируемым, чем поведение людей. В конце концов, эти модели обычно интенсивно тестируются на огромных тестовых выборках, а затем — если, например, речь о беспилотных автомобилях — в ходе испытаний на дорогах, километраж которых многократно превышает опыт большинства водителей. Некоторые люди заявляют, что их страхи перед автономными автомобилями связаны с «неинтерпретируемостью» действий последних, но аналогичным образом можно бояться и поездок на такси с незнакомыми водителями, чьё поведение тоже можно считать «неинтерпретируемым». Хотя вы можете спросить у попавшего в аварию водителя, почему он принял то или иное решение, но не факт, что он сможет объяснить свои действия. С практической точки зрения моделям обычно нужны масштабные и правильно выстроенные испытания (в том числе и в критических ситуациях), а вовсе не интерпретируемость, а «проблема чёрного ящика» на деле вряд ли может считаться вызовом, всерьёз угрожающим развитию ИИ.

8.5 Морально-этические вопросы применительно к ИИ

На свете есть мало занятий, — сказал Ме-ти, — которые бы так расшатывали мораль человека, как занятия моралью. Мне доводилось слышать: надо быть правдолюбивым, надо выполнять свои обещания, надо бороться за добро. Но деревья не говорят: надо быть зелёными, фрукты должны падать на землю вертикально вниз; надо шелестеть листвой, когда подует ветер.

Бертольд Брехт. Ме-ти. Книга перемен[3332]

Развернувшаяся в последние годы гонка гигантских трансформерных архитектур — ещё один довод в пользу необходимости создания новых моделей. Исследователи в области глубокого обучения отлично это понимают, что и показывает активный поиск ими новых разновидностей разреженных трансформеров. Конечно, гонка больших моделей будет

1 ... 341 342 343 344 345 346 347 348 349 ... 482

Перейти на страницу:

Тайна древнего бальзама мумие-асиль - Адыль Шарипович Шакиров

2021
Медицина

ООО "Кремль". Трест, который лопнет - Андрей Колесников

2021
Политика

Психология согласия. Революционная методика пре-убеждения - Роберт Бено Чалдини

2021
Разная литература / Бизнес / Психология

Фантастика 2024-84 - Константин Давидович Мзареулов

2021
Научная фантастика / Разная литература

Биология для тех, кто хочет понять и простить самку богомола - Андрей Шляхов

2021
Домашняя

Комментарии

Минимальная длина комментария - 20 знаков. Уважайте себя и других!

Комментариев еще нет. Хотите быть первым?

Смотрите также:

Тайна древнего бальзама мумие-асиль - Адыль Шарипович Шакиров

ООО &quot;Кремль&quot;. Трест, который лопнет - Андрей Колесников

Психология согласия. Революционная методика пре-убеждения - Роберт Бено Чалдини

Фантастика 2024-84 - Константин Давидович Мзареулов

Биология для тех, кто хочет понять и простить самку богомола - Андрей Шляхов

ООО "Кремль". Трест, который лопнет - Андрей Колесников