Шрифт:
Интервал:
Закладка:
В конце октября 2023 г. суд удовлетворил ходатайство Midjourney, Stability AI и DeviantArt[3340] о прекращении дела о нарушении авторских прав трёх американских художниц. Основной причиной такого решения суда стало то, что истицы не зарегистрировали авторские права на каждую из своих работ. При этом судья отметил, что если художницы ограничат свои претензии теми работами, авторские права на которые были зарегистрированы, то они могут подать повторный иск[3341].
Вторая проблема, поставленная перед обществом революцией генеративных моделей, — массовое производство и распространение потенциально опасного или иного нежелательного контента. Опасная для жизни неправильная медицинская рекомендация от «галлюцинирующей» языковой модели, призыв к насилию или терроризму, повлиявший на чей-то неокрепший ум, систематическая дискриминация той или иной группы людей — это явно не те плоды генеративного ИИ, которые мы хотим с нетерпением вкусить. Именно поэтому сегодня огромные усилия исследователей направлены на то, чтобы уменьшить объёмы генерации потенциально вредного контента. Почти каждый пользователь ChatGPT или GigaChat хотя бы раз сталкивался с тем, что модель отказывается дать ответ на тот или иной вопрос или выполнить задание, ссылаясь на то, что это противоречит заложенным в неё этическим нормам и правилам. Иногда эти отказы обоснованны, а иногда — нет. Этика — сложная штука; в ней порой и людям-то за всю свою жизнь разобраться довольно непросто. Чего же ждать от экспериментальных моделей, появившихся совсем недавно? Для того чтобы сократить количество нежелательных ответов моделей, обучающие данные, собираемые в открытых источниках, подвергают фильтрации и балансировке (вспомним печальную судьбу датасета Tiny Images, описанную в разделе 6.2.1.2), в обучающие выборки добавляют наборы выверенных ответов на скользкие вопросы, генеративные сети окружают системами правил и дополнительными моделями, детектирующими ответы, которые не следует давать пользователю. Однако и эти барьеры при желании или по неосторожности можно преодолеть — мы уже обсуждали эту проблему в разделе 6.6.4, когда рассматривали возможные атаки на генеративные модели. Реалии сегодняшнего медиапространства заключаются в том, что всё, что сгенерирует выставленная на публику модель, будет всенепременно использовано против её разработчиков. Повсеместное увлечение проблемами этичности и безопасности ответов генеративных моделей приводит порой к обратному результату. Так, несколько групп разработчиков уже заявило о разработке намеренно неэтичных моделей-беспредельщиков. Например, известный в узких кругах ML-специалист и ML-видеоблогер Янник Килчер опубликовал[3342] в 2022 г. модель GPT-4chan с 6 млрд параметров, обученную на постах из раздела /pol/ популярного анонимного веб-форума 4chan (соответствующий датасет получил название Raiders of the Lost Kek [Налётчики Потерянного Кека][3343]). Этот раздел весьма популярен и известен своей особенной токсичностью (даже по меркам токсичного в целом 4chan). Раздел в изобилии содержит расистские, женоненавистнические и антисемитские сообщения, стилистику и идейное наполнение которых генеративный трансформер успешно научился воспроизводить. В своём видео, описывающем проект, Килчер охарактеризовал результат следующим образом: «Модель была хороша в самом ужасном смысле» [The model was good, in a terrible sense]. Публикация модели вызвала нешуточное возмущение[3344] — онлайн-петиция[3345] с осуждением действий Килчера собрала множество подписей (среди них, как и в случае обсуждавшихся нами ранее открытых писем, есть подпись Йошуа Бенджио).
Отдельный юмор ситуации заключается в том, что GPT-4chan заметно превосходит GPT‑3 и собственную «родительскую» GPT-J на популярном наборе тестов TruthfulQA[3346], предназначенном для оценки доли правдивых ответов языковых моделей.
FraudGPT, WormGPT, DarkGPT, DarkBERT, DarkBART, EVILdolly и так далее — число «неэтичных» моделей со временем множится[3347], [3348], несмотря на протесты многих ML-специалистов. Открытые письма, похоже, не могут остановить развитие тёмной стороны генеративных технологий, как не смогли они остановить военные применения ИИ. Похоже, что для борьбы со злом всё-таки нужны какие-то более действенные меры. Частью этих мер, вполне вероятно, должны стать другие модели машинного обучения, способные распознавать потенциально опасный контент. А для этого они должны «ознакомиться» с примерами такого контента на этапе обучения… Ирония заключается в том, что в конечном счёте ими могут оказаться те же самые «злые» модели, подобные GPT-4chan. Здесь круг замыкается: ведь то, как именно — во зло или во благо — будет применена та или иная модель, зависит от людей, от нас с вами.
8.6 Далеко ли до общего искусственного интеллекта (AGI)?
Посыпались частые звенящие удары — планетарные моторы заработали автоматически, когда управлявшая кораблём электронная машина почувствовала впереди огромное скопление материи. «Тантра» принялась раскачиваться. Как ни замедлял свой ход звездолёт, но люди в посту управления начали терять сознание. Ингрид упала на колени. Пел Лин в своём кресле старался поднять налившуюся свинцом голову, Кэй Бэр ощутил бессмысленный, животный страх и детскую беспомощность.
Удары двигателей зачастили и перешли в непрерывный гром. Электронный «мозг» корабля вёл борьбу вместо своих полубесчувственных хозяев, по-своему могучий, но недалёкий, так как не мог предвидеть сложных последствий и придумать выход из исключительных случаев.
Иван Ефремов. Туманность Андромеды
Появление больших трансформерных моделей, таких как GPT-3, способных без переучивания решать широкий спектр задач в области обработки естественного языка, подлило масла в огонь дискуссии о том, насколько мы приблизились к созданию систем общего искусственного интеллекта (AGI). В августе 2020 г. на arXiv.org был выложен препринт статьи двух молодых исследователей Джона-Кларка Левина и Маттейса Мааса под названием «Дорожная карта по созданию дорожной карты: как мы сможем определить, когда AGI окажется от нас на расстоянии „Манхэттенского проекта“?» (Roadmap to a Roadmap: How Could We Tell When AGI is a ‘Manhattan Project’ Away?)[3349].
В ней авторы задаются вопросом: по каким признакам можно понять, что задача создания AGI уже вышла на «взлётную полосу» и для её реализации достаточно лишь воплотить в жизнь соответствующий мегапроект (сопоставимый с проектом по созданию ядерного оружия или по отправке человека на Луну)?
Первым делом авторы задаются вопросом о том, что именно мы понимаем под мегапроектом. Манхэттенский проект и программа «Аполлон» по объёму ежегодных затрат достигали в пике 0,4% ВВП США, что для современного объёма ВВП США составило бы около 80 млрд долларов в год. Авторы показывают, что современные крупные проекты в области исследований и разработки имеют обычно значительно более скромные объёмы финансирования. Например, проект по созданию лазерно-интерферометрической гравитационно-волновой обсерватории (Laser Interferometer Gravitational-Wave Observatory, LIGO) довольствовался 300 млн долларов в год, проект по расшифровке генома человека — 400 млн долларов в год, Большой адронный коллайдер на этапе постройки обходился в 475 млн долларов в год, а на этапе эксплуатации — 1 млрд долларов в год.