litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 164 165 166 167 168 169 170 171 172 ... 482
Перейти на страницу:
и впечатляющим результатам, пленил сердца многих специалистов в области машинного обучения. Вообще вклад Вапника и Червоненкиса в математический фундамент современной теории машинного обучения трудно переоценить. Например, ими был разработан способ оценки выразительной силы (иногда также употребляют термины: ёмкость, сложность, богатство, гибкость) моделей-классификаторов на основе так называемой комбинаторной размерности, более известной в наши дни под названием размерность Вапника — Червоненкиса или VC-размерность[1481]. Лучший результат метода V-SVM (модификация SVM) на MNIST в 1998 г. совпадал с результатом Лекуна, обеспечивая те же 0,8% ошибки на тестовой выборке. Однако объём вычислений, необходимый V-SVM для достижения такой точности, многократно превышал[1482] объём вычислений, необходимый LeNet-5. В очередной раз научное сообщество было поставлено перед фактом: нейронные сети, как ту стюардессу из анекдота, не стоило хоронить так быстро.

Свёрточные нейронные сети Лекуна не были первой моделью, воплощающей в себе принцип построения глубоких нейронных сетей на основе параметризованных слоёв с регулярной структурой и обучающейся с применением метода обратного распространения ошибки. Первой такой моделью стала нейронная сеть с временно́й задержкой (Time delay neural network, TDNN), впервые представленная научной общественности в 1987 г. Её создатели — Александр Вайбель, Тосиюки Ханазава, Киёхиро Сикано, Кевин Лэнг и вездесущий Джеффри Хинтон — использовали эту архитектуру в задачах распознавания речи. Входным представлением для TDNN является спектрограмма анализируемого звука, к которой последовательно применяются операции свёртки вдоль осей времени и частотных диапазонов. Именно для TDNN в 1990 г. Коуити Ямагути и его коллеги впервые предложили использовать максимизирующий пулинг. Целью этой работы было создание системы для качественного распознавания речи без привязки к конкретному голосу. TDNN-сети нередко применяются для решения задач в области обработки речи и в наши дни. По всей видимости, в силу того, что TDNN-сети использовались для обработки звука, а не изображений, про них иногда забывают, рассуждая об истории свёрточных нейронных сетей. По современной классификации TDNN-сети считаются свёрточными, что создаёт видимый парадокс: TDNN‑сети были свёрточными сетями ещё до того, как это стало мейнстримом появились свёрточные сети.

Конструктор, из которого современные разработчики собирают свёрточные нейронные сети, за последние два десятилетия обзавёлся множеством новых деталей. Различными могут быть размеры и формы (форма задаётся за счёт введения маски для ядра свёртки) свёрточных ядер, вертикальный и горизонтальный шаг [stride] между ними (а также шаги в других измерениях, если используется свёртка с большим числом измерений), поле свёртки может выходить за границы слоя с различным размером дополняющего [padding] поля. Сеть может включать в себя разное количество слоёв свёртки, пулинга (максимизирующего, усредняющего, пулинга с областью интереса и т. д.), полносвязных слоёв, слоёв нормализации и так далее. В особо глубоких нейронных сетях могут существовать синаптические связи, огибающие отдельные слои (их обычно называют skip connections — «перепрыгивающие связи»). В различных слоях могут использоваться различные функции активации, слои могут группироваться в более крупные блоки, а при обучении сетей могут применяться различные способы инициализации синаптических весов и другие трюки, направленные на улучшение сходимости и достижение лучших результатов. В 2010-е гг. глубокое обучение стало своеобразным экспериментальным разделом математики, где полученный результат в некоторой мере может зависеть от случая и от удачи исследователей и разработчиков в процессе применения метода проб и ошибок. Этот факт породил сравнение глубокого обучения со средневековой алхимией и множество остроумных мемов на эту тему. К счастью, в отличие от алхимиков, архитекторы нейронных сетей всё-таки неплохо справляются с достижением поставленных целей, а применение объективных метрик успеха при создании моделей исключает субъективизм в трактовке результатов.

5.2.5 Рекуррентные нейронные сети

5.2.5.1 Обсуждение теоретической возможности

Возможность создания рекуррентных нейронных сетей, то есть таких сетей, в которых цепи распространения сигнала могут образовывать петли, рассматривалась ещё Мак-Каллоком и Питтсом. Рекуррентная нейронная сеть, по сути дела, обладает памятью, а значит, удобна для обработки последовательностей стимулов. Получая стимул на вход, рекуррентная нейронная сеть использует для вычисления выходного сигнала не только входные сигналы, соответствующие данному импульсу, но и сигналы, циркулирующие в контурах сети. Можно сказать, что под влиянием входных сигналов рекуррентная сеть может изменять своё внутреннее состояние, которое влияет затем на выходы сети.

Всё это довольно сильно напоминает работу конечного автомата, и неслучайно. Стивен Клини, один из пионеров теории конечных автоматов, был хорошо знаком с работами Мак-Каллока и Питтса и использовал их идеи в качестве отправной точки собственных исследований. Клини формализовал наборы входных последовательностей, которые приводили сеть Мак-Каллока — Питтса в заданное состояние, а позже Минский показал, что любой конечный автомат может быть смоделирован с помощью рекуррентной нейронной сети с дискретным временем, основанной на искусственных нейронах Мак-Каллока и Питтса[1483].

Сети с рекуррентными связями упоминаются в работах классиков коннекционистского подхода, например у Розенблатта и Галушкина, причём у первого их анализу посвящена значительная часть его основного теоретического труда. Однако на практике рекуррентные сети в 1960-е и 1970-е гг. использовались крайне редко. Действительно, довольно очевидно, что естественные нейронные сети содержат циклы. Но как должен выглядеть эффективный способ обучения такой сети, если даже для нерекуррентных глубоких сетей он на тот момент не был известен? Для реализации механизма памяти вполне подходят изменяемые синаптические веса. При обработке последовательностей в большинстве случаев можно использовать фиксированное окно (т. е. на каждом шаге обработки на вход модели подаётся фрагмент последовательности фиксированной длины, заканчивающийся текущей позицией), охватывающее достаточный по длине фрагмент последовательности, как это делается, например, в TDNN. И тем не менее рекуррентные нейронные сети привлекали внимание коннекционистов с самого начала — благодаря своей универсальности.

В «Принципах нейродинамики» Розенблатт вводит понятие перцептрона с перекрёстными связями [cross-coupled], то есть такого перцептрона, в котором некоторые связи соединяют нейроны одного и того же типа (S, A или R), находящиеся на одинаковом «логическом расстоянии» от S-блоков, причём все другие соединения относятся к последовательному типу. Это определение допускает наличие циклов распространения сигнала в пределах одного слоя (сигнал не может вернуться из A-слоя в S-слой, но может циркулировать между нейронами A-слоя, однако в такой сети понятие A-слоя становится достаточно условным, поскольку этот слой топологически может объединять в себе произвольное число слоёв нерекуррентной сети). По этому поводу Розенблатт пишет следующее: «Наиболее интересными свойствами перцептронов с перекрёстными связями являются те, которые возникают в результате возможности создания замкнутых цепей обратной связи (циклов) в сети». Он также отмечает, что при наличии циклов состояние сети в каждый момент времени становится функцией не только текущего сенсорного входа и сигналов, передаваемых в моменте, но и предыдущей последовательности входов

1 ... 164 165 166 167 168 169 170 171 172 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?