Шрифт:
Интервал:
Закладка:
Несмотря на успешное решение вопроса о том, как можно обучать многослойные нейронные сети, Вербос в своей диссертации в 1974 г. ограничился лишь короткими замечаниями по этому поводу. Подробное описание применения метода обратного распространения ошибки к обучению нейронных сетей было опубликовано[1399] Вербосом только в 1982 г. Сказывался невысокий интерес научного окружения Вербоса к этому вопросу[1400]. Возможно, отсутствие интереса Минского к ранней работе Вербоса по гамбургскому счёту оказалось куда большим вкладом первого в наступление коннекционистской зимы, чем пресловутые «Перцептроны». Впрочем, не стоит переоценивать роль личности Минского в этой истории, ведь его пессимизм лишь суммировал опыт множества исследователей, безрезультатно пытавшихся найти эффективные способы обучения многослойных перцептронов. Конечно, теплились некоторые искорки надежды, такие как идеи об обратном распространении ошибки у Розенблатта или высказанное вскользь предложение Сюнъити Амари о том, что для обучения нейронных сетей можно попробовать использовать метод наименьших квадратов[1401], [1402], являющийся основой простой линейной регрессии (без рассуждений о том, как вычислять производные, и с оговоркой, что он не ожидает многого от этого подхода)[1403], [1404]. И всё же пессимизм во второй половине 1970‑х — начале 1980-х гг. достиг своего апогея, поэтому работы Вербоса так и остались практически не замеченными научным сообществом. Повсеместное признание метода обратного распространения ошибки произошло только вслед за публикацией в 1986 г. в журнале Nature статьи Румельхарта, Хинтона и Уильямса «Выучивание представлений путём обратного распространения ошибок» (Learning representations by back-propagating errors). Её авторы упоминают в тексте Дэвида Паркера и Яна Лекуна в качестве исследователей, которые независимо открыли процедуры обучения, аналогичные описанным в статье[1405].
Не оставались в стороне и советские учёные. Диссертация Вербоса увидела свет в январе 1974 г., а в августе того же года в СССР тиражом 8000 экземпляров из печати вышла книга Александра Галушкина под названием «Синтез многослойных систем распознавания образов». Хотя Галушкин несколько раз использует в своей книге термин «нейронная сеть», в большинстве случаев он применяет более нейтральный термин — «система распознавания» (СР). Искусственные нейроны у Галушкина становятся «линейно-пороговыми элементами» (ЛПЭ), обученная сеть (т. е. сеть, предназначенная только для выполнения [inference]) — «сетью с разомкнутым контуром» и так далее[1406]. С точки зрения современной терминологии название книги Галушкина можно понимать как «Обучение многослойных нейронных сетей». Книга Галушкина стала первым систематическим изложением идей учёного, развитых им и его коллегами в предшествующие годы. Первые публикации[1407], [1408], [1409], [1410] Галушкина на тему создания и обучения многослойных нейронных сетей относятся к 1971–1973 гг.
Диссертация Вербоса, вне всякого сомнения, не была известна Галушкину. По большому счёту она в те годы не была известна, по всей видимости, никому из коннекционистов. Действительно, вряд ли кто-то всерьёз ждал фундаментального прорыва от работы под названием «После регрессии: новые инструменты для предсказания и анализа в поведенческих науках» (Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences). Термин «нейронные сети» не использовался в те времена в названиях работ ни Вербоса, ни Галушкина (как недостаточно строгий и являвшийся на тот момент обозначением модели, представлявшей, по мнению многих, лишь исторический интерес). Даже Румельхарт, Хинтон и Уильямс в 1986 г. в своей знаменитой статье[1411] следовали этому принципу.
В то же время Галушкин прекрасно знал о работах западных коннекционистов. Полюбуйтесь списком западных систем распознавания образов, который приводит Галушкин в своей книге: Mark-I, Mark-II, Papa, Kybertron, Altron, Konflex, Albert-1, Adalin, Madalin (написано именно так, без «e» на конце. — С. М.), Minos-2, Illiak-2, Illiak-3, Tobermory, GHILD, Astropower, Adapt-1, Adapt-2, DSK, Ziklop-1, Simisor, Auditran, Shubocs, Gaku и др. (sic!). В тексте книги также упоминается алгоритм обучения Штейнбуха Lernmatrix.
Галушкин рассматривает использование в нейронных сетях функций активации, отличных от функции Хевисайда и сигнума (обозначается sgn, функция знака, имеющая три возможных значения: 0, 1 и −1). Необходимость применения функций с континуумом решений у Галушкина обосновывается следующим образом: «Экспериментальное исследование данного алгоритма показало, что скорость сходимости при нахождении некоторой локальной моды мала и причиной этого является применение в многослойной СР ЛПЭ с двумя решениями, которые в значительной степени „загрубляют“ информацию о градиенте функционала вторичной оптимизации при квантовании входного сигнала. В связи с этим основным предметом исследования являлась двухслойная СР, по структуре подобная описанной выше, но состоящая из ЛПЭ с континуумом решений». В итоге выбор автора останавливается на арктангенсе, умноженном на 2/π для приведения значений функции к диапазону (−1; 1). График арктангенса, как и график популярных в наши дни логистической функции и гиперболического тангенса, является сигмоидой.
Галушкин рассматривает задачу обучения нейронной сети в качестве задачи градиентного спуска. Он применяет цепное правило для вычисления градиента, подробно рассматривает случай обучения сетей с двумя обучаемыми слоями, а также коротко показывает, как следует решать задачу в случае многослойных сетей и сетей с рекуррентными связями, но не даёт используемому им методу какого-либо собственного названия. При этом вопрос конкретной топологии сетей в книге практически не затрагивается, зато уделено внимание сетям с переменным числом слоёв — Галушкин описывает подход, напоминающий МГУА с послойным обучением и постепенно наращиваемыми слоями. Автор также приводит результаты множества экспериментов по обучению сетей с различными параметрами процесса обучения, стремясь оценить их влияние на сходимость модели[1412]. Кроме математических моделей, Галушкин совместно с В. Х. Наримановым ещё в начале 1970-х сконструировал собственную версию аппаратного перцептрона[1413].
Александр Иванович Галушкин продолжал работу над нейросетевыми технологиями до конца своей жизни и был одним из наиболее ярких лидеров этого направления в Советском Союзе, а затем и в России на протяжении более чем сорока лет. В 2007 г. издательство Springer Science & Business Media выпустило книгу[1414] Галушкина «Теория нейронных сетей» (Neural Networks Theory) на английском языке с отзывами Лотфи Заде, Сюнъити Амари и одного из знаменитых пионеров нейросетевого подхода Роберта Хехта-Нильсена. В новом тысячелетии работы Галушкина неоднократно выходили в международных научных изданиях и оказали влияние на состояние современной нейросетевой науки.
Непросто, пожалуй, найти в истории науки другой такой метод, для утверждения которого потребовались бы столь длительные и повторяющиеся усилия такого количества учёных, работавших зачастую в изоляции друг от друга. И всё-таки в итоге лёд тронулся, и нейронные сети возвратились в область