Шрифт:
Интервал:
Закладка:
Основная логика Селфриджа и Найссера была использована в недавно появившихся устройствах, считывающих буквы и слова. Эти компьютеры «читают» текст с помощью ряда подпрограмм, каждая из которых специализируется в одной части задачи чтения, скажем буквы. Такой анализ несколько напоминает способ решения задач «средства-результат», упомянутый в главах 14 и 15, посвященных мышлению. Один из способов работы программы чтения буквы изображен на рис. 16.3. На нем показано, как буква R обрабатывается через ряд довольно простых стадий, пока не устанавливается соответствие на основе исключения альтернатив.
Рис. 16.3. Буква R обрабатывается через ряд стадий идентификации. На каждой стадии программа распознает специфические признаки буквы, такие как диагональные линии, углубления и т. д.
Сторонники модели PDP также детально рассматривают проблему восприятия букв. Общая критика программ ИИ, касающихся идентификации букв и восприятия фигур, состоит в том, что в них не используется сколь-либо удовлетворительное устройство для осуществления функции внимания. Машина «видит» фигуру, будь то буква или геометрическая конфигурация, в целый паттерн и в отличие от человека испытывает затруднения при сосредоточении на критических признаках. Один из способов, которым модель PDP решает эту трудную проблему, — использование датчиков признаков двух типов, один из которых называется элементом ретиноцентрических признаков, а другой — элементом канонических признаков. В ретиноцентрической системе зрительные стимулы регистрируются в «сырой» форме, то есть в форме образа на сетчатке. Канонические признаки соответствуют стандартному способу репрезентации информации, например тому, какой мы ожидаем увидеть букву A в этом тексте. В одной системе Хинтон (Hinton, 1981) описал метод отображения паттернов ретиноцентрических признаков на канонические паттерны. В подробностях эта идея слишком обширна, чтобы быть представленной здесь; отметим лишь, что эта важная проблема активно исследуется сторонниками модели PDP. Всех интересующихся ею я адресую к первоисточникам.
Более старые, и намного более простые, алфавитно-цифровые системы распознавания в рамках ИИ основывались на понятии эталона. Паттерн букв и цифр хранился в памяти компьютера. Когда компьютер «видит» цифру или букву, он «читает» ее, сравнивая с паттерном, например букву A с эталоном А. Если установлено соответствие, буква идентифицируется правильно. Даже описанные ранее методы последовательного и параллельного поиска были явно упрощенными. Более новые, основанные на принципах нервных процессов компьютерные модели фактически способны к «изучению» паттернов. Некоторые из этих компьютеров могут изучать, хранить и распознавать паттерны. Одна такая программа, названная DYSTAL (DYnamically STable Associative Learning — «Динамически устойчивое ассоциативное научение»), успешно усваивает буквы алфавита и последовательности букв и, что, возможно, более важно, распознает их даже при предъявлении только части паттерна (рис. 16.4).
Рис. 16.4. Распознавание паттерна искусственной сетью Алкона происходит согласно многим из правил, демонстрируемых биологическими системами. Когда сеть обучена распознавать паттерн, такой как строчная буква а, изображенная в верхней части рисунка, воспринимающим участкам, участвующим в распознавании, придается больший «вес», чем тем, которые не участвуют в распознавании, то есть их возбудимость повышается. Здесь синаптический вес представлен возвышением элементов в слоях. Повышение возбудимости облегчает образование связей между нейронами, участвующими в воспоминании, когда предъявлена только часть паттерна. (Этот рисунок помог сделать Томас П. Воджи из Экологического научно-исследовательского института Мичигана.) Источник: Alkon, 1989
По мнению Алкона, DYSTAL делает это так же, как мы узнаем знакомое лицо по нескольким линиям эскиза. Система «изучает» паттерн в том смысле, что предварительно в нее не было заложенной никакой связи между информацией на входе и на выходе. Тем не менее связь была установлена через больший вес, приписываемый определенным элементам (участкам), которые участвуют в процессе распознавания.
Другая новаторская особенность этой системы состоит в том, что она может вместить большое количество элементов, не задействуя значительных ресурсов компьютера. Во многих других сетевых системах каждая единица связана с каждой другой единицей, поэтому, когда число единиц возрастает, экспоненциально увеличивается число взаимодействий. Таким образом, системе, имеющей даже 100 единиц, требовалось бы значительное время для обработки, а сеть такого объема едва ли похожа на мозг. «В программе DYSTAL, однако, силы связей не сравниваются с фиксированным значением: скорее они достигают динамического равновесия, при котором увеличение и уменьшение силы связи в наборе репрезентаций паттерна равны, и в итоге не происходит никаких "весовых" изменений» (Alkon, 1989). Эта система сопоставима с долговременной памятью человека в том, что постоянные воспоминания, сформировавшись, большей частью становятся необратимыми. Как только эти устойчивые паттерны усвоены, они требуют меньше ресурсов компьютера, чем другие, небиологические сети.
Распознавание более сложных форм подчиняется той же самой логике, что и распознавание простых форм, но, как правило, оно требует более сложных процессоров. Эта тема будет рассмотрена далее.
В качестве примера распознавания других паттернов обратимся к идентификации треугольника. На рис. 16.5 изображено несколько треугольников, каждый из которых человек может с легкостью опознать и классифицировать. Если прототип «треугольности», хранимый в программе компьютера, соответствует «правильной» матрице треугольника А, то треугольники В и С, если их правильно повернуть и скорректировать по величине, можно будет легко распознать; однако треугольники D и E вызывают проблемы, особенно Е — их можно идентифицировать только в результате «хорошего гештальта», но не по тому признаку, что они состоят из трех прямых линий.
Рис. 16.5. «Хорошие» (A-D) и «проблематичные» (E) треугольники. Первые отличаются только по величине, ориентации и отношению сторон; у последних нет обычных прямолинейных сторон, но их все же можно опознать как треугольники
Наша способность немедленно распознавать каждую из этих фигур как треугольник объясняется обширным опытом восприятия других треугольных объектов; абстрактное представление о треугольности достаточно широко, чтобы позволить нам опознать эти треугольники именно как треугольники, хотя раньше мы их никогда не видели. Может ли компьютер выучить это понятие? Возможно, но такой механизм поиска будет более сложным, чем единичная операция сопоставления, такая, как в машине, считывающей номер с чека. Вместо этого стоило бы подумать о программе поиска, распознающей детали треугольника. Тогда такие детали, или атрибуты, как углы, линии, форма, количество объектов и т. д., хранились бы в компьютерной памяти, точно так же, как в нашей памяти хранится каталог этих атрибутов треугольника.