Шрифт:
Интервал:
Закладка:
Определившись с правилами, мы принялись активно рекламировать турнир: оповещали о нем на афишах, рассказывали на конференциях, рассылали сообщения по электронной почте, размещали их на интернет-сайтах, а также обращались к потенциальным участникам в исследовательских группах. Чтобы подогреть интерес к предстоящему состязанию, назначили за стратегию-победительницу премию в 10 000 евро (примерно 13 650 долларов){289}. Больше всего мы боялись, что у нас просто не наберется участников, – и я, и Люк провели не одну бессонную ночь, в тревоге, что вся наша работа будет проделана впустую. Но волновались мы напрасно – отклик оказался фантастическим.
Прежде всего, поступило множество заявок – 104 (намного больше, чем в обоих турнирах Аксельрода) от представителей 15 научных дисциплин (включая биологию, информатику, инженерное дело, математику, психологию и статистику){290} из разных стран (Бельгия, Великобритания, Дания, Испания, Канада, Нидерланды, Португалия, США, Финляндия, Франция, Чехия, Швеция, Швейцария и Япония). Турнир вышел по-настоящему междисциплинарным и международным.
Большинство заявок были поданы научными работниками – университетскими профессорами, молодыми исследователями и старшекурсниками. Поступили заявки и от неспециалистов, заинтересовавшихся турниром, и даже от школьников. Кстати, в число самых успешных стратегий вошла разработка Ральфа Бартона и Джошуа Бролина, учащихся одной из частных школ Великобритании – Винчестерского колледжа. Их девятое место на первом этапе – невероятное достижение! Мне несказанно грела душу мысль, что наше соревнование позволило этим талантливым ребятам своим умом и упорным трудом додуматься до стратегии, превзошедшей разработки профессоров статистики и профессиональных математиков. Признавая эту огромную заслугу, мы вручили Ральфу и Джошуа специальную премию в 1000 фунтов.
Судя по масштабу и сложности представленных разработок, наши участники отнеслись к состязанию более чем серьезно. Некоторые кандидаты объединялись в команду и подавали коллективную заявку. Некоторые писали собственные компьютерные программы для проверки своих идей и тестировали их на симуляторах, имитирующих нашего «многорукого бандита». Кто-то даже самостоятельно организовал тренировочный мини-турнир, выясняя, какие стратегии действуют лучше. Среди разработок попадались сложнейшие, использующие самые передовые технологии – от нейронных сетей до генетических алгоритмов. Мы с Люком глазам не верили, вникая в иные особо трудоемкие проекты. Кажется, наше состязание можно причислить к самым высокорентабельным из когда-либо применявшихся способов проведения исследований. За какие-то 10 000 евро мы сумели привлечь сотни умнейших и сверхизобретательных исследователей со всего мира, которые неделями, а то и месяцами корпели над волнующей нас загадкой оптимального пути научения.
Теперь нам предстояло изучить разработки конкурсантов и понять, какие стратегии преуспели и почему. На первом этапе турнира (круговое состязание) стратегия могла в принципе получить от 0 (если проигрывала в каждом поединке) до 1 балла (если выигрывала все). В итоге счет варьировал от 0,02 до 0,89, что говорило о широком диапазоне эффективности стратегий. Нас такой разброс в показателях очень обрадовал: он означал, что мы не подняли планку сложности настолько высоко, что с заданием не справился почти никто (так называемый эффект пола), но и не опустили ее настолько низко, что одинаково легко справились все (эффект потолка). Разброс в результатах сам по себе подтверждал, что структуру состязания мы наметили верно. И, что гораздо важнее, вариативность позволяла нам объективно оценить и сравнить разработки. Стратегии можно было классифицировать в соответствии с их свойствами: насколько они жестки или гибки, какой объем подражания подразумевают, отслеживают ли степень изменений окружающей среды и приспосабливают ли к ним поведение и т. д. После этого нам оставалось подвергнуть собранный материал статистическому анализу и выяснить, какие из этих свойств обеспечивают стратегии успех.
Первое неожиданное открытие, которое мы сделали, – оказывается, можно «заучиться». Как показал турнир, посвящать много времени научению совсем не эффективно. Более того, мы установили явную обратную зависимость между долей, приходящейся в стратегии на ходы НОВАТОРСТВОВАТЬ и НАБЛЮДАТЬ по сравнению с ходом ПРИМЕНЯТЬ, и успехами данной стратегии в состязании. В лидирующих по эффективности стратегиях научению уделялась лишь небольшая часть времени (5–10 %), а все остальное отводилось на то, чтобы «монетизировать» накопленный опыт, разыгрывая ПРИМЕНЯТЬ. Приобретать приспособленность напрямую стратегия может только разыгрывая ПРИМЕНЯТЬ. А значит, каждая попытка усвоить новое поведение – путем НОВАТОРСТВА или путем НАБЛЮДЕНИЯ – отнимает шанс на получение отдачи, который дало бы разыгрывание варианта ПРИМЕНЯТЬ. Таким образом, чтобы пробиться в жизни, нужно поскорее что-то усвоить, а затем усвоенное ПРИМЕНЯТЬ, ПРИМЕНЯТЬ и ПРИМЕНЯТЬ, вплоть до самой смерти. Отрезвляющий урок для таких людей, как я, у которых школа или университет – второй дом.
Если все же прибегать к научению, то лучше всего, как выяснилось, использовать подражание. Мы выявили устойчивую прямую связь между долей, отводившейся в стратегии ходам НАБЛЮДАТЬ по сравнению с НОВАТОРСТВОВАТЬ, и успехами этой стратегии в состязании. Самые успешные стратегии разыгрывали ходы с научением не очень часто, но, когда делали это, почти всегда пользовались вариантом НАБЛЮДАТЬ. Однако за нехитрой на первый взгляд корреляцией между подражанием и успехом скрывалась более сложная зависимость, обнаруживаемая только при внимательном анализе. В целом самые успешные стратегии, прошедшие в меле второго этапа, объединяла общая закономерность: чем больше при научении использовалось НАБЛЮДАТЬ по сравнению с НОВАТОРСТВОВАТЬ, тем выше были результаты. При этом у стратегий, что выступили похуже, мы отмечали противоположное – чем больше доля подражания, тем ниже результаты. Из этого мы узнали кое-что весьма интересное: подражание не всегда благо. Подражание окупается, только если использовать его эффективно.
Стратегии-неудачницы пользовались подражанием себе в ущерб, поскольку, выбирая НАБЛЮДАТЬ, они пропускали ход ПРИМЕНЯТЬ с возможностью реализовать накопленный опыт, а простым разыгрыванием НАБЛЮДАТЬ пополнение репертуара агента новыми поведенческими моделями не гарантировано. На социальном научении это действительно сказалось очень сильно – на первом этапе турнира выбор хода НАБЛЮДАТЬ в 53 % случаев не вызывал нового поведения в репертуаре агента (в основном потому, что наблюдаемое поведение оказывалось ему уже известным). После хода НОВАТОРСТВОВАТЬ, напротив, всегда следовало новое поведение. Турнир подтвердил интуитивное предположение, с которого я начал эту главу: неудачное подражание к успеху не приведет. Повторю, чтобы подражание окупилось и увеличило индивидуальную приспособленность, оно должно использоваться эффективно.
Следующей нашей задачей было вычленить те свойства выигрывающих стратегий, которые обусловливали их превосходство. Как обнаружилось, критическим фактором выступает выбор момента для научения. В успешных стратегиях периоды научения совпадали с переменами в окружающей среде. Как мы помним, именно успешные стратегии в большинстве раундов разыгрывали ПРИМЕНЯТЬ, раз за разом выбирая из своего репертуара модель поведения, обеспечивающую наибольшую отдачу. Но перемены в окружающей среде влекут за собой перемены и в окупаемости поведения, взятого однажды за образец, причем, как правило, это перемены к худшему. Поведенческие модели, которые прежде приносили дивиденды, перестают быть выгодными. Вот тогда-то и следует разыгрывать ход НАБЛЮДАТЬ, поскольку возникает вероятность перенять поведение с большей окупаемостью. Ведь агенты, имеющие в своем репертуаре поведенческие модели, подходящие для новых условий, продолжат ПРИМЕНЯТЬ, а значит и предоставлять для подражания свое выгодное в новом контексте поведение. Другие же агенты, отдача от поведения которых резко упала, напротив, переключаются на роль учеников и приступают к научению, а следовательно, их менее выгодное поведение окажется теперь недоступно для подражания. Приурочивая таким образом научение к переменам, успешные стратегии повышали шансы агентов приобрести поведенческие модели, подходящие для новых условий.
Проигрывающие стратегии, в отличие от лидеров, не только чересчур усердствовали с научением, но и выбирали для него неверные моменты. Если окружающая среда неизменна, подражание нередко вызывает воспроизведение поведенческих паттернов, которые уже существуют в репертуаре агента. Чем практиковать научение в неверный момент, лучше было бы разыгрывать ход НОВАТОРСТВОВАТЬ, он, по крайней мере, гарантирует новое поведение. В результате для менее успешных разработок характерна обратная зависимость между подражанием и приспособленностью.
Ну а победила в турнире стратегия, которой ее авторы дали название ДИСКОНТ-АВТОМАТ[9]. Она детище двух дипломников из Королевского университета в Онтарио{291} – Дэна Каундена и Тима Лилликрапа. Дэн – математик, Тим – специалист по нейроинформатике, так что команда у них получилась солидная. Над своей стратегией они работали не один месяц, положив немало сил на то, чтобы изобрести оптимальный вариант, поэтому их выигрыш стал убедительным и заслуженным. Стратегия ДИСКОНТ-АВТОМАТ опередила конкурентов и в круговом состязании, где выиграла в 89 % поединков, и в групповом бое{292}. ДИСКОНТОМ-АВТОМАТОМ Тим и Дэн назвали свою стратегию потому, что она «уценяла» усвоенное знание по мере его устаревания и придавала свежеобретенным сведениям большее