Шрифт:
Интервал:
Закладка:
На первом этапе сложнее всего было разработать игру для предстоящего турнира. Аксельроду в этом отношении оказалось проще, поскольку дилемма заключенного к тому времени уже зарекомендовала себя как инструмент исследования феномена сотрудничества – это была хорошо известная игра со знакомыми правилами. Для социального же научения никакого зарекомендовавшего себя аналога не существовало. Мы с Люком быстро осознали, что вся затея практически полностью зависит от того, сумеем ли мы правильно подобрать игру. Чем больше мы об этом раздумывали, тем очевиднее становилось, как велик шанс все провалить. То есть мы легко могли придумать игру скучную, в которой никто не захочет принимать участие, или бесполезную, совершенно оторванную от реальной жизни, или, самое досадное, банальную, которая вызовет лавину столь же банальных решений.
Опасаясь этого, мы решили созвать что-то вроде совета экспертов, в который пригласили специалистов по социальному научению, культурной эволюции и теории игр, чтобы они помогли нам организовать турнир наиболее разумно и продуктивно. В этот совет вошли Роберт Бойд из Калифорнийского университета в Лос-Анджелесе, Магнус Энквист и Киммо Эрикссон из Стокгольмского университета, а также Маркус Фельдман из Стэнфорда – все они крупные величины в области культурной эволюции и теории игр. Кроме того, нам очень пригодились помощь и рекомендации Роберта Аксельрода, Лорел Фогарти из Сент-Эндрюса и Стефано Гирланды из Болонского университета. Мы были в восторге от того, что удалось собрать такую авторитетную команду.
Полтора года мы интенсивно обсуждали порядок турнира, проигрывая разные сценарии на компьютерном симуляторе и соревнуясь между собой. Игра прошла три отдельные итерации – дважды нам пришлось, несмотря на все потраченные усилия, отказываться от разрабатываемого варианта как от нежизнеспособного. Когда такое случилось во второй раз – после того как Киммо с Магнусом обнаружили слабые места в структуре планируемого состязания, – мы с Люком были в отчаянии. Однако нет худа без добра: в результате мы спроектировали новую версию, отличающуюся гениальной простотой.
Модель, на которой мы в конце концов остановились, получила название «Многорукий бандит». Вам наверняка знаком «однорукий бандит» – игровой автомат, который запускается прикрепленным сбоку рычагом («рукой»). Игрок опускает монету в специальную прорезь, дергает рычаг и (с определенной долей вероятности, гарантирующей владельцу автомата устойчивую прибыль) срывает куш. А теперь представьте игровой автомат с сотней отдельных рычагов, дающих совершенно разную вероятность выигрыша. При достаточной практике увлеченный игрок может вычислить, какие рычаги приносят крупный выигрыш, а какие оставляют искателя удачи ни с чем. Аналогом такой вот непростой задачи по определению нужных рычагов и явилась наша игра.
Мы представили себе гипотетическую популяцию неких существ – назовем их агентами, – вынужденных выживать в незнакомом изменчивом мире, полном трудностей и препятствий. Агентов могло, например, выбросить на тропический остров, который приходится собственными силами осваивать и на котором надо самим добывать пропитание. Можно охотиться на зайцев, ловить рыбу в реке, выкапывать клубни, собирать фрукты, вырастить что-то самостоятельно и т. д. Мы составили сотню альтернативных поведенческих моделей, каждая из которых обладала свойственной только ей окупаемостью. У небольшого количества моделей в нашем вымышленном мире окупаемость оказывалась очень высокой, большинство же приносили весьма незначительный эффект{283}. Соответственно, чтобы преуспеть, агенту, как игроку перед «многоруким» автоматом, требовалось вычислить действительно выигрышные поведенческие модели и активно следовать именно им. Если использовать термины эволюционной биологии, можно сказать, что чем больше отдачи от своих действий агенту удастся добиться в течение жизни, тем выше будет его приспособленность.
В реальности окупаемость, например выращивания ячменя или охоты на бизонов, каждый раз оказывается разной и зависит от погоды, времени года, колебаний в численности объектов охоты и их доступности. Точно так же мы сделали и в нашей игре – имитируемая среда регулярно менялась, приводя к разнице в выигрышах, связанных с каждой из поведенческих моделей. Достоинство такой схемы, получившей название «неугомонный бандит», заключалось в том, что ее было крайне трудно, почти невозможно, оптимизировать аналитическим методом{284}, а значит, мы могли быть уверены, что наш турнир заставит участников хорошенько поломать голову. Кроме того, мы имитировали эволюцию, отправляя в случайном порядке агентов на гибель и заменяя их потомками других агентов, которые приобрели повышенную адаптивность, придерживаясь поведенческих моделей с большой окупаемостью. Потомок агента наследовал стратегию социального научения от родителя – благодаря этому в ходе естественного отбора количество эффективных стратегий в популяции возрастало.
Турнир был разделен на раунды, в каждом из которых каждый агент должен был выбрать один из трех возможных ходов – НОВАТОРСТВОВАТЬ, НАБЛЮДАТЬ или ПРИМЕНЯТЬ. Понятие НОВАТОРСТВОВАТЬ предполагало несоциальное научение. Делая этот ход, агент усваивал новое поведение{285} (вместе с его окупаемостью) точно и безошибочно. Усваивать новое поведение агентам приходилось потому, что рождались они без всякого поведенческого репертуара и должны были накопить некий арсенал действий, чтобы выявить среди них высокоокупаемые. Другой ход – НАБЛЮДАТЬ – подразумевал любые формы социального научения. Выбирая этот вариант, агент подражал поведению одного из агентов или нескольких агентов, выбранных случайным образом среди прибегавших к тому или иному поведению в предшествующем раунде, и также принимал связанную с данной поведенческой моделью окупаемость. Однако научение через наблюдение влекло за собой две вероятные ошибки: агент-наблюдатель мог неправильно понять демонстрируемое поведение (и в результате усвоить искаженную версию) или неправильно оценить его окупаемость. В отличие от НОВАТОРСТВОВАТЬ ход НАБЛЮДАТЬ не гарантировал включение новой поведенческой модели в репертуар агента. Если объект наблюдения совершал что-то уже известное наблюдателю, ничего нового не усваивалось и в этом раунде ход НАБЛЮДАТЬ оказывался для игрока непродуктивным. Вероятность ошибки при социальном научении, количество объектов наблюдения, которыми выступали другие агенты, степень изменчивости среды и ряд других факторов относились к параметрам, которые на протяжении турнира систематически варьировались организаторами. И, наконец, третий ход, ПРИМЕНЯТЬ, предполагал следование той или иной поведенческой модели из репертуара агента и был, по сути, эквивалентом нажатия на рычаг автомата и получения выигрыша. Разумеется, агенты могли ПРИМЕНЯТЬ только те поведенческие паттерны, которые они успели к этому времени усвоить. Считалось также, что участники игры помнят поведение, усвоенное в предшествующих раундах, и полученную в каждом случае отдачу.
Таким образом, в игре следовало добиться стойкого равновесия между исследованием и использованием{286}. Агентам нужно было посредством новаторства и наблюдения обеспечить себе репертуар моделей высокоокупаемого поведения, но получить отдачу и тем самым обрести некоторую приспособленность можно было, лишь сделав ход ПРИМЕНЯТЬ. От участников нашего турнира требовалось составить набор правил, описывающих, как подконтрольные им агенты (реализующие разработанную стратегию) будут выбирать ходы из трех имеющихся в их распоряжении вариантов{287}. В победителях окажется та стратегия, в которой удастся наиболее эффективно сочетать новаторство, наблюдение и применение. Систематически варьируя условия (например, заставляя окружающую среду меняться то резко и стремительно, то плавно и постепенно, либо манипулируя частотой появления ошибок, связанных с наблюдением), мы сможем выяснить, когда выгодно подражать другим, а когда рентабельнее учиться на собственном опыте.
Оценивать стратегии планировалось в два этапа. Первый, как и на турнирах Аксельрода, предполагал состязание по круговой системе, когда каждая стратегия по очереди мерилась эффективностью с другими стратегиями{288}. Десять самых успешно показавших себя по результатам всех поединков стратегий переходят на второй этап, который мы назвали меле[8]. В этой схватке все десять стратегий сходятся «врукопашную», при расширенном по сравнению с первым этапом диапазоне имитированных обстоятельств. Победителем станет стратегия