Шрифт:
Интервал:
Закладка:
К моменту старта проекта Яndex поисковая система умела выполнять проверку уникальности найденных документов (исключение копий в разных кодировках), Яndex учитывал морфологию русского языка (и поиск по точной словоформе), осуществлял поиск с учетом расстояния (в том числе в пределах абзаца — точное словосочетание), а тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу) учитывал не только количество слов запроса, найденных в тексте, но и его относительную частоту для данного документа, расстояние между словами и положение слова в документе.
Практически одновременно со стартом Яndex в публичном пространстве появился раздел «Сказки» (наблюдения за содержанием русского Интернета). Первая опубликованная 30 сентября 1997 г. сказочная история называлась «Web — гуманизм или чернуха?». Выглядела она довольно пафосно.
Web — гуманизм или чернуха? Сегодня можно точно ответить — гуманизм, со счетом 404 на 134. Перевес (в три раза) — солидный для нашего времени. Запустив наконец свою поисковую машину, мы получили удобную возможность исследовать русский Web «от себя лично», не думая о том, что иностранные поисковые машины не понимают русские кодировки и вообще далеко от России, а также не мучаясь над заданием всех склонений и спряжений.
Любители изящной словесности и ревнители русского языка скажут, что сравнение «чернуха — гуманизм» слишком прямолинейно и недостаточно для столь сильного вывода. Попробуем привести ряд примеров, которые нам представляются убедительными. Простейшая антитеза: «добро — зло». Получается: добро (3710) + добрый (10 098) + доброта (593) = 14 401; зло (3153) + злой (3248) + злость (453) = 6854. Соотношение: 14 401 / 6854 = 2,1.
Аналогичные примеры: счастье (6876) + счастливый (5672) = 12 548; несчастье (1301) + несчастливый (208) + несчастный (3082) = 4591, соотношение: 12 548 / 4591 = 2,73; хорошо (28 174) + хороший (26 295) = 54 469, плохо (12 134) + плохой (6697) = 18 831, соотношение: 54 469 / 18 831 = 2,89.
Более сложный пример: любовь (17 699) + любимый (9101) + любить (19 836) = 46 636 перекрывает не только: ненависть (1313) + ненавистный (306) + ненавидеть (1460) = 2079, но и большой список вроде — секс (2816) + сексуальный (2803) + порно (123) + порнографический (339) + эротика (554) + эротический (1072) + порнуха (96) = 6803. Соотношение: 46 636 / (2079 + 6803) = 5,25.
Набор слов: мерзавец (305) + негодяй (559) + подлец (394) + сволочь (669) = 1927 перекрывается набором — вера (7013) + надежда (10 450) + любовь (17 699) = 35 162. Даже если убрать все имена собственные (наш язык запросов отличает слова с большой и маленькой буквы), то получится Вера (2570) + Надежда (2375) + Любовь (3357) = 8302, остается 35 162 — 8302 = 26 860. А «неверия» всего 141. Соотношение: 26 860 / (1927 + 141) = 11,26.
Приведенные результаты оказались для нас самих приятны и несколько неожиданны. Все, кого заинтересовала эта «занимательная арифметика», могут провести собственное исследование, зайдя на сервер http://yandex.ru и воспользовавшись поисковой системой Яndex-Web. Можно делать и более сложные эксперименты, сравнивать словосочетания (язык запросов Яndex позволяет находить два слова подряд).
Запрос «хороший / 1 человек» («хороший» стоит сразу до или сразу после слова «человек», и все это во всех склонениях) находит 308 документов. Запрос «(плохой, нехороший) / 1 человек» («плохой» или «нехороший» сразу до или после «человек») — 85. Даже вместе со словом «редиска» (46 документов) проигрывает более чем в два раза.
Мудрено (я бы даже сказал — заумно), а главное — натянуто, выспренно. Похоже, инициаторы «Яндекса» хотели успокоить себя и потенциальных пользователей Интернета — на тот момент, конечно, изысканную, образованную и чаще моральную публику, которая, соответственно, мучилась нравственными вопросами (в отличие от подавляющего большинства пользователей нынешней Сети).
К концу ноября 1997 г. уже был реализован принцип естественно-языкового запроса. То есть к http://yandex.ru можно было обращаться просто «по-русски», например: «где купить компьютер», «генетически модифицированные продукты» или «коды международной телефонной связи». Яndex на тот момент умел выполнять проверку уникальности найденных документов, исключая из результатов поиска сохраненные в различных кодировках веб-страницы с одинаковым содержимым, осуществлять оценку расстояния между искомыми словами в обнаруженных документах и определять «точность» поиска.
Разговаривайте с «Яндексом» человеческим языком! Этот призыв из 1997 г. актуален и по сей день. В конце 1997 г. средняя длина запроса равнялась всего 1,2 слова (примерно в два с небольшим раза короче нынешнего запроса).
И, конечно, базовым и уникальным свойством поискового ядра «Яндекса» был изначальный учет морфологии русского языка (в том числе и поиск по точной словоформе).
В декабре 1997 г. стало известно о том, что ссылка на Яndex появится в русской версии Internet Explorer 4.0. Это было настоящим событием и новой победой.
На тот момент поисковая машина http://yandex.ru обрабатывала до 300 запросов в день. Проект модерировали пять человек.
Для сравнения, чтобы понять уровень отметки старта проекта: через пять лет, в 2002 г., число ежедневных запросов вырастет до 2 млн, а еще через десять лет «Яндекс» будет обрабатывать ежедневно около 150 млн запросов.
По мнению Воложа, примерно через полгода стало ясно, что поисковая машина http://yandex.ru «оказалась не демонстрационной технологией, а реально востребованным сервисом, люди пользовались “Яндексом” именно для поиска в Интернете».
И понятно, что «Яндекс» изначально пошел по правильному пути, заложив в основу поиска закономерности русского языка, в отличие от других поисковиков, основанных на закономерностях английского языка, в котором слова практически не склоняются.
Первую версию дизайна «Яндекса» и, собственно, главной страницы http://yandex.ru (23 сентября 1997 г.) делал дизайнер Артемий Лебедев. Впрочем, как и все последующие. Вот как он сам будет вспоминать спустя десятилетие с начала многолетнего сотрудничества с «Яндексом».
«Пришли ребята, которые торговали какими-то железками, и у них была поисковая технология. Мы, значит, как-то встречались, рисовали какие-то дизайны. Ели булочки на кухне. Все это было очень весело и хорошо. Никто не знал, что будет. И я про себя тоже не знал, что будет. У меня не было мысли о том, что у меня будет студия, в которой у меня работает 300 человек. Не к этому шел и не об этом мечтал. Это само собой получилось. Я не думал, что у нас будут магазины, что мы откроем кафе и что мы будем еще сами производить электронику. “Яндекс” был просто в каком-то НИИ. Там сидели приятные люди и каждый день смотрели на “Рамблер”, на то, какой он крутой, и на свою строчку поиска: ну, типа, мы никогда их не догоним. И два или три года “Яндекс” догонял “Рамблер”, и никому не могло прийти в голову, что все будет так. У первой версии главной страницы “Яндекса” была левая колонка, которая называлась “Горячие новости”, и горячие новости были проиллюстрированы бычком. Тогда мне казалось, что это уместный юмор интернетовский, и в “Яндексе”, как сейчас было бы, не встали 300 маркетологов, не стукнули тремя сотнями кулаков по столам и не сказали: “Вы что? Кто этот человек и почему он портит наш светлый имидж?!” Когда я вывесил через десять лет эту страницу, они обиделись и написали мне, чтобы я убрал бычок, потому что этого никогда не было. А он был».