litbaza книги онлайнРазная литератураОхота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 186 187 188 189 190 191 192 193 194 ... 482
Перейти на страницу:
«цифровой вселенной» и пришла к выводу, что к 2025 г. человечество накопит 175 зеттабайт данных (по сравнению с 33 зеттабайтами в 2018 г.)[1752]. Вдумайтесь только: один зеттабайт равен одному триллиону гигабайт. Если бы мы могли записать всю эту информацию на DVD-диски с максимальной плотностью записи (17,08 Гб), то получили бы более 10 трлн дисков, а сложив эти диски вместе, мы получили бы стопку высотой более 12 млн километров, что примерно в 30 раз больше расстояния от Земли до Луны.

Таким образом, по оценке IDC, «датасфера» человечества в течение следующих пяти лет будет удваиваться приблизительно каждые три года, а за год увеличиваться примерно в 1,27 раза. Интересно посмотреть на прогнозы IDC в ретроспективе. Доклад 2012 г. прогнозировал, что к 2020 г. количество накопленных данных достигнет 40 зеттабайт[1753]. Похоже, мы опередили этот план чуть больше чем на год.

Не только количество, но и качество в данном случае имеет значение. Расширение области применения алгоритмов машинного обучения создало целую сопутствующую индустрию по разметке данных. В рассказе о механическом турке фон Кемпелена мы уже упоминали платформу Amazon Mechanical Turk (MTurk), созданную для коллективной обработки данных. Идея этого сервиса впервые появилась в патентной заявке предпринимателя Венки Харинараяна, поданной им в США в 2001 г.[1754] Идея заключалась в том, чтобы не просто привлечь людей к разметке данных в целях последующей автоматизации, а чтобы временно сделать людей частью производственных процессов по обработке данных там, где машины пока ещё не могут работать эффективнее, чем люди. В Amazon был придуман специальный термин для такого применения человеческого труда — «искусственный искусственный интеллект» (artificial artificial intelligence).

MTurk была официально запущена 2 ноября 2005 г. К середине ноября 2005 г. в системе было создано несколько десятков тысяч задач (на MTurk для них используется термин HIT — human intelligence task, задача для человеческого интеллекта), заказчиком которых была сама Amazon. К числу типичных заданий на MTurk относятся расшифровка (например, аудиозаписей), оценка (например, качества изображений), расстановка тегов (например, для видеороликов), заполнение опросов, написание текстов и так далее. В 2007 г. владельцы сервиса сообщали, что всего на платформе зарегистрировано 100 000 работников из более чем 100 стран мира, а в 2011 г. — уже 500 000 работников из более чем 190 стран.

В 2014 г. в России компания «Яндекс» создала собственный, популярный ныне сервис разметки «Яндекс.Толока»[1755]. Сегодня у нас в стране и за рубежом создан целый ряд сходных платформ. Одни из них делают упор на геймификацию процесса, другие в качестве конкурентных преимуществ заявляют наличие разметчиков, обладающих специализированными знаниями или сертификатами, третьи создаются крупными компаниями для разметки данных, которые не могут по какой-либо причине передаваться сторонним подрядчикам. К разметке данных, помимо сотрудников компаний и фрилансеров, привлекают даже заключённых и должников банков.

Платформы, подобные MTurk, часто считают характерным примером краудсорсинга (crowdsourcing, от crowd — толпа и sourcing — использование ресурсов). Это слово, изобретённое в 2005-м и впервые употреблённое в публичном пространстве в 2006 г., прочно вошло в лексикон предпринимателей, футурологов, философов и журналистов, хотя до сих пор по поводу его определения существуют некоторые разногласия. Общепринято, что под краудсорсингом понимается объединение людей (обычно в интернете) для выполнения какой-либо задачи совместными усилиями. Расхождения в определении начинаются с вопросов о том, в обязательном ли порядке труд участников является добровольным и безвозмездным, обязательно ли плоды этого труда являются общественным достоянием, кто может выступать в роли инициатора краудсорсинга. На самом деле противоречия были заложены в понятие фактически «от рождения». Один из его «отцов» Джефф Хау в 2006 г. писал:

Мне нравится использовать два определения для краудсорсинга:

Версия «белой книги» [White Paper]: краудсорсинг — это процесс передачи работы, традиционно выполняемой назначенным агентом (обычно сотрудником), на аутсорсинг неопределённой, как правило, большой группе людей в форме открытого призыва.

Версия Soundbyte: применение принципов открытого программного обеспечения [Open Source] к областям деятельности, не относящимся к программному обеспечению[1756].

Под «белой книгой» в данном случае понимается статья[1757] Хау в издании Wired, которая увидела свет в январе 2006-го и впервые сделала термин «краудсорсинг» достоянием общественности.

Словарь Мерриам — Уэбстера даёт[1758] определение, максимально приближенное именно к определению «белой книги»; если же мы выберем определение от Soundbyte, то MTurk внезапно перестанет быть краудсорсинговой платформой. Чтобы справиться с возникшими затруднениями, два храбрых исследователя из Университета Валенсии, Энрике Эстельес-Аролас и Фернандо Гонсалес-Ладрон-де-Гевара, предприняли смелую партизанскую операцию, опубликовав в Journal of Information Science работу под названием «К интегрированному определению краудсорсинга» (Towards an integrated crowdsourcing definition), в которой проанализировали 209 текстов, а также 40 найденных ими определений понятия «краудсорсинг». Авторы статьи выделили в каждом из определений основные признаки и рассмотрели образуемые определениями группы. Результатом работы стало новое, сорок первое определение краудсорсинга, звучащее следующим образом: «Краудсорсинг — это тип интерактивной онлайн-деятельности, в которой физическое лицо, учреждение, некоммерческая организация или компания посредством гибкого открытого призыва предлагают группе лиц с различными знаниями, степенью разнородности и количеством участников добровольно выполнить некоторую задачу. Выполнение задачи различной сложности и состава, в котором группа должна участвовать, внося свой вклад в форме работы, денег, знаний и/или опыта, всегда подразумевает взаимную выгоду. Участник получит удовлетворение некоторых потребностей, например экономических, потребности в социальном признании, увеличении самооценки или развитии индивидуальных навыков, в то время как краудсорсер получит и использует в своих интересах то, что участник принёс предприятию в зависящей от вида предпринятой деятельности форме»[1759].

Лично мне больше всего нравится именно это определение, поскольку чтение его перед сном позволяет мне получить удовлетворение некоторой потребности, а именно потребности в скорейшем наступлении сна, что, в свою очередь, позволяет мне с большим успехом впоследствии добиться наиболее полного удовлетворения потребностей в социальном признании, развитии индивидуальных навыков, а также экономических потребностей.

Ну а если серьёзно, то современные нейросетевые модели для решения задач в области обработки естественного языка нередко используют в качестве элемента обучающей выборки полный текст «Википедии», исследователи обращаются к помощи волонтёров в рамках проектов «гражданской науки», корпоративные разработчики используют внутренние данные и популярные площадки для разметки данных, расплачиваясь с разметчиками при помощи микротранзакций, приверженцы открытости в науке и разработке программного обеспечения выкладывают в общий доступ собственные массивы данных, хитрые маркетологи занимаются веб-скрейпингом (извлечением данных со страниц веб-ресурсов) или сбором пользовательских данных через игры, тесты и другие вирусные развлечения в социальных сетях, а владельцы социальных сетей вяло судятся с теми, кто пытается использовать без спроса публичные данные из профилей

1 ... 186 187 188 189 190 191 192 193 194 ... 482
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?