litbaza книги онлайнРазная литератураРазберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 43 44 45 46 47 48 49 50 51 ... 69
Перейти на страницу:
взаимодействуете каждый день, является неструктурированной. Эти данные содержатся в текстах, которые вы читаете, в словах и предложениях электронных писем, новостных статей, сообщений в социальных сетях, обзоров продуктов на Amazon, статей в «Википедии» и книги, которую вы держите в руках.

Эти неструктурированные текстовые данные также можно проанализировать, но с ними нужно обращаться несколько иначе – о чем мы и поговорим в этой главе.

Ожидания от текстовой аналитики

Прежде чем углубиться в тему, мы хотели бы поговорить об ожиданиях от текстовой аналитики. На протяжении многих лет этому виду аналитики уделялось достаточно большое внимание. Одним из способов ее применения является анализ настроений, позволяющий определять эмоции автора публикации в социальных сетях, комментария или жалобы. Однако, как вы увидите далее, проанализировать текст не так-то просто. К концу этой главы вы поймете, почему некоторые компании преуспевают в использовании текстовой аналитики, а другие – нет.

Многие люди уже представляют, на что способны компьютеры, анализирующие человеческий язык, благодаря огромному успеху компьютера IBM Watson в викторине Jeopardy! в 2011 году[106] и более поздним достижениям в области разработки систем распознавания речи (например, Alexa от Amazon, Siri от Apple и Assistant от Google). Такие системы перевода, как Google Translate, достигли уровня производительности, близкого к человеческому, за счет использования машинного обучения (в частности, контролируемого). Эти приложения по праву считаются одними из самых выдающихся достижений в области компьютерных наук, лингвистики и машинного обучения.

Именно поэтому предприятия имеют чрезвычайно большие ожидания, когда начинают анализировать имеющиеся у них текстовые данные: комментарии клиентов, результаты опросов, медицинские записи – любой текст, хранящийся в базах данных. Если уж путешественники могут перевести свою речь на один из сотни языков за долю секунды, то и компания, безусловно, сможет проанализировать тысячи комментариев клиентов, чтобы выявить самые насущные проблемы. Верно?

Ну, может, и так.

Технологии анализа текста, хоть и позволяют решать масштабные и сложные задачи, вроде преобразования голоса в текст и речевого перевода, но часто не справляются с задачами, которые кажутся гораздо более простыми. И мы по опыту знаем, что, когда компании приступают к анализу собственных текстовых данных, их часто постигает разочарование. Короче говоря, анализировать текст сложнее, чем может показаться. И как главный по данным, вы должны учитывать это при формулировании своих ожиданий.

Цель этой главы – преподать вам основы текстовой аналитики[107], которая позволяет извлекать полезную информацию из необработанного текста. Имейте в виду, что мы коснемся этой развивающейся области лишь вскользь. Однако мы надеемся, что это позволит вам получить некоторое представление о ее возможностях и проблемах. Благодаря этому по мере появления новых разработок в этой области вы сумеете понять, что из них может оказаться полезным, а что – нет. Как и в случае с любым другим направлением, чем больше вы его изучаете, тем лучше представляете его возможности, а также вырабатываете некоторый скептицизм, вполне приличествующий главному по данным.

В следующих разделах мы поговорим о том, как обнаружить структуру в неструктурированных текстовых данных, какому анализу вы можете их подвергнуть, а затем вернемся к вопросу о том, почему крупнейшие технологические компании могут добиться научно-фантастического прогресса в анализе своих текстовых данных, в то время как остальные могут испытывать с этим трудности.

Как текст превращается в числа

Читая текст, люди понимают настроение, сарказм, намеки, нюансы и смысл. Иногда это даже невозможно объяснить: стихотворение вызывает в памяти воспоминание, шутка заставляет смеяться.

Так что совсем не удивительно, что компьютер не понимает смысла так же, как это делает человек. Компьютеры могут лишь «видеть» и «считывать» числа. Чтобы проанализировать массу неструктурированных текстовых данных, их необходимо сначала преобразовать в числа и уже знакомые вам структурированные наборы данных. Это преобразование неструктурированного и запутанного текста, содержащего орфографические ошибки, сленг, смайлики или аббревиатуры, в аккуратный структурированный набор данных из строк и столбцов может быть весьма субъективным и трудоемким процессом. Сделать это можно несколькими способами; три из них мы рассмотрим далее.

Большой мешок слов

Самый простой способ преобразования текста в числа предполагает создание модели «мешка слов», которая игнорирует порядок слов и грамматику. В результате фраза «Это предложение является очень большим мешком слов» преобразуется в набор, называемый документом, в котором каждое слово является идентификатором, а количество слов – признаком. Порядок слов не имеет значения, поэтому мы сортируем содержимое мешка по алфавиту: {большим: 1, мешком: 1, очень: 1, предложение: 1, слов: 1, это: 1, является: 1}.

Кратко об облаках слов

Прежде чем двигаться дальше, давайте поговорим об облаках слов; это первое, с чем сталкиваются люди, интересующиеся текстовой аналитикой. Облако слов – это простое визуальное представление, в котором размер слова зависит от частоты, с которой оно встречается в словаре. Облако слов из текста данной главы показано на рис. 11.1[108].

Рис. 11.1. Облако слов из текста данной главы

Вам удалось извлечь какую-нибудь полезную информацию из рис. 11.1? Вероятно, нет. Мы понимаем, что облака слов – отличный маркетинговый материал, но мы не их фанаты и не рекомендуем их использовать даже в качестве инструмента визуализации, поскольку анализировать частоту встречаемости слова в тексте по размеру шрифта гораздо сложнее, чем по длине столбика гистограммы.

Каждый идентификатор называется токеном. Набор токенов из всех документов – словарем.

Разумеется, ваши текстовые данные будут содержать не один документ, поэтому мешок слов может стать очень большим. Каждое уникальное слово и вариант написания станет новым токеном. Вот как будет выглядеть таблица, в каждой строке которой содержится предложение (комментарий, отзыв о продукте и так далее).

Для необработанного текста:

– Это предложение является очень большим мешком слов.

– Это является большим мешком с продуктами.

– Это предложение состоит из двух слов.

Мешок слов будет выглядеть так, как показано в табл. 11.1, где точки данных – количество того или иного слова в предложении.

Табл. 11.1. Преобразование текста в числа методом «мешка слов». Числа обозначают количество того или иного слова (токена) в соответствующем предложении (документе)

Глядя на табл. 11.1, называемую матрицей «документ – термин» (один документ в строке, один термин в столбце), становится понятно, что базовая текстовая аналитика может сводиться к подсчету количества повторений каждого из слов (самое популярное слово – «это») и определению предложения, содержащего максимальное количество токенов (первое предложение). Хотя приведенный пример не особенно интересен, именно

1 ... 43 44 45 46 47 48 49 50 51 ... 69
Перейти на страницу:

Комментарии
Минимальная длина комментария - 20 знаков. Уважайте себя и других!
Комментариев еще нет. Хотите быть первым?