Страница 18 из 19

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

Фрэнкс Билл

Богатство возможностей телематики являет собой пример использования больших данных таким способом, который не предусматривался изначально. Часто наиболее эффективные способы применения того или иного источника данных кардинально отличаются от задуманных. Постарайтесь рассмотреть альтернативные методы использования каждого источника больших данных, с которым вы сталкиваетесь.

Как только исследователи получат доступ к тысячам автомобилей в каждый час пик, каждый день, в каждом городе они смогут досконально разобраться в причинах возникновения пробок и их последствиях. Они ответят на такие вопросы:

• Какое влияние на дорожное движение оказывают шины?

• Что произойдет, если левый ряд будет заблокирован?

• Каковы последствия сбоя синхронизации работы светофоров?

• Какие из перекрестков регулируются неэффективно, даже если они регулируются так, как было задумано?

• Как быстро пробка на одной полосе распространяется на другие полосы?

Сегодня ответить на эти вопросы позволяет только целенаправленное и дорогостоящее тестирование. Можно поставить на конкретный участок дороги человека, который будет фиксировать нужную информацию. Или установить датчики для подсчета проезжающих мимо автомобилей. Или поставить видеокамеру. Однако высокие расходы, связанные с использованием этих методов, ограничивают область их применения.

Упомянутые телематические данные – мечта инженера транспортного планирования. Если телематические устройства получат распространение, то можно будет изучить любой населенный пункт, достаточно многочисленный для того, чтобы на дорогах образовывались пробки. Изменения дорог и систем управления, а также планов их создания дадут огромные преимущества всем. Телематика изначально задумывалась как механизм, облегчающий процесс определения страховых тарифов. Однако она может кардинально изменить управление системами автомагистралей и улучшить нашу жизнь, уменьшив уровень стресса, который мы испытываем, простаивая в пробках.

Разные отрасли: значение текстовых данных

Текст – один из самых мощных и широко используемых источников больших данных. Только представьте себе существующий совокупный объем текста! Есть электронные письма, текстовые сообщения, твиты, комментарии в социальных медиа, мгновенные сообщения, чаты и аудиозаписи, переведенные в текст. Текстовые данные – один из наименее структурированных источников данных. К счастью, на сегодняшний день уже многое сделано для того, чтобы освоить текстовые данные и использовать их для принятия более эффективных бизнес-решений.

Анализ текста обычно начинается с его разбора и осмысления различных слов, фраз и компонентов, из которых он состоит. Это может быть сделано путем простого подсчета частотности употребления или с помощью более сложных методов. Существует дисциплина под названием «Обработка естественного языка», она часто используется в таких аналитических методах. Но это не является предметом обсуждения в данной книге. Инструменты для интеллектуального анализа текста существуют в качестве как компонентов основных аналитических систем, так и автономных приложений для анализа текста.

В основе одних инструментов для анализа текста лежит подход, при котором пользователи должны настроить программное обеспечение для идентификации интересующих их закономерностей. Другие инструменты используют машинное обучение и прочие алгоритмы, позволяющие отыскивать модели автоматически. Каждый подход имеет свои преимущества и недостатки, однако их обсуждение выходит за рамки этой книги. Мы сосредоточимся не на получении результатов, а на их использовании.

После разбора и классификации приступают к анализу. Результаты, полученные в процессе анализа текста, часто используются в качестве входных данных для других аналитических процессов. Например, после определения тона электронного письма клиента генерируется переменная, которая определяет тон заказчика как негативный или позитивный. Теперь этот тег – часть структурированных данных, которые можно использовать в качестве входных для аналитического процесса. Создание структурированных данных на основе неструктурированного текста часто называется извлечением информации.

В качестве другого примера предположим, что мы знаем, о каких товарах клиент оставил комментарии в процессе общения с нашей компанией. Мы создаем набор переменных, которые определяют товары, обсуждаемые клиентом. Эти переменные также представляют собой структурированные метрики, которые можно использовать в процессе анализа. Эти примеры показывают способы сбора фрагментов неструктурированных данных и создания из них релевантных и структурированных данных.

Анализ текста – отличный пример того, как абсолютно неструктурированные данные могут быть обработаны и превращены в структурированные, которые используются в традиционных аналитических процессах. Один из основных аспектов процесса укрощения больших данных заключается в применении творческого подхода к процессу подготовки неструктурированных и полуструктурированных данных к дальнейшему использованию.

Интерпретация текстовых данных на самом деле довольно сложна. Смысл наших слов меняется в зависимости от того, какое из них мы акцентируем, а также от контекста, в который мы их помещаем. При взгляде на простой текст вы наверняка не знаете, на каком слове сделан акцент, и вам часто неизвестен весь контекст. Это означает, что придется сделать некоторые предположения. Мы поговорим об этом более подробно в главе 6.

Анализ текста – это одновременно искусство и наука, и он всегда будет подразумевать некоторый уровень неопределенности. При проведении анализа текста будут возникать проблемы, вызванные ошибками классификации и неоднозначностью. Это нормально. Если найденная в тексте закономерность позволяет принять более эффективное решение, то ее следует использовать. Цель анализа текста – улучшить принимаемые решения, а не достичь совершенства. Текстовые данные позволяют повысить качество принимаемых решений и предоставляют более ценную информацию, даже несмотря на содержащийся в них шум и неоднозначность.

Использование текстовых данных

Один из самых популярных вариантов анализа текста на сегодняшний день – исследование настроения. Анализ настроения позволяет изучить общее мнение большого количества людей, чтобы понять, о чем говорит рынок, что он чувствует и думает об организации. При этом часто используются данные социальных сетей. Вот некоторые примеры:

• В чем суть шумихи вокруг компании или продукта?

• О каких корпоративных инициативах говорят люди?

• Положительно или отрицательно высказываются люди об организации и ее товарах и услугах?

Мы уже говорили о том, что одна из сложностей анализа текста заключается в том, что слова могут иметь позитивное или негативное значение в зависимости от контекста. Это необходимо принимать во внимание, однако общее настроение множества людей должно быть ясно. Зная о том, что говорят люди в социальных сетях или при общении с отделом обслуживания клиентов, можно более уверенно планировать дальнейшие действия.

Если организация уловит настроения отдельного клиента, она сможет судить о его намерениях и мнениях. Подобно веб-данным, которые помогают определить намерения, мнение потребителя о товаре является ценной информацией. Это особенно верно, если потребитель ранее не покупал этот продукт. Анализ настроений показывает, насколько легко или трудно будет убедить клиента приобрести данный продукт.

Текстовые данные применяются для распознавания закономерностей. Анализируя жалобы, заявки на ремонт и другие комментарии, сделанные клиентами, организация сможет быстрее выявлять и решать вопросы, пока они не превратились в серьезные проблемы. После вывода нового продукта на рынок и начала поступления жалоб анализ текста поможет определить, с какими трудностями сталкиваются клиенты. Иногда удается даже выявить назревающую проблему и предотвратить волну звонков в отдел обслуживания клиентов. Это позволит реагировать намного быстрее. Организация не только исправит дефекты в продуктах, которые будут выпущены позже, но и поможет клиентам справиться со сложностями, которые они испытывают сегодня.