Страница 9 из 19

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

Фрэнкс Билл

Существуют новые методики, позволяющие проанализировать необработанные данные интернет-журналов и определить события, которые не были предопределены заранее. Эти методы основаны на использовании содержимого журнала, поскольку они опираются на непосредственно содержащиеся в них необработанные данные. Преимущество этих методов в том, что если вы забыли собрать данные о взаимодействии пользователей с рекламным изображением, то можете позднее вернуться и извлечь необходимую информацию. В этом случае ничего изначально не отбрасывается, а нужные данные определяются в процессе анализа. Это важное преимущество, и именно поэтому хранение некоторого объема архивных больших данных, если оно оправдано с экономической точки зрения, имеет смысл. Объем архивных данных зависит от размера канала и от доступного пространства для хранения данных. Хорошая идея – хранить такой объем архивных данных, который экономически оправдан с учетом доступного объема хранилища.

Эффективная фильтрация больших данных

Самая большая трудность при работе с большими данными может заключаться не в анализе, а в процессе извлечения, преобразования и загрузки данных (ETL), который необходимо наладить перед проведением анализа. ETL – это процесс сбора необработанных данных, их чтения и получения полезных выходных данных. Сначала данные извлекаются (E, extracted) из соответствующего источника. Затем они преобразуются (Т, transformed) путем агрегации, комбинирования и применения функций, чтобы обеспечить возможность их дальнейшего использования. И, наконец, данные загружаются (L, loaded) в среду для анализа данных. Это и есть ETL-процесс.

Вернемся к нашему примеру. Когда вы пьете воду из шланга, вам все равно, какая часть потока воды попадет в рот. В случае с большими данными, напротив, очень важно, какие части потока данных будут собраны. Сначала вам потребуется изучить весь поток данных, и только после этого можно отфильтровать нужные вам фрагменты информации. Вот почему процесс укрощения больших данных может занять так много времени.

Работу с большими данными можно сравнить с попыткой попить из шланга. Большая часть данных будет пропущена, как и большая часть воды. Цель в том, чтобы отхлебнуть нужное количество данных из потока, а не выпить его полностью. Если вы сосредоточитесь на важных фрагментах данных, то работать с большими данными будет проще.

Аналитические процессы могут потребовать наличия фильтров, чтобы при получении данных отбросить часть информации. По мере обработки данных будут применяться и другие фильтры. Например, при работе с данными интернет-журнала можно отфильтровать информацию о версии браузера или операционной системы. Такие данные редко бывают нужны. Позднее в процессе обработки можно отфильтровать данные о конкретных страницах или действиях пользователя, которые можно исследовать для решения бизнес-задач.

Сложность правил и объем отфильтрованных или сохраненных на каждом этапе данных зависят от источника данных и бизнес-задачи. Для достижения успеха решающее значение имеют правильные процессы загрузки и фильтры. Традиционные структурированные данные не требуют таких усилий, поскольку они заранее исследованы и стандартизированы. Большие данные часто приходится исследовать и стандартизировать в процессе анализа.

Объединение больших данных с традиционными данными

Вероятно, наибольший интерес представляет даже не то, что большие данные могут сделать для вашего бизнеса сами по себе, а то, что они могут сделать для бизнеса в сочетании с другими данными организации.

Так, например, мощный источник данных – история посещения веб-страниц. Информация о важности потребителя для организации и о покупках, совершенных им ранее через различные каналы, повышает ценность веб-данных, если их поместить в более широкий контекст. Мы поговорим об этом подробнее в главе 2.

Для предприятия коммунального обслуживания чрезвычайно значимы данные интеллектуальных сетей (Smart Grid). Знание закономерностей, связанных с оплатой счетов, типов жилищ потребителей и других факторов, делает данные, полученные от интеллектуальных счетчиков, еще более ценными. Об этом говорится в главе 3.

Текст электронной переписки с отделом обслуживания клиентов также ценный источник данных. Знание подробных спецификаций обсуждаемых товаров, информации о продажах и дефектах повышает важность этих текстовых данных. Об этом речь пойдет в главах 3 и 6.

Своей популярностью хранилища данных предприятия (EDW) по большей части обязаны не тому, что они дают возможность централизовать многочисленные витрины данных в целях уменьшения затрат на оборудование и программное обеспечение. Хранилища данных создают ценность, так как с их помощью можно объединять различные источники данных, благодаря чему они дополняют друг друга. Хранилища данных позволяют совместно анализировать данные о потребителях и сотрудниках, поскольку они хранятся в одном и том же месте. Они больше не являются полностью разделенными. Например, правда ли, что одни сотрудники приносят компании больше дохода, чем другие? Ответить на такие вопросы гораздо легче, если данные хранятся в одном месте. Добавление больших данных увеличивает масштаб решаемых проблем, поскольку все больше новых типов данных могут быть объединены для обеспечения новых точек зрения и контекстов.

Потенциал больших данных раскрывается в полной мере при взаимодействии с другими данными корпорации. Если включить итоги анализа больших данных в более широкий контекст, количество и качество полученных результатов стремительно возрастут. Вот почему большие данные должны быть частью общей стратегии работы с данными, а не отдельной стратегией, созданной специально для них.

Крайне важно, чтобы разработанная организацией стратегия работы с большими данными не отличалась от стратегии работы с традиционными данными. Это не приведет к нужному результату. Большие данные и традиционные данные – части общей стратегии. Большие данные должны быть еще одной гранью корпоративной стратегии работы с данными. С самого начала необходимо продумать и спланировать не только процессы сбора и анализа больших данных, но и то, как их использовать в сочетании с другими корпоративными данными, а также в качестве компонента целостного подхода к корпоративным данным.

Потребность в стандартах

Будут ли большие данные по-прежнему характеризоваться невероятными форматами, неограниченными потоками и отсутствием определенности? Вряд ли. Со временем будут разработаны стандарты. Многие источники полуструктурированных данных удастся структурировать, отдельные организации подстроят свои потоки больших данных, чтобы их было легче анализировать. Но, что еще более важно, со временем произойдет переход к отраслевым стандартам. Хотя текстовые данные вроде электронных писем и комментариев в социальных медиа невозможно контролировать, можно стандартизировать подходы к интерпретации таких данных и использовать их для анализа. Это происходит уже сейчас.

Например, какие слова считать «хорошими», а какие – «плохими»? В каких контекстах не применяются правила по умолчанию? Какие из электронных писем требуют исчерпывающего разбора и анализа, а какие – лишь минимальной обработки? Стандарты производства больших данных будут развиваться, как и стандарты их обработки и анализа. Подвергнутся стандартизации и входные, и выходные данные. В результате упростится жизнь тех, кому поручено их укрощать. На это потребуется время, и многие из разработанных стандартов будут представлять собой, скорее всего, набор общепринятых передовых практик, применяемых специалистами, а не формальные правила или политики, разработанные официальными организациями, занимающимися стандартизацией. Тем не менее стандартизация будет развиваться.