Страница 10 из 19
С помощью стандартов вы можете значительно облегчить свою жизнь, хотя вам не удастся стандартизировать все аспекты больших данных. Текстовые данные, например электронное письмо, невозможно контролировать на входе, но можно стандартизировать подходы к интерпретации таких данных и использованию их при проведении анализа. Сосредоточьтесь не только на стандартизации входного потока, но и на стандартизации способов использования больших данных.
Организации, которые быстро включатся в работу с большими данными, смогут повлиять на процесс разработки стандартов и, следовательно, обеспечить удовлетворение собственных потребностей. Некоторые отрасли даже работают на опережение. Еще до появления возможности сбора данных предприятия коммунального обслуживания начали работу по определению параметров данных интеллектуальных сетей. Если формальные определения и руководящие принципы разработаны заранее, данными интеллектуальных сетей гораздо легче управлять, чем если бы каждое предприятие только что начало работать с данными собственными способами, не обсудив их заранее с другими представителями индустрии.
Сегодняшние большие данные отличаются от завтрашних больших данных
Как мы уже упоминали, принятые определения понятия «большие данные» неоднозначны, а единого и точного не существует. Это понятие определено в относительных терминах, связанных с существующей технологией и источниками. В результате то, что считается большими данными в одной компании или отрасли, может не считаться таковыми в другой. Понятие «большие данные» для крупной компании электронной коммерции будет отличаться от того, что считает большими данными мелкий производитель.
Еще более важно, что со временем изменятся характеристики больших данных, поскольку инструменты и методы работы с ними будут развиваться наряду с увеличением размеров хранилищ необработанных данных и вычислительной мощности. Десять или двадцать лет назад файлы с демографическими данными о миллионах клиентов, содержащие сотни полей, считались огромными и трудноуправляемыми. Сегодня эти данные умещаются на флеш-накопителе и могут быть проанализированы на низкопроизводительном ноутбуке. Понятия о большом объеме, высокой скорости передачи, большом разнообразии и сложности будут меняться вместе с большими данными.
То, что сегодня считается большими данными, не будет считаться большими данными завтра, так же как данные, считавшиеся большими десять лет назад, не считаются таковыми сегодня. Большие данные будут продолжать развиваться. То, что невозможно или немыслимо сегодня с точки зрения объема данных, скорости передачи, разнообразия и сложности, в будущем станет в порядке вещей. Так было всегда и так будет продолжаться в эпоху больших данных.
Данные о транзакциях в отраслях розничной торговли, телекоммуникаций и банковского дела считались очень большими и трудноуправляемыми еще десять лет назад. Фактически в конце 1990-х годов во многих организациях такие данные не были широкодоступны для анализа и отчетности. Сегодня эти данные считаются необходимым и основным активом. Практически каждая компания вне зависимости от своего размера имеет к ним доступ.
То, что пугает нас сегодня, не будет казаться страшным через несколько лет. Через десять лет поток кликов может стать стандартным легкообрабатываемым источником данных. Активная обработка каждого электронного письма, переписки с отделом обслуживания клиентов, а также комментариев в социальных медиа может стать обычной практикой для большинства организаций. Ежесекундное отслеживание сотен метрик, может быть, уже не потребует большого труда.
Пока мы будем осваивать существующие сегодня потоки больших данных, появятся новые источники еще больших данных. Что они будут собой представлять? Этого не знает никто. Попробуем представить себе, каким образом довольно быстро существующие источники данных могут превратиться в источники еще больших данных.
• Представьте себе, что история просмотра веб-страниц включает данные о движениях мыши и глаз пользователя, что позволяет уловить каждую деталь процесса навигации, а не только отследить элементы, по которым пользователь щелкнул кнопкой мыши. Это совершенно новый масштаб больших данных.
• Представьте, что телеметрические данные видеоигры больше не ограничиваются нажатием кнопки или совершенным действием. Что они также включают движение глаз и тела игрока, а также расположение и статус каждого объекта в сцене, а не только тех объектов, с которыми происходит взаимодействие. Это уже происходит.
• Представьте себе, что RFID-метка находится на каждом отдельном товаре в каждом магазине, на оптовой базе и заводе. Представьте себе, что эти чипы собирают десятки метрик в секунду, например данные о температуре, влажности воздуха, скорости, ускорении, давлении и т. д. Такой объем данных сегодня сложно себе представить.
• Представьте себе, что существует возможность записи и перевода в текст каждого разговора с отделом обслуживания клиентов или с отделом продаж. Добавьте к этому все электронные письма, переписку в чатах и комментарии в социальных медиа и на сайтах отзывов. Теперь попробуйте разобраться и проанализировать весь этот текст. Ваша голова еще не взорвалась?
Дело в том, что большие данные никуда не исчезнут. То, что страшит нас сегодня, не будет столь пугающим через несколько лет, однако к тому времени появятся новые устрашающие источники данных. Организациям необходимо будет продолжать корректировать свои методы и цели, чтобы обеспечить возможность использовать данные по мере их развития. Тем не менее, прежде чем корректировать и обновлять методы работы с большими данными, вашей организации необходимо с чего-то начать.
Обзор главы
Самые важные уроки этой главы.
• Большие данные часто определяются как данные, сбор, управление и обработку которых невозможно произвести с помощью наиболее часто используемых аппаратных сред и программных инструментов в течение допустимого для пользователя времени.
• Данные можно считать «большими» не только с точки зрения объема, но и с точки зрения разнообразия, скорости передачи и сложности.
• Мощь больших данных заключается не в том, что они «большие», или в том, что они «данные», а в их анализе и действиях, которые вы предпринимаете на основе его результатов.
• Большие данные часто автоматически генерируются машиной, обычно в недружественном пользователю формате. Обычно сначала собирают все, что возможно, а потом производится попытка определить, что имеет значение.
• Большие данные – это просто очередная волна новых данных, расширяющих существующие пределы. С точки зрения анализа они не отличаются от прошлых источников данных, которые тоже было сложно обрабатывать, когда они только появились.
• Большие данные изменят некоторые тактики и аналитические инструменты, которые используют профессионалы, но они коренным образом не изменят причин проведения анализа или того, как определяется ценность аналитики.
• Многие источники больших данных полуструктурированы. Хотя полуструктурированные потоки данных могут показаться не очень привлекательными, в них присутствует определенная логика. Большие данные могут быть неструктурированными, а также структурированными, как традиционные источники данных.
• Самые большие риски, касающиеся больших данных, связаны с конфиденциальностью. По мере развития сферы больших данных потребуется введение как самостоятельного, так и правового регулирования.
• Укрощение больших данных заключается не в том, чтобы контролировать все данные. Это больше напоминает попытку попить воды из шланга. Нужно отобрать только важные фрагменты.