Добавить в цитаты Настройки чтения

Страница 2 из 11



Здравоохранение — только одна из областей, в которых большие данные приносят ощутимую пользу. Они приводят к коренному преобразованию целых отраслей. Наглядный тому пример — покупка авиабилетов.[3]

В 2003 году Орен Эциони[4] собрался лететь из Сиэтла в Лос-Анджелес на свадьбу своего младшего брата. За несколько месяцев до этого знаменательного события он купил авиабилет через интернет, зная, что чем раньше возьмешь билет, тем дешевле он обойдется. Во время перелета Эциони не удержался от любопытства и спросил попутчика, сколько тот заплатил за билет. Оказалось, что значительно меньше, хотя билет был куплен намного позже. От возмущения Эциони стал опрашивать других пассажиров — и все они заплатили меньше.

У большинства людей ощущение экономического предательства растаяло бы прежде, чем они сложили откидной столик и перевели спинку кресла в вертикальное положение. Но Эциони — один из передовых американских ученых в сфере компьютерных технологий. Будучи руководителем программы искусственного интеллекта в Вашингтонском университете, он основал множество компаний, занимающихся обработкой больших данных, еще до того, как термин «большие данные» приобрел известность.

В 1995 году Эциони помог создать одну из первых поисковых систем — MetaCrawler, которая, став главным онлайн-ресурсом, была выкуплена компанией InfoSpace. Он стал одним из основателей Netbot — первой крупной программы для сравнения цен в магазинах, позже проданной компании Excite. Его стартап ClearForest для анализа текстовых документов приобрела компания Reuters. Эциони рассматривает мир как одну большую компьютерную проблему, которую он способен решить. И ему довелось решить немало таких проблем, после того как он окончил Гарвард в 1986 году одним из первых выпускников по специальности в области программирования.

Приземлившись, Эциони был полон решимости найти способ, который помог бы определить выгодность той или иной цены в интернете. Место в самолете — это товар. Все места на один рейс в целом одинаковы. А цены на них разительно отличаются в зависимости от множества факторов, полный список которых известен лишь самим авиакомпаниям.

Эциони пришел к выводу, что не нужно учитывать все нюансы и причины разницы в цене. Нужно спрогнозировать вероятность того, что отображаемая цена возрастет или упадет. А это вполне осуществимо, причем без особого труда. Достаточно проанализировать все продажи билетов по заданному маршруту, а также соотношение цен и количества дней до вылета.

Если средняя цена билета имела тенденцию к снижению, стоило подождать и купить билет позже. Если же к увеличению — система рекомендовала сразу же приобрести билет по предложенной цене. Другими словами, получилась новоиспеченная версия неформального опроса, который Эциони провел на высоте боле 9000 метров. Безусловно, это была сложнейшая задача по программированию. Но Эциони приступил к работе.

Используя 12-тысячную выборку цен за 41 день, с трудом собранную на сайте путешествий, Эциони создал модель прогнозирования, которая обеспечивала его условным пассажирам неплохую экономию. Система понимала только что, но не имела представления почему. То есть не брала в расчет переменные, влияющие на ценовую политику авиакомпании, например количество непроданных мест, сезонность или непредвиденную задержку рейса, которые могли снизить стоимость перелета. Ее задача заключалась только в составлении прогноза исходя из вероятностей, рассчитанных на основе данных о других рейсах. «Покупать или не покупать, вот в чем вопрос», — размышлял Эциони. И назвал исследовательский проект соответственно — «Гамлет».[5]

Небольшой проект превратился в стартап Farecast с венчурным финансированием. Прогнозируя вероятность и значение роста или снижения цены на авиабилет, он дал возможность потребителям выбирать, когда именно совершать покупку. Он вооружил их ранее недоступной информацией. В ущерб себе служба Farecast была настолько прозрачной, что оценивала даже степень доверия к собственным прогнозам и предоставляла эту информацию пользователям.

Для работы системы требовалось большое количество данных. Для того чтобы повысить эффективность системы, Эциони раздобыл одну из отраслевых баз данных бронирования авиабилетов. Благодаря этой информации система создавала прогнозы по каждому месту каждого рейса американской коммерческой авиации по всем направлениям в течение года. Теперь для прогнозирования в Farecast обрабатывалось около 200 миллиардов записей с данными о рейсах, при этом потребителям обеспечивалась значительная экономия.

Брюнет с широкой улыбкой и ангельской внешностью, Эциони вряд ли походил на человека, который отказался бы от миллионов долларов потенциального дохода авиационной отрасли. На самом деле он нацелился выше. К 2008 году Эциони планировал применить этот метод в других областях, например к гостиничному бизнесу, билетам на концерты и подержанным автомобилям, — к чему угодно, где прослеживаются низкая дифференциация продукта, высокая степень колебания цен и огромное количество данных. Но прежде чем он успел реализовать свои планы, в его дверь постучалась корпорация Microsoft и выкупила службу Farecast за 110 миллионов долларов США,[6] после чего интегрировала ее в поисковую систему Bing. К 2012 году система прогнозировала цены на авиабилеты для всех внутренних рейсов США, анализируя около триллиона записей. В 75% случаев система оказывалась права и позволяла путешественникам экономить на билете в среднем 50 долларов.

Farecast — это воплощение компании, которая оперирует большими данными; наглядный пример того, к чему идет мир. Эциони не смог бы создать такую компанию пять или десять лет назад. По его словам, «это было бы невозможно». Необходимое количество вычислительных мощностей и хранилище обошлись бы слишком дорого. И хотя важнейшим фактором, сыгравшим на руку, стали изменения технологий, изменилось еще кое-что — едва уловимое, но более важное: само представление о том, как использовать данные.

Данные больше не рассматривались как некая статичная или устаревшая величина, которая становится бесполезной по достижении определенной цели, например после приземления самолета (или в случае Google — после обработки поискового запроса). Скорее, они стали сырьевым материалом бизнеса, жизненно важным экономическим вкладом, используемым для создания новой экономической выгоды. Оказалось, что при правильном подходе их можно ловко использовать повторно, в качестве источника инноваций и новых услуг. Данные могут раскрыть секреты тем, кто обладает смирением и готовностью «слушать», а также необходимыми инструментами.



Данные говорят сами за себя

Приметы информационного общества нетрудно заметить повсюду: в каждом кармане найдется мобильный телефон, на каждом столе — компьютер, а в рабочих кабинетах по всему миру — большие ИТ-системы. Но сама информация при этом менее заметна. Полвека спустя с того времени, как компьютеры прочно вошли в жизнь общества, накопление данных достигло того уровня, на котором происходит нечто новое и необычное. Мир не просто завален небывалым количеством информации — это количество стало расти быстрее. Изменение масштаба привело к изменению состояния. Количественное изменение привело к качественному. В науках, таких как астрономия и геномика, впервые столкнувшихся со всплеском данных в середине 2000-х годов, появился термин «большие данные». Теперь эта концепция проникает во все сферы человеческой деятельности.

Для «больших данных» нет строгого определения. Изначально идея состояла в том, что объем информации настолько вырос, что рассматриваемое количество уже фактически не помещалось в памяти компьютера, используемой для обработки, поэтому инженерам потребовалось модернизировать инструменты для анализа всех данных. Так появились новые технологии обработки, например модель MapReduce компании Google и ее аналог с открытым исходным кодом — Hadoop от компании Yahoo. Они дали возможность управлять намного большим количеством данных, чем прежде. При этом важно, что их не нужно было выстраивать в аккуратные ряды или классические таблицы баз данных. На горизонте также появились другие технологии обработки данных, которые обходились без прежней жесткой иерархии и однородности. В то же время интернет-компании, имеющие возможность собирать огромные массивы данных и острый финансовый стимул для их анализа, стали ведущими пользователями новейших технологий обработки, вытесняя компании, которые порой имели на десятки лет больше опыта, но работали автономно.

3

Покупка авиабилетов: Farecast — информация от Кеннета Кукьера: Ke

4

Директор исследовательского центра имени Тьюринга при Вашингтонском университете.

5

Статья Эциони «Гамлет»: Etzioni, Oren. To buy or not to buy: mining airfare data to minimize ticket purchase price / Oren Etzioni, C. A. Knoblock, R. Tuchinda, and. A. Yates // SIGKDD ’03. — August 24–27, 2003. URL: http://knight.cis.temple.edu/~yates//papers/hamlet-kdd03.pdf.

6

Сколько компания Microsoft заплатила за Farecast. Из сообщений СМИ, в частности: Secret Farecast buyer is Microsoft // Seattlepi.com. — April 17, 2008. URL: http://blog.seattlepi.com/venture/2008/04/17/secret-farecast-buyer-is-microsoft/?source=mypi.