Страница 12 из 23
Когда я работал в Amazon, мы исследовали динамику промежутков времени между просмотром товара и его покупкой. Некоторые статистические значения были явно ошибочными – они были отрицательными, а человек физически не может купить товар прежде, чем просмотрит его. Мы не знали, почему происходит такая ошибка, и просто не стали учитывать такие данные. При этом у нас накопилась масса данных, указывающих на то, что многие пользователи выжидают по восемь часов, прежде чем совершить покупку. Очень странно. И только потом мы сообразили, что, поскольку часть компьютеров Amazon настроена в тихоокеанском часовом поясе США, а часть – по Гринвичу, эта разница отражает различие во временных поясах применительно к кликам. Как часто случается, то, что сначала казалось шагом к интересным новым представлениям, в итоге объяснилось обычной ошибкой.
Интерпретация данных – итеративный процесс. Вот один из примеров этого. Одна авиакомпания решила провести целевую рекламную кампанию для потенциальных пассажиров бизнес-класса и поручила группе специалистов по работе с данными выявить владельцев смартфонов, регулярно прибывающих и убывающих через нью-йоркский аэропорт имени Дж. Ф. Кеннеди. Проблема состояла в том, что людьми, регулярно посещающими любой аэропорт, являются вовсе не бизнесмены, а сотрудники авиакомпаний и самого аэропорта. Аналитики убедились в этом по данным с телефонов, показывающим закономерности перемещений их владельцев. Часть постоянных посетителей ежедневно приезжала и уезжала по четкому сменному графику – это были работники аэропорта. Труднее оказалось выделить экипажи самолетов, базирующихся в Нью-Йорке, но и их удалось более или менее точно вычислить по сайтам и приложениям, которыми они пользовались через wi-fi аэропорта: поиск отеля или авторизация в Uber для заказа машины для них были редкостью, а вот в приложения для знакомств они заходили очень часто[51].
Второй путь осмысления обработанной информации – прогнозный анализ, в котором данные используются для общих выводов относительно будущего, в том числе возможных вариантов поведения и развития событий. Например, градостроители использовали архивные данные о поминутном состоянии дорожного движения, которые собирала компания Inrix, для оценки возможного влияния различных событий (дорожной аварии, нового строительства или массового мероприятия) и подготовки более точных планов действий в особых ситуациях. Хедж-фонды пользовались данными Inrix о транспортных потоках к торговым центрам и пригородным гипермаркетам при принятии решений о покупке или продаже акций задолго до публикации квартальной отчетности этих предприятий. Анализ данных геолокации, собранных в «черную пятницу» 2012 года, позволил точно предсказать резкий скачок продаж на весь предрождественский период.
Amazon также использует прогнозные модели для принятия деловых решений: например, сколько дополнительного персонала нужно будет нанять на склады и в доставку, чтобы справиться с возрастающим объемом заказов в период рождественских праздников. Это типичная задача из теории принятия решений: как сравнить потери от несвоевременности доставки заказов покупателям с потерями от избыточности мощностей службы доставки? В Amazon нагрузку на транспортные мощности анализируют с очень высокой степенью детализации, ежедневно и в разрезе каждого города. В 2013 году прогнозы компании не оправдались, так же как и прогнозы многих розничных сетей и компаний дистанционной торговли. Многие посылки пришли уже после Рождества, и покупатели были в ярости[52]. После анализа причин Amazon пересмотрела свою модель с целью обеспечения более высокой точности прогнозирования и гибкости в распределении ресурсов. В результате компания смогла предложить своим клиентам гарантированную бесплатную доставку к 24 декабря 2014 года для покупок, совершенных на два дня позже, чем в предыдущие годы[53].
Поскольку многие из инфопереработчиков занимаются составлением списков рекомендованных покупок, следует помнить о том, что представленные рейтинги могут быть подготовлены без учета ваших интересов. Одной из первых инициатив в области больших данных была система бронирования авиабилетов Sabre Global Distribution System. Введенная в эксплуатацию в 1960 году изначально Sabre представляла собой систему для обслуживания авиакомпании American Airlines, которая вложила в ее разработку огромные деньги. В 1976 году систему Sabre начали устанавливать в офисах турагентов, а потому в нее встроили возможность приобретения билетов на рейсы других авиакомпаний[54]. Проанализировав закономерности процесса бронирования, в American Airlines обнаружили, что турагенты обычно выбирают рейсы, которые сразу появляются на экране системы, и в очень редких случаях обращают внимание на то, что находится за пределами первой страницы выдачи результатов поиска[55]. Авиакомпания немного повозилась с настройкой алгоритма таким образом, чтобы ее рейсы всегда оказывались первыми в списке. Потребители не знали, что представленные им «лучшие» варианты подобраны с таким искажением. А с учетом того, что турагенты работают на комиссии, им было не слишком интересно искать для своих клиентов варианты дешевле. Тем не менее две из конкурирующих с American Airlines авиакомпаний, New York Air и Continental, обнаружили, что их рейсы оказываются в самом низу списка, даже несмотря на открытие новых направлений и предложение скидок на билеты – что, по идее, должно было ставить их варианты на самый верх в выдаче результатов[56]. Потребовалось расследование конгресса[57]. В 1984 году такого рода искажения настроек были официально запрещены[58].
Совершать подобные манипуляции становится намного труднее, когда пользователем обработанной информации является конечный потребитель, который с большей вероятностью обратит внимание на то, насколько предложения соответствуют его пожеланиям. Я участвовал в разработке системы рекомендаций для бангкокского сайта бронирования отелей Agoda. На первый взгляд могло показаться, что компании выгоднее ранжировать отели исходя из величины получаемой от рейтинга прибыли. Если отель готов платить Agoda более высокие комиссионные, то почему бы не поместить его на самый верх списка? Или все-таки рейтинг должен составляться на основе предпочтений туристов? Кто-то из клиентов, ориентируясь на рейтинг, составленный с учетом интересов Agoda, бронировал номер, но впоследствии сожалел об этом. Другие смотрели на начало списка, приходили к выводу о том, что у Agoda нет вариантов, соответствующих их вкусам, и уходили к конкурентам. В долгосрочной перспективе более оптимальным для Agoda решением было увязывать свои интересы с интересами клиентов[59].
Последний уровень работы с данными – предписывающая или инструктивная аналитика, которая на основе вашей информации подсказывает, каким образом следует изменить условия для достижения желаемого результата. Классический пример – анализ данных, примененный в ходе лунной экспедиции НАСА[60]. Для того чтобы доставить на поверхность Луны Нила Армстронга и американский флаг, НАСА приходилось непрерывно анализировать поток данных о положении лунного модуля в пространстве. Инженерам в центре управления нужно было не только обобщить данные (описание) и не только спрогнозировать, где и когда лунный модуль коснется поверхности (прогноз). Чтобы человек действительно попал на Луну, им нужно было определять предпочтительные действия в связи с постоянно изменяющимся положением модуля. Они оценивали, какое влияние оказывает каждое включение любого из реактивных двигателей модуля на траекторию его движения. После этого они прогнозировали, когда и как надолго следует включить его опять для успешного выполнения задачи.
51
Из беседы автора с Клаудией Перлич, главным научным сотрудником Dstillery, 25 января 2015 года. Клаудиа – моя хорошая знакомая, она была моей студенткой в Колорадском университете в Боулдере и Нью-Йоркском университете.
52
Finley, Klint, “Christmas Delivery Fiasco Shows Why Amazon Wants Its Own UPS”, Wired, December 30, 2013, http://www.wired.com/2013/12/amazon_ups.
53
Kastrenakes, Jacob, “Amazon Guarantees Packages Ordered Through Friday Will Arrive Before Christmas”, The Verge, December 16, 2014, http://www.theverge.com/2014/12/16/7401299/amazon-sets-dec-19th-cutoff-for-christmas-free-shipping.
54
Snyder, Brett, “Sabre Makes the Wrong Choice by Removing American Airlines”, CBS News Moneywatch, January 7, 2011, http://www.cbsnews.com/news/sabre-makes-the-wrong-choice-by-removing-american-airlines.
55
American Airlines, “November Line of Sale Analysis”, memo to R. E. Murray from S. D. Nason, December 3, 1981.
56
Tefft, Sheila, “Reservation Systems’ Bias a Sore Spot for Smaller Airlines”, Chicago Tribune, February 11, 1983, http://archives.chicagotribune.com/1983/02/11/page/87/article/new-technology.
57
Whiteley, David, An Introduction to Information Systems (New York: Palgrave Macmillan, 2013), p. 109.
58
С вступлением в силу Закона о либерализации авиаперевозок в 1978 году Совет по гражданской авиации ввел регламент антидискриминационных мер. See Pearlstein, Debra J., and Robert E. Iloch et al., eds., Antitrust Law Developments, vol. 1 (Chicago: American Bar Association, 2002), p. 1428.
59
Я консультировал Agoda в 2004–2007 гг. В ноябре 2007 года компания была поглощена Priceline.
60
В технике предписывающая аналитика называется «теорией управления».