Добавить в цитаты Настройки чтения

Страница 11 из 23

Мы уже свыклись с тем, что инфопереработчики указывают нам на подобные ошибки и исправляют их. Это полезные услуги. Вопрос в том, будем ли мы готовы принимать схожие корректировки в других областях своей жизни по мере того, как создаем и распространяем все больше личной информации.

Инфопереработке приходится также разбираться и в том, что является сигналом, а что шумом. На статистическом жаргоне сигналом называется значимая информация, а шумом – случайная и потому не имеющая значения. Сложность социальных данных в том, что различия между сигналом и шумом варьируются в зависимости от конкретного пользователя и конкретной ситуации. Когда ваш френд из Facebook ставит тэг на фото, где вы отсутствуете, что это – сигнал или шум? Когда как. Если он поставил тэг по ошибке, перепутав вас с Эндрю, который идет следующим в списке его друзей, то это шум, то есть статистический эквивалент статическим помехам в вашем радиоприемнике. А если он поставил тэг сознательно, желая ввести в курс запечатленных событий вас и ваших френдов, то это сигнал, хотя, возможно, и раздражающий. То есть, на языке статистиков, это не шум.

Обратная связь от пользователей играет важнейшую роль в совершенствовании алгоритмов обработки информации. Я не имею в виду необходимость заполнения опросников для потребителей или участия в фокус-группах. Поддержание и развитие постоянного диалога с пользователями позволяет инфообработчикам совершенствовать свои продукты и услуги и делать их более персонифицированными. Каждый сделанный вами выбор позволяет скорректировать иерархию вариантов. Но и вы сами тоже учитесь изменять формулировки своих поисковых запросов так, чтобы результаты в большей степени соответствовали ожиданиям. Не просто избегать опечаток, а правильно акцентировать свой интерес к различным аспектам темы или товарным категориям.

Тем не менее ваше взаимодействие с сайтом или приложением ограничивается предлагаемым набором опций. Я полагаю, что уточнение поисковых запросов стало бы намного более динамичным процессом, если бы пользователи имели возможность поиграть с вариантами инфопереработки примерно так же, как мы с коллегами делали это в музыкальных рекомендациях MoodLogic. По мере возрастания количества отзывов работников на Glassdoor порталу стоило бы придумать способы уточнения этой информации, чтобы сделать ее еще более полезной. Это может быть некая модель, позволяющая выделить наиболее интересные данному пользователю оценки не только по признакам названия позиции или ее географического положения, но и по другим характеристикам, которые предоставляют сайту (например, карьерные цели или предпочтения по условиям труда). Но вне зависимости от количества входящей информации оценки все равно будут содержать элемент неопределенности.

Информационная грамотность означает понимание того, что любая рекомендация представляет собой величину вероятности и что любое решение есть компромисс между уровнем риска и размером извлекаемой выгоды, причем даже в тех случаях, когда на фоне больших объемов данных неопределенность кажется весьма незначительной. Инфопереработка не должна принимать решения за вас. Она должна предоставить вам возможность использовать намного большее количество информации, что позволит частично устранить риск ошибки.

С помощью инфопереработки мы получаем возможность использовать и анализировать обширные исторические данные, выявлять закономерности и делать прогнозы трендов, не все из которых оказываются правильными. Подобный подход к осмыслению информации и самих себя сильно отличается от привычного для подавляющего большинства людей.

Факты! Факты! Факты! – нетерпеливо восклицал Холмс. – Я не могу лепить кирпичи без глины[48].

Когда в начале 1990-х годов я окончил докторантуру и стажировался в научно-исследовательском центре Xerox PARC в Пало Альто, мы с помощью суперкомпьютера анализировали закономерности дорожного движения. Одной из наших задач было прогнозирование времени в пути. Будучи физиками, мы рассматривали дорожное движение как поток и пытались определить условия его перехода из ламинарного состояния в турбулентное, то есть когда плавное движение превращается в прерывистое. По современным меркам, исходных данных было немного, и для создания моделей дорожного движения нам приходилось делать множество допущений.

Сейчас проблема расчетного времени прибытия в пункт назначения решается просто: практически в каждой машине есть кто-то с мобильным телефоном, оценивающим движение в режиме реального времени. В этой области работает, в частности, выделившаяся из Microsoft компания Inrix. В ней анализируют данные геолокации более чем 100 миллионов личных телефонов, чтобы определить направления движения автомобилей (и, что еще более важно, места, куда они не едут) и вывести тренды перемещения людей и товаров[49]. Данные для своего анализа Inrix получает от операторов мобильной связи, с базовыми станциями которых связываются эти 100 миллионов мобильников. Обработанную информацию у Inrix покупают Garmin, MapQuest, Ford, BMW и другие компании, которые хотят предоставлять водителям услуги картографического отображения местности и планирования маршрута. Кроме того, Inrix консультирует местные власти по вопросам городского планирования, в том числе строительству новых мостов, установке светофоров и местоположению новых государственных больниц и других учреждений.

Работа Inrix с данными о дорожном движении – наглядный пример того, насколько агрегированные показатели множества устройств могут быть полезнее для принятия решений, чем первичные данные одного-единственного человека[50]. Упреждающие системы, действующие на основе анализа социальных данных, будут консультировать нас по вопросам персональных проблем, финансов, рабочих ситуаций, медицинского обслуживания и во многих других областях, а возможно, и стимулировать к принятию определенных решений.





Кроме того, на этом примере особенно хорошо заметна ключевая роль интерпретации в процессе обработки данных. Обработанные данные могут представляться в трех видах: как описание, прогноз или инструкция. Описание характеризует нечто уже состоявшееся. Прогноз экстраполирует прошлое и настоящее на будущее в предположении, что система не будет подвергаться воздействиям или манипуляциям, способным повлиять на результат. Инструкция рекомендует, как действовать для получения желаемого результата исходя из анализа прошлых событий.

В описательной статистике данные обобщаются, например, в виде кластеров однородных элементов информации. Такие данные могут формировать условия для принятия решений в виде набора критериев для сравнительной оценки конкретной ситуации. Если вам нужно узнать, как в данный момент обстоят дела с пробками на Манхэттене, вы можете посмотреть по данным геолокации с мобильных телефонов, насколько быстро движутся и где встают потоки автомобилей. Но даже в таком относительно простом вопросе присутствует элемент интерпретации. Скорее всего, вы увидите данные о большом скоплении автомобилей в районе небоскреба MetLife. Но, может быть, это следствие того, что MetLife находится рядом с вокзалом Гранд Сентрал, где всегда полно такси, ожидающих пассажиров, и самих пассажиров, садящихся в такси, и поэтому мобильные телефоны показывают как бы «остановившееся» движение? Если вам нужно узнать, насколько хорошо идет предрождественская торговля в вашем магазине в этом году, вам нужно не только подытожить продажи, но и найти подходящую базу для сравнения. Сопоставление с вашими же данными за аналогичный период прошлого года не будет полностью корректным, поскольку в таком случае не будут учтены изменения, случившиеся в местной экономике. Вместо этого вы можете сравнить результаты своего магазина с результатами похожих магазинов по соседству.

48

Одна из наиболее часто цитируемых фраз Шерлока Холмса. This is one of Sherlock Holmes’s most frequently quoted lines of dialogue. См. Артур Конан Дойл, «Приключение в ‘Лесных Буках’» – Doyle, Sir Arthur Conan, “The Adventure of the Copper Beeches”, Strand Magazine (June 1892).

49

Inrix – одна из многих коммерческих организаций, анализирующих данные о местоположении мобильных телефонов с целью изучения траспортных потоков. В анализе используются также данные Garmin и других специализированных GPS- устройств навигации и информирования о состоянии дорожного движения.

50

Мой друг Джон Сквайр, генеральный директор DynamicAction, а в прошлом – главный стратег IBM Smarter Commerce, подчеркивает важность комбинирования данных из разных источников фразой «Ценность – в объединении».