Страница 12 из 16
Наверное, еще десять лет назад было бы невозможно анализировать теорию Фрейда подобным образом. И конечно, нечто подобное было неисполнимо 80 лет назад, когда Фрейд был еще жив. Итак, давайте подумаем, почему эти источники данных смогли нам помочь? Благодаря такому упражнению мы поймем, из-за чего большие данные настолько могущественны.
Помните, мы уже говорили, что даже наличие целой россыпи фактов само по себе не позволит нам автоматически генерировать полезные выводы. Ученые переоценили объем данных. Но почему же тогда большие данные настолько могущественны? Почему они оказались способными революционно преобразовать наше видение самих себя? Я утверждаю, что существуют четыре уникальные особенности больших данных, и анализ Фрейда способен отлично проиллюстрировать это.
Прежде всего, вы, наверное, заметили: обсуждая теории Фрейда, мы довольно серьезно отнеслись к порнографии. Более того, в этой книге мы намерены достаточно часто обращаться к анализу порносайтов. Это довольно странно, ведь данные, полученные из такого источника, редко используются большинством ученых. Последние обычно удобно опираются на результаты традиционных опросов – и именно на них выстраивают свои карьеры. Но если немного подумать, становится ясно, что широкое использование данных порносайтов (а также поиск по ним и обработка полученных таким образом сведений) позволяет лучше понять человеческую сексуальность. На самом деле это, наверное, самое важное на свете. Получив такие данные, Шопенгауэр, Ницше, Фрейд и Фуко визжали бы от восторга, однако в то время, когда они жили, подобных данных не существовало. Их не было еще пару десятилетий назад, но они есть сейчас. Существует множество уникальных источников информации по различным темам, открывающих нам глаза в областях, о которых ранее мы могли только догадываться. Способность предложить нам новые типы фактов – первая могущественная особенность больших данных.
Данные порносайтов и поисковых запросов Google не только новые, они самые правдивые. В доцифровое время люди прятали свои постыдные мысли от других. В эпоху цифровых технологий они продолжают их прятать – но не от интернета и, в частности, не от сайтов вроде Google и PornHub, где поддерживается анонимность. Подобные сайты играют роль своего рода цифровой сыворотки правды – именно это позволило нам открыть популярность темы инцеста. Большие данные позволяют нам наконец увидеть, чего люди хотят на самом деле, а не то, что они говорят или делают. Предоставление самых правдивых фактов является второй могущественной особенностью больших данных.
Поскольку сейчас существует огромное количество разнообразных сведений, можно найти содержательную информацию даже о самом небольшом популяционном срезе. Мы в состоянии сравнить, скажем, количество людей, видящих во сне огурцы, с теми, кто видит во сне помидоры. Возможность пристально вглядеться в самые мелкие подмножества людских сообществ – это третья могущественная особенность больших данных.
Большие данные обладают еще одной внушительной возможностью – той, которую я не использовал в своем кратком исследовании теории Фрейда, но которую я наверняка применю в будущем: она дает возможность проводить быстрые контролируемые эксперименты. Это позволяет определить причинно-следственную связь, а не просто корреляцию. Такие тесты в основном используются коммерческими предприятиями, но они станут мощным инструментом в руках социологов. Возможность проводить многочисленные причинно-следственные эксперименты – это четвертая могущественная особенность больших данных.
Теперь пришло время более подробно поговорить о каждой из этих великолепных особенностей и разобраться, почему большие данные настолько важны.
Глава 3
Переосмысление данных
В 6 часов утра в определенную пятницу каждого месяца улицы большей части Манхэттена будут практически пустыми. Магазины будут закрыты, их фасады скрыты за стальными ставнями, а в квартирах над ними будет темно и тихо.
Напротив, все этажи здания Goldman Sachs, всемирно известного инвестиционного банковского учреждения, расположенного в Нижнем Манхэттене, будут ярко освещены, его лифты будут сновать туда-сюда, поднимая тысячи людей, едущих к своему рабочему месту. К 7 утра большинство столов будут заняты.
Можно без сомнения назвать этот час здесь в любой другой день сонным. Однако в эту пятницу тут будут кипеть энергия и азарт, потому что в этот день должна прибыть информация, которая окажет значительное влияние на фондовый рынок.
Через несколько минут после появления она будет растиражирована на новостных сайтах. Еще через несколько секунд она начнет обсуждаться и рассматриваться со всех сторон – в Goldman и сотнях других финансовых компаний. Но основная часть действий в области финансов в эти дни происходит за миллисекунды. Goldman и другие финансовые компании платят десятки миллионов долларов, чтобы получить доступ к оптоволоконным кабелям, сокращающим время передачи информации из Чикаго в Нью-Джерси на четыре миллисекунды (с 17 до 13). У финансовых фирм имеются алгоритмы{42} для чтения информации и торговли на ее основе, и все это происходит за мгновения. После получения важнейших для финансового рынка данных они будут действовать быстрее, чем вы моргаете.
Так что это за важные данные, которые так ценны для Goldman и ряда других финансовых институтов?
Месячная ставка по безработице.
Эта ставка, однако, оказывает такое огромное влияние на фондовый рынок, что финансовые учреждения сделали все от них зависящее для увеличения скорости получения этих данных, их анализа и реагирования в соответствии с полученной информацией. Последняя является результатом телефонного опроса, который проводит Бюро статистики труда, и к моменту опубликования она уже устареет примерно на три недели – или 2 миллиарда миллисекунд.
При том что фирмы тратят миллионы долларов для ускорения поступления потока информации на миллисекунды, вам может показаться более чем странным тот факт, что правительству для вычисления уровня безработицы требуется так много времени.
Действительно, ускорение получения этих цифр было одним из самых важных пунктов в повестке дня Алана Крюгера{43}, когда он в 2011 году занял пост председателя президентского совета по экономике США при Бараке Обаме. Это ему не удалось. «Либо BLS (Бюро трудовой статистики Министерства труда США) не хватает ресурсов, – заключил он, – либо их мышление застряло в XX веке».
Поскольку правительство в ближайшее время явно не наберет нужный темп, возникает вопрос: есть ли способ быстрее получить хотя бы приблизительное представление о статистике безработицы? В нашу высокотехнологичную эпоху, когда почти каждый клик любого человека в интернете где-то записывается, неужели нам действительно придется ждать несколько недель, чтобы выяснить, сколько людей остались без работы?
Одно из возможных решений родилось под влиянием работы бывшего инженера компании Google Джереми Гинзберга. Он заметил, что данные о состоянии здоровья, как и сведения по безработице, правительство выпускает с задержкой. Центрам по контролю и профилактике заболеваний требуется неделя для подготовки данных об эпидемии гриппа{44}, хотя врачам и больницам было бы полезно иметь такие сведения как можно раньше.
Гинзберг подозревал, что заболевание гриппом напрямую связано с поисковыми запросами относительно его лечения. В сущности, люди сообщают о своих симптомах Google. Джереми решил, что эти запросы могут дать достаточно точную оценку текущему состоянию заболеваемости гриппом. И действительно, такие поисковые фразы как «симптомы гриппа» и «боль в мышцах» оказались важными показателями скорости распространения этого заболевания[9].
42
Matthew Leising, «HFT Treasury Trading Hurts Market When News is Released» («Как показывают данные, HFT Treasury Trading наносит удар по рынку»), Bloomberg Markets, 16 декабря, 2014 года; Nathaniel Popper, «The Robots Are Coming for Wall Street» («Роботы идут на Уолл-Стрит»), New York Times Magazine, 28 февраля 2016, MM56; Richard Finger, «High Frequency Trading: Is It a Dark Force Against Ordinary Human Traders and Investors?» («Высокочастотная торговля: это темные силы против простых трейдеров, и инвесторов?») Forbes, 30 сентября 2013 года, http://www.forbes.com/sites/richardfinger/2013/09/30/high-frequency-trading-is-it-a-dark-force-against-ordinary-human-traders-and-investors/#50875fc751a6.
43
Я брал интервью у Алана Крюгера по телефону 8 мая 2015 года.
44
Исходный документ – Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Ly
9
Первоначальная версия Google Flu имела существенные недостатки, поэтому исследователи недавно создали намного более успешную модель. – Прим. авт.