Страница 5 из 16
В подобных высказываниях есть еще один рискованный момент: они могут воприниматься не только как пафосные, но и трендовые. Многие делали серьезные заявления о могуществе больших данных, не приводя никаких доказательств. Это побудило людей, скептически относящихся к большим данным, которых тоже немало, отвергнуть идею исследования больших массивов данных. «Я не говорю, что нет никакой информации в больших данных, – пишет публицист и статистик Нассим Талеб, – там масса информации. Проблема – основная – заключается в том, что иголку приходится искать в непрерывно растущих стогах сена».
Одна из основных целей этой книги – представить недостающие доказательства и показать, что можно сделать с большими данными, то есть как можно при желании находить иголки в непрерывно растущих стогах сена. Я надеюсь предоставить достаточно примеров того, как большие данные дают возможность по-новому взглянуть на человеческую психологию и поведение, чтобы вы могли увидеть очертания чего-то действительно революционного.
«Постой, Сэт, – могли бы вы сказать сейчас. – Ты обещаешь революцию. Ты так красноречиво разглагольствуешь об этих больших новых наборах данных. Но до сих пор ты использовал весь этот поразительный, впечатляющий, умопомрачительный, новаторский набор данных только для того, чтобы показать мне в основном два момента: в Америке много расистов и люди, особенно мужчины, сильно преувеличивают, говоря о том, как часто они занимаются сексом».
Я допускаю, что иногда новые данные просто подтверждают очевидное. Если вы считаете, что эти выводы были очевидны, подождите, пока не доберетесь до четвертой главы, где я предоставлю вам отчетливые и неопровержимые доказательства, полученные на базе поиска в Google, подтверждающие, что у мужчин существует серьезная озабоченность и неуверенность по поводу – чего бы вы думали? – размера своего пениса.
Это, я бы сказал, имеет определенную ценность в качестве доказательства того, о чем вы, возможно, уже подозревали, но не имели достаточно данных для подтверждения своих подозрений. Подозревать – это одно, доказать – совсем другое. Но если все, на что способны большие данные – подтверждение ваших подозрений, это не будет чем-то революционным. К счастью, большие данные могут гораздо больше. Снова и снова они показывают мне, что все происходит совсем не так, как я предполагал. Вот некоторые примеры, которые вы могли бы счесть достаточно впечатляющими и неожиданными.
Можно предположить, что основной причиной расизма является экономическая незащищенность и уязвимость. Вы, естественно, подозреваете, что, когда люди теряют работу, их расизм усиливается. Но на самом деле при увеличении безработицы не увеличивается ни количество расистских поисковых запросов, ни число членов Stormfront.
Принято думать, что состояние тревожности в основном присуще жителям больших городов, где много высокообразованных людей. Городской невротик – это известный стереотип. Но количество запросов в Google, отражающих тревожность, таких как «симптомы тревожности» и «помощь при состоянии тревожности», как правило, выше в местах с низким уровнем образования, там, где меньше средний доход и где большая часть населения живет в сельской местности. То есть более высокий уровень числа поисковых запросов, связанных с тревожностью, в сельской местности, на севере штата Нью-Йорк, а не в самом Нью-Йорке.
Вы считаете, что теракт, в результате которого погибли десятки или сотни людей, автоматически приведет к широкому распространению массовой тревожности. Терроризм по определению должен внушать чувство страха. Я просмотрел поисковые запросы в Google, отражающие беспокойство, и отследил рост числа этих поисков по стране в последующие дни, недели и месяцы после каждой крупной террористической атаки в Европе или Америке, начиная с 2004 года. Итак, на сколько же в среднем выросло число поисковых запросов, связанных с тревожностью? Ни на сколько. Совсем.
Вы думаете, что люди чаще ищут анекдоты, когда им грустно. Многие из величайших мыслителей утверждали, что мы обращаемся к юмору как к обезболивающему. Юмор уже давно воспринимается как способ справиться с огорчениями, болью, неизбежными разочарованиями в жизни. Как выразился Чарли Чаплин: «Смех – это тоник, способ расслабиться, забыть о страданиях».
Тем не менее в понедельник – день с репутацией самого несчастливого – уровень поиска шуток самый низкий. То же можно сказать про пасмурные и дождливые дни. И этот уровень резко падает после крупной трагедии, например, когда в результате взрыва двух бомб погибло трое и были ранены сотни людей во время Бостонского марафона 2013 года. На самом деле люди предпочитают шутки, когда дела идут хорошо, а не наоборот.
Иногда новый массив данных выявляет такие поступки, стремления или отношения, которые я бы даже никогда и предположить не мог. В эту категорию попадают многочисленные сексуальные предпочтения. Например, известно ли вам, что в Индии большинство поисковых запросов начинается со слов «мой муж хочет…». Например: «Мой муж хочет, чтобы я кормила его грудью»{11}. Этот запрос распространен в Индии гораздо больше, чем в других странах. Кроме того, уровень поиска по порносайтам изображений, где женщина кормит мужчину грудью, в Индии и Бангладеш в четыре раза выше, чем в любой другой стране. Я, конечно, никогда и не подозревал ни о чем подобном до того, как увидел эти данные.
Тот факт, что мужчины одержимы размером своего пениса, может, и не слишком неожиданный, но вот то, что вызывает наибольшую обеспокоенность у женщин, касаемо их тела, по данным Google, действительно вызывает удивление. Опираясь на эти новые данные, женским эквивалентом комплекса по поводу размера полового члена можно считать – выразительная пауза! – переживание о том, как пахнет их вагина. Женщины выполняют почти столько же поисков, выражая озабоченность по поводу своих гениталий, как и мужчины, беспокоящиеся о размере своих. Главной заботой женщины является ее запах и то, как она может его улучшить. Разумеется, я не знал этого, пока не обнаружил такие данные.
Иногда новые данные показывают культурные различия, о которых я даже не задумывался. Вот один пример: очень по-разному люди по всему миру реагируют на беременность своих жен. В Мексике топ-запросы «моя беременная жена» включают фразы «frases de amor para mi esposa embarazada» (признание в любви моей беременной жене) и «poemas para mi esposa embarazada»{12} (стихи для моей беременной жены). В Соединенных Штатах топ поисковых запросов состоит из следующих фраз: «моя жена беременна – и что теперь?» и «моя жена беременна – что мне делать?».
Но эта книга больше, чем подборка странных фактов или единичных исследований, хотя в ней будет приведено много подобной информации. Поскольку эта методика совершенно новая и только набирает обороты, я изложу здесь некоторые идеи о том, как это работает и что делает ее столь революционной. Я также допускаю, что есть пределы больших данных.
Эйфория в связи с потенциальной информационной революцией вряд ли уместна. Большинство тех, кто без ума от больших данных, просто фонтанирует идеями применения этого колоссального массива информации. Такая одержимость не нова. До Google, Amazon и Facebook, до появления самого понятия «большие данные» состоялась конференция в Далласе – «Большие и сложные массивы данных». Джерри Фридман{13}, профессор статистики Стэнфордского университета и мой коллега по работе в Google, вспоминает, что на конференции 1977 года один уважаемый статистик заявил о том, что накопил невероятные, ошеломляющие пять гигабайт данных. Затем встал следующий выдающийся статистик и начал со слов: «Последний оратор говорил о гигабайтах. Это ничто. У меня – терабайты». Другими словами, акцент выступлений сместился на то, как много информации можно накопить, вместо того чтобы сделать упор на то, что с этими накопленными данными можно сделать или на какие вопросы можно найти ответы. «Тогда мне показалось забавным, – сказал Фридман, – что все надеялись поразить слушателей тем, насколько большой набор данных им удалось собрать. И это продолжается до сих пор».
11
Это обсуждается Seth Stephens-Davidowitz, «What Do Pregnant Women Want?» («Чего хочет беременная женщина?»), New York Times, 17 мая 2014 года, SR6.
12
Stephens-Davidowitz, «What Do Pregnant Women Want?» («Чего хочет беременная женщина?»)
13
Я брал интервью у Джерри Фридмана по телефону 27 октября 2015 года.