Добавить в цитаты Настройки чтения

Страница 6 из 16



Сегодня слишком много специалистов по анализу и обработке данных накопили большие массивы информации, но они дают нам слишком несущественные сведения, например, что баскетбольный клуб Knicks пользуется популярностью в Нью-Йорке. Слишком многие компании просто утонули в больших объемах данных. У них много терабайт информации, но мало своих идей. На мой взгляд, значение количества данных часто переоценивается. И это легко заметить, учитывая один небольшой, но очень существенный момент: чем важнее явление, тем меньше число наблюдений необходимо, чтобы его обнаружить. Вам достаточно один раз прикоснуться к горячей плите, чтобы понять, насколько это опасно. Но, возможно, вам придется тысячи раз пить кофе, чтобы понять, вызывает ли он у вас головную боль. Какой фактор серьезнее? Очевидно, что горячая плита, которая в силу интенсивности своего воздействия позволяет получить мгновенный результат при минимальном объеме данных.

Поэтому самые сообразительные крупные компании, занимающиеся обработкой больших данных, зачастую обрезают имеющиеся в их распоряжении массивы. В компании Google основные решения принимаются на основе лишь малой толики имеющихся в их распоряжении данных. Вам не всегда нужны тонны информации для того, чтобы прийти к важным выводам. Нужны правильно подобранные данные. Главный аргумент в пользу того, что поисковые запросы в Google представляют собой ценнейшую информацию, состоит не в том, что их очень много, а в том, что люди в них весьма откровенны. Мы лжем друзьям, любовникам и любовницам, врачам, опросам и самим себе. Но Google дает возможность обсудить личные проблемы, в том числе с весьма компрометирующей информацией, такие как брак без секса, психическое нездоровье, неуверенность, враждебность по отношению к чернокожим.

Самое главное при работе с большими данными – умение задавать правильные вопросы, чтобы получить важные выводы. Как нельзя, случайно наведя телескоп на ночное небо, обнаружить там Плутон, нельзя, просто загрузив кучу данных, открыть тайны человеческой природы. Вам необходимо будет выделить наиболее перспективные для поиска фразы, например для Индии – это запросы в Google, которые начинаются со слов «мой муж хочет…».

Эта книга показывает, как лучше использовать большие данные, в ней подробно объясняется, почему эти массивы информации имеют такое большое значение. И попутно вы узнаете много интересного из того, что я и другие люди уже открыли для себя с помощью этого метода, в том числе:

• Как много геев среди мужчин?

• Неужели реклама действительно работает?

• Почему Американский Фараон – лучшая скаковая лошадь?

• Ангажированы ли СМИ?

• Существуют ли оговорки по Фрейду?

• Кто мошенничает с налогами?

• Важно ли, в какой колледж пойти учиться?

• Можно ли выиграть на фондовом рынке?

• Где лучшее место, чтобы растить детей?

• Как истории разносятся по сети?

• О чем следует говорить на первом свидании, если вы хотите, чтобы было второе?

…И многое, многое другое.

Но прежде чем мы доберемся до этого, нужно обсудить базовый вопрос: зачем нам вообще все эти данные? И для этого я хочу представить вам мою бабушку.

Часть I

Данные, большие и малые

Папе и маме



Глава 1

Интуиция вас обманывает

Если вам 33 года от роду и у вас уже несколько Дней благодарения подряд прошли без свиданий, скорее всего, возникнет тема выбора брачного партнера. И у каждого на этот счет свое мнение.

«Сету нужна сумасшедшая девчонка под стать ему», – говорит моя сестра.

«Ты с ума сошла! Ему нужна нормальная девушка, чтобы уравновешивать его», – заявляет брат.

«Сет не сумасшедший», – реагирует мать.

«Ты спятила! Конечно, Сет – настоящий псих», – заявляет отец.

Внезапно в разговор тихо вступает моя застенчивая, говорящая тихим голосом бабушка. Громкие агрессивные нью-йоркские голоса затихают, и все взгляды сосредотачиваются на небольшой старушке с короткими золотистыми волосами, говорящей с легким восточно-европейским акцентом.

«Сет, тебе нужна хорошая девушка. Не слишком красивая. Очень умная. Умеющая ладить с людьми, социальная, чтобы вы могли работать вместе. С чувством юмора, потому что у тебя хорошее чувство юмора».

Почему совет этой пожилой женщины выслушивается в моей семье с таким вниманием и уважением? Моя 88-летняя бабушка видела на своем веку больше, чем все остальные, сидевшие за столом. Она повидала множество браков, одни из которых были счастливыми, другие нет. И на протяжении десятилетий она составляла список качеств, делающих взаимоотношения успешными. За столом в День благодарения бабушка была источником самого большого числа данных. Моя бабушка сама была большими данными.

В этой книге я хочу развеять мифы о науке о данных.

Нравится нам это или нет, но информация играет все более важную роль в жизни каждого из нас – и эта роль будет становиться все значительнее. Сейчас в газетах встречаются целые разделы, полностью посвященные данным. В компаниях есть группы, единственной задачей которых является анализ собранных данных. Инвесторы дают десятки миллионов долларов стартапам, если те могут собрать и сохранить большие объемы данных. Даже если вы никогда не узнаете, как работает регрессия, и не можете рассчитать доверительный интервал, вы наверняка столкнетесь с большим количеством данных – на страницах книг, которые читаете, во время деловых встреч, в которых принимаете участие, в сплетнях, которые доходят до ваших ушей, в курилке или возле кулера, когда пьете воду.

Многих людей беспокоит такое развитие событий. Они запуганы данными, легко теряются и могут совсем запутаться в мире чисел. Они думают, что количественное понимание мира предназначено для избранных левополушарных вундеркиндов, а не для них. Поэтому, едва столкнувшись с цифрами, готовы перевернуть страницу, закончить встречу или сменить тему разговора.

Я потратил десять лет на анализ различных данных, и за это время мне посчастливилось работать со многими из наиболее значимых в этой области людей. Один из самых важных уроков, которые я усвоил, заключается в том, что правильная работа с информацией не настолько сложна, как кажется многим. Лучшие примеры научной работы с данными на самом деле показывают, насколько она интуитивна{14}.

Что же делает науку о данных столь интуитивной? По своей сути эта дисциплина занимается выявлением и отбором правильных данных, а также прогнозированием того, как одна переменная повлияет на другую. Люди постоянно этим занимаются.

Просто подумайте, как бабушка давала мне совет по поводу моих отношений. Она использовала большую базу данных об отношениях, загружавшуюся в ее мозг в течение практически всей жизни, – истории, которые она слышала от членов своей семьи, от друзей и знакомых. Сначала она ограничила данные для анализа примерами отношений, в которых мужчина имел многие из тех качеств, которые есть и у меня – чувствительность, склонность к самоизоляции, чувство юмора. Затем сосредоточилась на ключевых качествах известных ей в этой выборке женщин: насколько они были добрыми, умными, красивыми. Потом сопоставила эти ключевые качества женщин с важнейшим элементом отношений: были ли они хорошими или нет. И, наконец, сообщила результат. Другими словами, она заметила закономерности и предсказала, как одна переменная будет влиять на другую. В этой ситуации бабушка выступила как специалист по работе с данными.

Вы тоже являетесь специалистом по работе с данными. Будучи ребенком, вы замечали: стоило начать плакать, как мама сразу обращала на вас внимание. Это тоже часть науки по работе с данными. Достигнув совершеннолетия, вы заметили, что, если слишком много ныть и жаловаться, люди начнут избегать общения с вами. Это тоже наука о данных. Когда люди меньше общаются с вами, у вас портится настроение, вы недовольны. Когда вы менее счастливы, вы менее дружелюбны, а когда вы менее дружелюбны, люди предпочитают держаться от вас еще дальше. Это наука о данных. Везде наука о данных. Повсюду наука о данных.

14

Я говорю о той части их анализа, которую хорошо знаю – о части, пытающейся объяснить и предсказать поведение человека. Я не говорю об искусственном интеллекте, который пытается, скажем, водить машину.