Страница 17 из 23

BIG DATA. Вся технология в одной книге

Вайгенд Андреас

Мы проделали путь от открытого очага, подразумевающего публичность человеческого существования с минимальными возможностями для частной жизни, до законодательного признания права на тайну личной жизни в стенах своих спален, а также конфиденциальности в кабинках для голосования. По мере вплетения интернета в ткань общественной жизни мы не огорчились тому, что наша частная жизнь будет «предана гласности» в обмен на возможность бесплатного и прямого контакта с родными, близкими и совершенно незнакомыми людьми. Период с момента зарождения понятия приватности до отказа от нее занял всего пару веков – не более чем мимолетное мгновение истории человечества.

деревенские сплетни

отсутствие частной жизни

камины и миграция в города (1600-е годы)

социальная обособленность и появление понятия частной жизни

четвертая поправка к Конституции США (1792 год) и переход к тайному голосованию (1856–1896 годы)

приватность приходит в политику

«Право на неприкосновенность частной жизни» (1890 год)

тайна частной жизни узаконена

Google, Facebook и иже с ними (наши дни)

тайна частной жизни – иллюзия, и нам нравится делиться информацией о себе

Мы заботливо оберегали свою частную жизнь на протяжении последних ста лет, но настало время признать, что ее тайна – всего лишь иллюзия. Мы хотим иметь возможность привлекать к себе внимание, ощущать себя частью чего-то большего и контактировать с людьми. Идея, осенившая судью Брэндиса, была прекрасна, но это была идея его эпохи, когда информация была скудной, общественная жизнь ограничивалась рамками местного сообщества, а коммуникации стоили дорого. Тогда было просто предотвратить публикацию своей фотографии в случае, если она вам не нравилась. Сегодня это не так. Кроме того, для демократии анонимность не является настройкой по умолчанию. Лучше создать новые нормы, учитывающие реалии настоящего и возможности будущего, чем идеализировать приватность и надеяться на то, что законы прошлого будут защищать нас и впредь. Чтобы поставить информацию на службу людям, нужны прозрачность и свобода выбора.

Вместо того чтобы тратить силы на разграничение личного и публичного и выстраивать стены, ограждающие информацию (или ограждающие от нее), давайте сосредоточимся на возможности быть самими собой. Это позволит нам в полной мере использовать инфопереработку и достичь баланса между потенциально негативными и потенциально позитивными последствиями распространения социальных данных.

В том, что касается социальных данных, тайны частной жизни не существует. Ее больше нет. Подпись под знаменитой карикатурой из журнала «Нью-Йоркер» гласила: «В интернете никто не знает, что ты собака»[88]. С 1993 года, когда была опубликована эта карикатура, изменилось очень многое. Сегодня правильнее было бы сказать: «Весь интернет знает, что ты собака. Ошейник у тебя синий. Ты гоняешь кошек. А твои хозяева уехали отдыхать». Это потому, что ты сам сообщил эту информацию инфопереработчикам, чтобы иметь возможность общаться с друзьями и получать персональные рекомендации. Это твоя плата за возможность ознакомиться с рекламой кормов Purina Puppy Chow. А все думали, что в интернете можно оставаться анонимным.

Но информация была привязана к «удостоверению личности» задолго до появления Facebook. В середине 1990-х годов теоретик информатики Латания Суини решила выяснить, насколько в действительности анонимна «анонимная» база данных о состоянии здоровья[89]. Штат Массачусетс решил, что предоставление научному сообществу информации о посещениях госслужащими врачей в клиниках соответствует государственным интересам. Не будучи совсем дураками, чиновники понимали, что передавать эти данные с указанием имен людей нельзя, и удалили ряд идентификаторов – фамилии, адреса и номера карточек социального страхования. Но поскольку статистика предназначалась для целей совершенствования системы здравоохранения, кое-какие данные о пациентах в ней оставили – пол, дату рождения и почтовый индекс. Сопоставив эти три элемента информации с другой базой данных – списками избирателей, зарегистрированных по городскому округу Кембриджа, официально доступных любому человеку за плату в двадцать долларов, Суини смогла вычислить медицинскую карту губернатора штата. После чего доктор Суини «сделала театральный жест, направив копию медицинской карты губернатора со всеми диагнозами и выписанными рецептами прямо ему в офис»[90].

По оценке Суини, зная пол, возраст и почтовый индекс человека, можно идентифицировать 87 процентов населения США[91]. Более поздние исследования понизили этот показатель до примерно 63 процентов – тоже поразительно много, учитывая, что это можно сделать без использования намного более точных сведений, которыми люди постоянно делятся в Facebook и на других сайтах, где собирают социальные данные[92]. Почему для идентификации личности человека нужно столь мало информации, поясняет порядковый расчет. В США примерно 40 000 активных почтовых индексов и около 300 миллионов человек населения, из чего следует, что на один почтовый индекс приходится примерно по 7000 жителей, которые приблизительно поровну делятся на мужчин и женщин[93]. Если предположить, что количество новорожденных равномерно распределяется по количеству дней в году, то получается, что «привязанными» к одному почтовому индексу будут по десять мужчин или женщин с одинаковым днем рождения.

Теперь посмотрим на социальные данные, которыми обычно располагает инфопереработчик. Представление о том, что человека нельзя идентифицировать по его цифровому следу, рассыпалось в пух и прах после того, как два крупнейших инфопереработчика поделились «обезличенными» социальными данными с учеными. Сначала интернет-провайдер AOL предоставил для исследовательских целей историю поиска 658 000 пользователей за трехмесячный период. Однако по чьей-то оплошности эти данные оказались в сети, и двум журналистам из газеты «Нью-Йорк таймс» удалось установить личности нескольких человек по их поисковым запросам[94]. Это оказалось довольно просто, поскольку люди любят искать информацию о самих себе или своих родственниках или прокладывать маршруты от своего домашнего адреса. Затем интернет-видеосервис Netflix устроил конкурс на самый точный прогноз оценки, которую зритель поставит фильму, на основе анализа предыдущих оценок других пользователей. Для построения алгоритмов участникам нужны были данные, и компания предоставила «100 миллионов оценок, поставленных 480 000 клиентами, с датой каждой оценки»[95]. Имена клиентов не раскрывались, но двум ученым из Университета штата Техас в Остине, Арвинду Нараяну и Виталию Шматикову, удалось деанонимизировать людей из базы данных путем сопоставления обезличенной информации с рецензиями, опубликованными на сайте IMDB.com[96]. В чем, собственно, проблема, если эти рецензии уже были достоянием гласности? А в том, что клиенты Netflix не выкладывают отзывы о всех фильмах, которые смотрят, и некоторые из репертуара «тайно любимых» ими фильмов были весьма показательными. По крайней мере, так утверждала истица, чье имя не разглашается, подавшая на Netflix в суд. У нее возникли опасения, что теперь каждый из 50 000 ученых, получивших доступ к базе данных конкурса, знает, что она лесбиянка.

Газета «Нью-Йорк Таймс» пишет, что эта карикатура, опубликованная 5 июля 1993 года, вопроизводилась в других СМИ больше, чем любая другая за всю историю существования журнала. См. Fleishman, Gle

Суини провела этот эксперимент, будучи студенткой магистратуры МТИ. Сейчас она преподает государственное управление и технологии в Гарвардском университете и является директором его Лаборатории защиты информации

Ohm, Paul, “Broken Promises of Privacy: Responding to the Surprising Failure of Ano-nymization”, UCLA Law Review 57, no. 6 (August 2010), p. 1720, http://www.uclalawreview. org/broken-promises-of-privacy-responding-to-the-surprising-failure-of-anonymization-2.

Sweeney, Latanya, Uniqueness of Simple Demographics in the U. S. Population, Laboratory for International Data Privacy working paper LIDAP-WP4–2000, http://dataprivacylab.org/projects/identifiability/index.html.

Golle, Philippe, “Revisiting the Uniqueness of Simple Demographics in the U. S. Population”, Proceedings of the 5th ACM Workshop on Privacy in the Electronic Society (New York: Association for Computing Machinery, 2006), pp. 77–80, http://dl.acm.org/citation. cfm?id=1179615.

US Post Office FAQ, http://faq.usps.com. Если бы были присвоены все 90 000 возможных номеров (10000–99999), процент возможности точной идентификации людей был бы еще выше. Другая причина невозможности более высокого процента возможности точной идентификации состоит в неравномерном распределении населения США по почтовым индексам.

Barbaro, Michael, and Tom Zeller, Jr., “A Face Is Exposed for AOL Searcher No. 4417749”, New York Times, August 9, 2006, http://www.nytimes.com/2006/08/09/technology /09aol.html.

Singel, Ryan, “Netflix Spilled Your Brokeback Mountain Secret, Lawsuit Claims”, Wired, December 17, 2009, http://www.wired.com/2009/12/netflix-privacy-lawsuit.

Narayan, Arvind, and Vitaly Shmatikov, “Robust De-Anonymization of Large Sparse Datasets”, paper presented at the 2008 IEEE Symposium on Security and Privacy, Oakland, CA, May 18–21, 2008, pp. 111–125, http://dl.acm.org/citation.cfm?id=1398064.