Страница 9 из 23

BIG DATA. Вся технология в одной книге

Вайгенд Андреас

Такое понимание соотношения количества и качества данных отчасти – но не полностью – обосновывает мою убежденность в том, что требовать плату за предоставление личной информации было бы ошибочным. Одним из главных пропагандистов идеи платного предоставления данных является концептолог Microsoft Research Джарон Ланье. Он страстно отстаивает эту точку зрения с момента публикации своей книги «Кому принадлежит будущее?» в 2013 году[39][40]. Один из его любимых примеров – работа сервиса «Google-переводчик». Почему, задается вопросом автор, все доходы от рекламы получает Google, а всем тем, кто помогает совершенствовать алгоритмы компании, исправляя и дополняя варианты переводов, не достается ничего? Каждое исправление и дополнение, предлагаемое пользователями, улучшает систему переводов Google, даже если они являются повторами. Система как раз обращает особое внимание на неоднократно предлагаемые варианты.

Помощники Ланье получают компенсацию за свою работу. Весьма вероятно также и то, что они извлекают выгоду и от использования «Google-переводчик». Но в последнем случае это не деньги, а доступ к постоянно совершенствующимся информационным продуктам и сервисам.

Теперь давайте посмотрим, какая информация создается в Facebook. Автором информации, которую представляет собой фото вашей собаки, совершенно точно являетесь вы. А как быть в случае группового фото с вечеринки по случаю дня рождения? Вы сделали и разместили эту фотографию, но коммерческая ценность этого поста в Facebook определяется трафиком, который он создает, и уточнением данных о связях и интересах людей. Должны ли вы получить все средства, которые можно отнести на счет этого поста? Или вы должны разделить их со всеми, кто отмечен на этом фото? А как быть с комментариями, лайками и тэгами? Ведь они означают, что фото пробудило активность многих других людей, которая в свою очередь транслируется уже их друзьям. И эта информация о «цепочке» может быть намного более полезна с точки зрения возможностей обработки данных и извлечения из этого доходов. Ланье не обсуждает подобного рода связи, возможно, считая их недостаточно «креативным» контентом, за который стоит платить. Но такого рода цифровые следы составляют основную часть сырья инфопереработчиков, на результаты работы которых мы полагаемся в своей повседневной жизни.

Если заставить инфопереработчиков материально оценить вашу активность – все ваши поиски, просмотры, лайки и тэги во взаимосвязях со всеми, кто использует эти данные и дополняет их, можно с уверенностью предположить, что это они потребуют с вас плату за доступ к результатам поиска, рекомендациям и рейтингам. Разработка алгоритмов стоит денег, и подобный аналитический срез потребует создания специального инструментария для атрибуции и оценки каждого элемента данных, причем с учетом изменения его стоимости во времени.

Предложенная Ланье «микроплата» за предоставление данных – безнадежное мероприятие не только в силу сложности и затратности решения проблемы атрибуции. Для начала давайте просто посмотрим на порядок цифр. Если бы Facebook решила поделиться всей своей прибылью за 2015 год, составившей 3,5 миллиарда долларов[41], со своими пользователями (не выплачивая дивиденды акционерам), каждый из них получил бы примерно по 3 доллара 50 центов. Что для вас более важно – постоянно иметь в своем распоряжении платформу с неограниченными коммуникационными возможностями или одна лишняя чашка капучино в год? Если первое, то за ваши данные вам уже «заплатили».

Разбираемся дальше. Во многих случаях вам надо предоставить данные, чтобы получить услугу, например информацию о своем местоположении для приложения Uber. Решив, что впредь вы отказываетесь делиться своей информацией бесплатно, вы тем самым лишите себя возможности пользоваться бесплатными продуктами и услугами многих информационно-технологических компаний. Наконец, многие из продуктов этих компаний – от товарных рекомендаций до прогноза спроса на услуги такси – основаны исключительно на обработке первичных данных пользователей. И хотя конкретно ваши данные могут не иметь какого-то особого значения для конечного результата, сама просьба к потребителям продуктов и услуг предоставлять свою информацию является вполне уместной.

По этим причинам я полагаю, что, вместо того, чтобы настаивать на плате за свои первичные данные, следует потребовать предоставления более жесткого контроля над тем, как, когда и почему распространяется ваша информация, для чего она используется и что вы получаете в результате. Наиболее успешные инфопереработчики разъясняют, каким образом предоставляемые вами данные способствуют совершенствованию предлагаемых ими информационных продуктов. В обществе слишком много обсуждают ограничения, которые следует наложить на использование первичных данных организациями, но практически игнорируют вопрос о том, что инфопереработчики должны предлагать в качестве инструментов повышения прозрачности и расширения свободы выбора.

Переработка данных не превращает человека в товар в виде набора цифр, во всяком случае, это далеко не обязательно. Главное, что может почерпнуть из этой книги читатель, – это вывод о пользе обработки социальных данных для его собственных решений, а не только для рекламной кампании какой-нибудь мегакорпорации. Я считаю, что человека в равной степени определяют и создаваемая им информация, и принимаемые им решения. И ценность ваших данных для вас состоит именно в этом.

Процесс переработки данных подразумевает также компромисс между исследованием и использованием. Хочу перенести вас к рядам игральных автоматов в залитом неоновыми огнями Лас-Вегасе. В области искусственного интеллекта (то есть компьютерных программ, способных самообучаться на основе входящей информации) задача об «одноруком бандите» является в каком-то смысле коронной, примером дилеммы между поиском новых вариантов или использованием лучшего из известных[42]. Предположим, вы зашли в казино и узнали, что кто-то вроде бы выиграл целое состояние на одном из автоматов. Как вы поступите? Проведете остаток вечера у этого прославившегося автомата или же будете исследовать остальные в поисках еще более высоких шансов на джекпот? Разумеется, сбор данных о результативности всех автоматов потребует времени. Поскольку казино создаются ради прибыли, игры настроены так, чтобы клиенты в целом оставались в проигрыше. И в идеале, как учат теоретики вычислительных систем, вам придется в течение какого-то времени понаблюдать за работой автоматов, чтобы постараться обнаружить закономерность. И хотя статистик сможет порекомендовать, сколько времени нужно потратить на наблюдение за каждым из этих шумных устройств, у вас все равно останется выбор – или исследовать новые варианты, или использовать тот, который уже доказал свою результативность. Может показаться, что пример об «одноруком бандите» имеет мало общего с конечной продукцией инфопереработки, однако в списке рекомендаций для пользователей в качестве ключевой задачи значится как раз поддержание баланса между исследованием и использованием. Из этих соображений пользователь выбирает наиболее подходящую ему рекомендацию. И здесь аналогия с нефтью снова придется кстати. Геологи-нефтяники и инженеры оценивают альтернативу: стоит ли и дальше вкладывать значительные средства до полной выработки существующего месторождения или же переключиться на поиски новых, где добыча может обходиться не так дорого. Инфопереработчикам также приходится решать проблемы лучшего применения ресурсов для максимизации эффективности входящих и исходящих потоков данных. В том, что касается информации, главным параметром, который надлежит контролировать, является время пользователей.

Когда поисковик вроде Google выдает ответ на ваш запрос, перечень сайтов представляет не десятки одинаковых позиций, а предлагает различные варианты в рамках определенной степени релевантности предмету поиска. Иногда бывает понятно, что вам нужна информация о чем-то совершенно конкретном, например в случае, когда вы вводите в строку поиска словосочетание «Panthera onca». Но если вы введете в качестве предмета поиска просто «ягуар», то компьютер покажет вам не только то, что относится к представителю кошачьих, автомобилю или старой операционной системе компьютеров Mac[43]. Алгоритмы поисковой системы создают кластеры значений слова «ягуар» на основе количества слов на странице, связей между страницами и перемещениями пользователей между страницами и предлагают для изучения выборки из каждого такого кластера, чтобы обеспечить большую вероятность успеха вашего поиска.

Who Owns the Future? В России книга не издавалась. – Ред.

Lanier, Jaron, Who Owns the Future? (New York: Simon & Schuster, 2013), pp. 273–274.

Facebook A

Gittins, J. C., “Bandit Processes and Dynamic Allocation Indices”, Journal of the Royal Statistical Society B (Methodological) 41, no. 2 (1979), pp. 148–177, http://www.jstor.org /stable/2985029.

Спасибо одному из заслуженных разработчиков Microsoft Яну О. Педерсену за его рассказ о том, как решалась проблема исследования/использования в Yahoo! (где он прежде работал главным научным сотрудником поисковой системы) на примере поискового запроса «ягуар».