Добавить в цитаты Настройки чтения

Страница 47 из 116

Еще одна проблема, характерная для коллаборативной фильтрации – это рекомендации чего-то принципиально иного. Многие дей­ствующие системы дают сбой на этом месте[350]. Например, если при работе с Amazon.com. указать, что у вас в библиотеке есть «Макбет» Шекспира, то в ответ последует поток «услужливых» подсказок других пьес Шекспира[351]. Так же банальны и советы в сфере музыки. В рамках контентных систем идет поиск товаров, связанных общими характеристиками (того же автора, актера, режиссера) либо имеющих те же ключевые слова. Пообъектная коллаборативная фильтрация тоже базируется на сходстве товаров. Поэтому клиенту, купившему DVD с фильмом «Крестный отец», компьютер выдаст список других криминальных драм, фильмов с Марлоном Брандо и картин, снятых Ф. Копполой. Рекомендации часто будут либо слишком общими (все DVD того же жанра), либо чрезмерно зауженными (все книги того же автора), в то время как человек надеется на помощь в нахождении новых, стоящих внимания продуктов. Пытаясь решить эту проблему, некоторые системы, например Daily-Learner, отклоняют объекты на основании слишком большого сходства с тем, что уже известно клиенту[352].

Субъект-субъектная версия коллаборативной фильтрации лишена этого недостатка. Клиент может запросить набор произведений, высоко оцененных его кругом рекомендателей, и обнаружить что-то совершенно новое.

Сотрудники Amazon сообщают, что справились с рядом недочетов пообъектной коллаборативной фильтрации, разработав собственную оригинальную схему (хотя, как показывает опыт с Шекспиром, с внедрением ноу-хау еще не все гладко)[353]. Ими разработан алгоритм коллаборативной фильтрации для работы с громадными базами данных (что актуально для Amazon.com[354]), способный выдавать качественные, по мнению авторов, рекомендации в режиме реального времени. Смысл в том, что система соотносит каждый из приобретенных пользователем товаров с близкими товарами, купленными другими клиентами, и формирует рекомендательный список[355].

Создав (в оффлайновом режиме) таблицу сходных товаров, программа находит среди них те, что перекликаются с покупками и оценками конкретного пользователя. Затем ему подсказывают самые популярные из продуктов, сходных с теми, что он еще не покупал или близких к уже купленным. (При этом, какие именно ему нужны рекомендации, никто не спрашивает!) Вычисление занимает мало времени, поскольку основная работа делается в режиме оффлайн, и в этом секрет масштабируемости пообъектной схемы. На выходе предлагаются только в большой степени сходные и, как уверяют авторы, желанные товары, хотя не ясно, откуда при высоком сходстве возьмутся рекомендации нового, оригинального произведения искусства.

2.7.4. Гибридные методы производства рекомендаций

Эти методы представляют собой комбинацию коллаборативного и контентного подходов и позволяют избежать ограничений, свойственных каждой из систем в отдельности[356]. Преимущества гибридной схемы[357] видны из простого примера. Предположим, один пользователь высоко оценил веб-страницу, освещающую итоги кинофестиваля, второй в тех же целях изучил другой интернет-источник. Коллаборативная фильтрация поклиентского типа ничего ценного отсюда не вылущит, а вот анализ содержания покажет, что объекты сходны, и выявит связь между пользователями.

Комбинации могут быть разными. Можно произвести расчеты в рамках коллаборативной и контентной схем по отдельности, а затем объединить предсказания. Можно встроить некоторые из контентных принципов в коллаборативную методику, и наоборот[358]. Наконец, в рамках гибридного подхода возможно построение единой рекомендательной модели.[359] Сложность, которая возникает в этом случае, заключается в необходимости получения информации об объектах рекомендаций.

В таблице, составленной Адомявичусом и Тужилиным, дана классификация рекомендательных систем (см. ниже)[360].

2.7.5. Эффективность и многомерность рекомендаций

Хотя эта проблема активно обсуждалась[361], к однозначным выводам специалисты пока не пришли. Вопрос об эффективности часто сводится к покрытию и точности. Покрытие – это количество товаров, для которых рекомендательная система способна выдать прогноз. Точность

Классификация рекомендательных методов[362]

измеряется по расхождению предсказанных оценок и фактических. (Ее может оценить для себя любой пользователь, сверяя рекомендации с оценками уже известных ему произведений.) Очевидно, что рекомендательные системы еще не настолько вошли в жизнь, чтобы можно было судить об их эффективности со всей определенностью. Поэтому выводы, встречающиеся в литературе, носят предварительный характер. Надо делать поправку и на то, что некорректно сравнивать рекомендательные системы, отличающиеся друг от друга по охвату материала. Одно дело подсказки в области узкоспециальной литературы, другое – музыки, третье – рекомендации в области культурного потребления вообще.

Очевидно, рекомендательные системы в ближайшей перспективе будут доработаны и приспособлены для обслуживания непростых задач из смежных сфер, таких как советы путешественникам, образовательные и медицинские услуги. Проблема в том, что нынешние системы обходят стороной контекстуальную информацию, без которой точность предсказаний резко снижается. Так, если в ходе выработки рекомендаций по фильмам учесть, когда, где и с кем смотрится кино, то эффективность прогнозов возрастет. Очевидно, что ценность целого ряда действий, в частности турпоездок, зависит от момента (сезона, времени суток, дня недели), а также от того, с кем, в какой компании и при каких обстоятельствах человек воспользовался услугой. Имело бы смысл учитывать все эти дополнительные данные[363]. Интересные возможности открываются и при включении в расчеты информации о цели, которую преследует пользователь[364].

Глава 2.8. Тендер на экспертизу

Традиционная экспертиза бывает либо медленная и углубленная («ручная» работа критика), либо быстрая и поверхностная (рейтинг). Ни тот, ни другой вариант не решают проблему навигации в полной мере. Если же ввести в систему коллаборативной фильтрации деньги, как предлагается в этой книге, произойдет принципиальный и качест­венный прорыв. Денежная коллаборативная фильтрация генерирует рекомендации оперативно и точно. Высокая производительность этого метода достигается за счет того, что тестируемые произведения делятся между большим числом экспертов-потребителей, а точность – благодаря специальной логике вычленения вкусовых сообществ.

Как появление нового института отразится на существующих экспертных инстанциях? Заменит ли в перспективе коллаборативная фильтрация традиционные виды экспертизы? Ни в коем случае. Несмотря на то что по качеству навигации с денежной коллаборативной фильтрацией конкурировать невозможно, автоматизированная рекомендательная система не мыслится как альтернатива существующим институтам. За ними сохранится их поле деятельности, поскольку за каждым закреплены свои фирменные, выполняемые только им функции. Критики сосредоточатся на критике, жюри продолжат выбирать лучших, рейтинги будут служить рекламодателям и т. п. Вся эта продукция может быть инкорпорирована в работу рекомендательных систем. Например, критические рецензии, как любой контент, могут становиться объектом оценивания и, в случае востребованности, продаваться за деньги.

350

Terveen L., Hill W. Beyond Recommender Systems…

351

Там же.

352

Billsus D., Pazzani M. User Modeling for Adaptive News Access // User Modeling and User-Adapted Interaction,Vol. 10, № 2–3, 2000. P. 147–180. Й. Жанг и др. предложили пять правил избыточности, чтобы определить, содержит ли продукт, отвечающий профилю потребителя, какую-либо новую для него информацию (cм.: Zhang Y., Callan J., Minka T. Novelty and Redundancy Detection in Adaptive Filtering // Proc. 25th A

353

Linden G., Smith B., York J. Amazon.com Recommendations…

354





У Amazon.com десятки миллионов клиентов и несколько миллионов товаров.

355

Для вычисления сходства между двумя товарами применяется тот же метод, что и в традиционной поклиентской коллаборативной фильтрации, с той лишь разницей, что вектор соответствует товару, а не пользователю, а его размерность равна числу пользователей, приобретших данный товар.

356

Wei Y. Z., Moreau L., Je

357

Дополнительную информацию про гибридные рекомендательные системы см. в приложении 1, раздел 11.3.

358

Так, некоторые гибридные рекомендательные системы (в частности Fab) основываются на коллаборативной фильтрации, используя в дополнение контентные профили пользователей. Последние необходимы для выявления близости между клиентами, что позволяет решить проблему разреженности оценок.

359

Basu C., Hirsh H., Cohen W. Recommendation as Classification: Using Social and Content-Based Information in Recommendation // Recommender Systems. Papers from 1998 Workshop, Technical Report WS-98-08, AAAI Press 1998; Popescul A., Ungar L. H., Pe

360

Взято из обзора: Adomavicius G., Tuzhilin A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions // IEEE Transactions on Knowledge and Data Engineering, Vol. 17, № 6, June 2005.

361

Herlocker J. L., Konstan J. A., Borchers A., Riedl J. An Algorithmic Framework for Performing Collaborative Filtering // Proc. 22nd A

362

Источник: Adomavicius G., Tuzhilin A. Toward the next generation of recommender systems…

363

Adomavicius G., Tuzhilin A. Multidimensional Recommender Systems: A Data Warehousing Approach // Proc. Second International Workshop Electronic Commerce (WELCOM ’01), 2001; Adomavicius G., Sankaranarayanan R., Sen S., Tuzhilin A. Incorporating Contextual Information in Recommender Systems Using a Multi­dim­ensional Approach // ACM Transactions on Information Systems, Vol. 23, № 1, Jan. 2005.

364

Herlocker J. L., Konstan J. A. Content-Independent Task-Focused Recommendation // IEEE Internet Computing, Vol. 5, № 6, Nov./Dec. 2001. P. 40–47.