Страница 10 из 13
Математический аппарат, задействованный в моделировании тем, весьма сложен, но его общие принципы достаточно просты. Каждый роман представляет собой комбинацию тем, а эти темы выражаются словами (в первую очередь – существительными). Например, в книге о финансах, скорее всего, встретятся слова «банки», «проценты», «деньги», «фидуциарный». В другой книге, посвященной домашнему консервированию, мы увидим слова «банки», «крышка», «огурцы» и «укроп». Слово «банки» попадается в обеих книгах, но, рассмотрев другие существительные, стоящие рядом с каждым вхождением этого слова, компьютерная модель регистрирует повторяющиеся закономерности и может понять – подобно читателю-человеку, – что в разных местах слово «банки» имеет разные значения[50]. Очевидно, что слово «банки» само по себе еще не тема, но, когда оно постоянно попадается рядом с другими словами, которые (как нам уже известно) связаны с финансами, мы понимаем, что компьютер обнаружил в книге тему денег. Аналогично, если «банки» окружены «огурцами» и «пряностями», мы знаем: компьютер обнаружил тему домашних заготовок. При написании этой книги мы проводили моделирование тем, и одна из тем, обнаруженных компьютером, выглядела так, как показано на рис. 1.
Рис. 1
Эта тема посвящена барам – не единицам измерения, а заведениям, куда заходят выпить рюмочку. Значение этого слова вполне прозрачно. На нашей визуализации в виде облака слова изображены шрифтом разного размера: чем крупнее шрифт, тем чаще это слово попадается рядом со словом «бар». Это очень логично. Слова, непосредственно окружающие центральное слово «бар», – «бармен», «выпить», «виски», «пиво» – дают нам уверенность в том, что если компьютер нашел все эти слова в пределах одной-двух страниц, то действие разворачивается в обычном местном баре.
Не все темы, обнаруженные компьютером, так легко интерпретировать. Иногда требуются познания в литературе и дар рассуждения. Время от времени приходится распознавать необычный язык, сконструированный автором фантастической саги, или малоизвестный диалект. Если тема составлена из таких слов, как аск, уолл на уолл, боллзы и амбрелла, вы будете долго напрягать брейнз[51], пока не догадаетесь, что все это – сленг из романа Энтони Берджесса «Заводной апельсин». Однако гораздо чаще тематическое облако выглядит примерно как на нашем рис. 2.
Рис. 2
Такие существительные, как глаза, рот, рука, голова, говорят о том, что тема имеет какое-то отношение к телу. Однако просто тело – недостаточно конкретное название. Тело может фигурировать, например, в описании сцены убийства, но это явно не наш случай. Образующие контекст слова на самом краю облака – поцелуи, наслаждение, улыбка, дыхание, постель, ритм, жар – указывают на то, что эта группа существительных описывает любовную сцену. Но это тоже слишком общее выражение. Любовные сцены бывают разные. Большинство писателей утверждает, что правильно описать секс – нелегкая задача, за которую они берутся безо всякого удовольствия. Каждый автор решает ее по-своему, с большим или меньшим успехом. В данном случае нужно заметить, что выбор слов указывает на довольно сдержанный стиль писателя – он явно не злоупотребляет грубостью или откровенностью. Словесные облака, созданные из описаний любовных сцен, показывают, что эти описания сильно различаются: от таких, которые можно не смущаясь читать вслух собственной бабушке, – до таких, какие выдержит лишь закаленный читатель.
Благодаря алгоритму моделирования тем мы получаем два важных результата. Во-первых, компьютер сообщает, какие темы есть в нашем корпусе текстов (в том числе – какие слова составляют каждую из них; примеры мы только что видели в словесных облаках слов «бар» и «тело»). Во-вторых, компьютер определяет долю содержания каждой темы в каждой книге. Мы задали список из пятисот возможных тем, так что вариации тематического состава могут быть огромны. Узнав эти пропорции, мы можем начать поиск закономерностей, типичных для бестселлеров. Это нечто вроде обратного конструирования. Возьмем в качестве метафоры тарелку супа. Компьютер сначала делит его на составляющие – мясо, бульон, капуста, лук, специи, – а затем тщательно измеряет количество каждого ингредиента.
Измерив таким образом содержание ингредиентов, мы начинаем задавать вопросы. Например, можно спросить, какие банки чаще попадаются на страницах бестселлеров – те, что с деньгами, или те, что с вареньем. Или какого типа описания секса чаще встречаются в бестселлерах – совсем откровенные или более сдержанные. Кстати, если вам интересно: чтобы попасть в список бестселлеров NYT, лучше выбирать банки с деньгами, а любовные сцены (если уж без них никак нельзя) – те, которые рисуют душевную близость, а не насилие. Откровенная сцена поможет попасть в бестселлеры, если она продвигает вперед сюжет и взаимоотношения между персонажами. Если сцена добавлена автором для «оживляжа» и на самом деле не нужна для развития сюжета, она, скорее всего, не поможет книге продаваться и, следовательно, лишняя. Возможно, это объясняет, почему доля сексуальной темы в бестселлерах немного ниже по сравнению со всем корпусом текстов.
Конечно, нельзя создать книгу из одной темы. Возьмем, например, «Там, где течет река»[52] Нормана Маклина. Можно сказать, что она – про рыбалку и про деньги, но она также про религию и про отношения между братьями. У каждого романа есть свой собственный тематический профиль, отражающий не только набор тем, направленный на создание определенного переживания у читателей, но и точную пропорцию, в которой эти темы появляются в романе. В плане тематики для успеха книги важно и то и другое. Можем ли мы, глядя на рукопись, понять, насколько ее тематический профиль обеспечит ей успех?
Легко предположить вслед за многими редакторами, что роман об убийствах, расследованиях и командном спорте скорее понравится массовому читателю, чем роман о коллекционировании рептилий, космических ракетах и университетской жизни. Но для настоящего прогноза нужно задаться вопросом: существуют ли темы, общие для большинства бестселлеров? И в то же время необходимо доказать, что эти темы реже встречаются в романах, которые в список бестселлеров не попадают. Это сложная задача. При поверхностном взгляде на любой недельный список бестселлеров кажется, что набор тем совершенно случаен и ничего общего в них нет.
Возьмем список за текущую неделю. Сейчас, когда мы пишем эти строки, на первом месте среди романов в твердом переплете стоит «Вне правил»[53] Джона Гришэма. В этом нет ничего удивительного – Гришэм и первое место в списке бестселлеров сочетаются так же органично, как картофельный салат и Четвертое июля. Вопрос, однако, в том, обусловлено ли первое место в списке темами, присутствующими в книге. Второе место занимает детектив Джеймса Паттерсона из серии про Алекса Кросса. На третьем месте – роман Тома Клэнси, написанный кем-то другим (Клэнси умер в 2013 году). Далее идет сборник рассказов Стивена Кинга, детектив Дэвида Балдаччи, любовный роман Николаса Спаркса и очередное творение Джанет Иванович об охотнице за головами. Все эти произведения можно так или иначе отнести к жанровой прозе. Поскольку книга Кинга не роман, а сборник рассказов, ей, вероятно, свойственно большее тематическое разнообразие, чем роману. А поскольку Кинг работает в жанре хоррора и саспенса, можно догадаться, что его темы будут отличаться от тех, что использует Джеймс Паттерсон. Дальше идет удостоенный Пулитцеровской премии «Весь невидимый нам свет»[54] Энтони Дорра, потом новое творение Митча Элбома (как обычно, «про духовность»). Потом Пола Хокинс с «Девушкой в поезде»[55], которая держится в списке уже сорок седьмую неделю, потом – старый-новый роман Харпер Ли «Пойди поставь сторожа»[56], детектив Майкла Коннелли, «Соловей»[57] Кристин Ханны (его действие, как и действие книги Дорра, происходит во время Второй мировой войны) и наконец – любовный роман Даниэлы Стил и очередная часть саги Джорджа Р. Р. Мартина.
50
В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге (www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). (Примеч. авторов.)
51
A Clockwork Orange, Anthony Burgess. Использован перевод «Заводного апельсина», сделанный Е. Г. Синельщиковым.
52
A River Runs through It, Norman Maclean.
53
Rogue Lawyer, John Grisham.
54
All the Light We Ca
55
The Girl on the Train, Paula Hawkins.
56
Go Set a Watchman, Harper Lee.
57
The Nightingale, Kristin Ha