Страница 6 из 13
Интересно здесь то, как остро и притом незаметно для себя люди во время чтения реагируют на подобные характеристики книги. Специалисты из новой, стремительно развивающейся области «литературной неврологии» используют ЯМР-томографию для исследования мозга человека во время чтения. Эксперимент направлен на выявление того, что замечает читатель. Когнитивная психология подходит к вопросу «как читает читатель?» совершенно под иным углом, чем мы, но оба подхода базируются на одном постулате: отклик читателя на литературный текст зависит от того, из каких слов состоит этот текст, в каком порядке они выстроены и как организованы в предложения. И какую реакцию они вызывают.
Значит, использование компьютерного чтения никак не противоречит обычному подходу литературных критиков. Более того, рассмотрение характеристик текста «под лупой», их извлечение и последующий анализ очень часто используются в традиционных критических подходах и позволяют получить представление о тексте на уровне, который был невозможен раньше.
Компьютер можно научить читать текст и извлекать из него информацию множеством способов[30]. Алгоритмы и программы, созданные нами для данного исследования, направлены на обработку текстов и сбор детальной информации (о неповторимом стиле каждой книги, ее тематике, эмоциональных подъемах и спадах в повествовании, персонажах, местах действия). Также эти программы обрабатывают огромное количество скучных на первый взгляд лингвистических данных, которые не так просто перевести на язык привычных концепций стиля и сюжета. При обработке художественных произведений большого объема, какие обычно изучаются на курсах писательского мастерства и в пособиях для начинающего романиста (тема, сюжет, стиль и т. д.), обычно анализируются сотни параметров. Например, чтобы дать формальное описание стиля, мы использовали несколько сотен переменных: как часто у автора попадаются слова типа a[31], the, in[32], she[33]; как часто автор использует точки и восклицательные знаки; как часто – наречия и какие именно. Эти мелкие детали так много говорят читателю! Посмотрите, как важны местоимения для создания эффекта в знаменитой фразе из романа Шарлотты Бронте «Джейн Эйр»[34]: «Читатель, я вышла за него замуж». Компьютер обращает внимание на слово «него», на то, как часто мы слышим про «него» и как часто это местоимение встречается рядом с самым главным местоимением – «я» рассказчицы. Компьютер замечает, что «я» и «он» попадаются все ближе друг к другу во все большем количестве предложений, и их разделяет все меньше и меньше слов. Конечно, читатель тоже следит за этим. Разве главная развязка множества книг не заключается в том, чтобы «я» и «он» пошли по страницам рука об руку, разделенные лишь немногими важнейшими словами, такими как «вышла за»? Очень часто мы, не в силах оторваться от книги, продолжаем листать ее исключительно ради этого.
Вопросительные и восклицательные знаки тоже многое могут поведать. Возможно, вы помните, как писали сочинения в школе и как учитель советовал вам не злоупотреблять восклицаниями. Если каждая фраза визжит от возбуждения («О боже!»), или командует («Руки вверх!»), или кричит от боли («Ой!»), или жутко грохочет в подвале среди ночи («Бу-бух!»), то у читателя, не ровен час, может случиться сердечный приступ. Если текст изобилует восклицательными знаками, это кое-что говорит как о его возможном содержании и уровне накала страстей, так и о профессионализме автора. Аналогичным образом обилие вопросительных знаков указывает на то, что этот текст – диалог, а бесконечные страницы текста без единого вопросительного знака могут замедлить динамику повествования и притупить интерес читателя. Эти черты индивидуального стиля мы обсуждаем в 4-й главе.
Мы начали с извлечения свыше 20 тысяч параметров – имейте в виду, что количество восклицательных знаков и частота употребления слова «него» это лишь два из них, – и изучили их все. Некоторые были приметами стиля, другие помогали что-то узнать о сюжете и месте действия, а третьи поясняли, о чем, собственно, книга. Оказалось, что не все эти параметры помогают отличить книгу, набравшую миллионы читателей, от той, которая, несмотря на все свои уникальные достоинства, провалилась. Например, выяснилось, что использование чисел в заглавии – «911», «1984», «867–5309», «$ 1 000 000» – никак не стимулирует продажи. Аналогичным образом мы потратили много времени, обучая компьютер распознавать место действия (например, действие книги «Дьявол носит Prada»[35] происходит целиком в Нью-Йорке, а действие «Исчезнувшей» начинается в Нью-Йорке, а потом переносится в штат Миссури), но оказалось, что, за малыми исключениями, географическое положение героев совершенно не влияет на популярность у читателей. В Нью-Йорке происходит действие как бестселлеров, так и книг, не имевших никакого успеха. Литературные мегахиты, действие в которых разворачивается в этом городе, – взять хотя бы «Обнаженную для тебя» Сильвии Дэй, «Костры амбиций»[36] Тома Вулфа, «По-быстрому»[37] Джеймса Паттерсона, «Жутко громко и запредельно близко»[38] Джонатана Сафрана Фоера – явно (намеренно со стороны автора или случайно) обладают какими-то иными, более важными «генами бестселлера».
В конце концов мы отфильтровали свой список параметров, оставив от 20 тысяч примерно 2800, которые помогают отличить популярные у читателей книги от предназначенных для – будем честны – узкой читательской ниши. Сначала мы научили компьютеры читать книги и извлекать из них нужные данные, а затем проанализировали эти данные, используя другой набор компьютерных программ – для обнаружения и исследования скрытых закономерностей. В этой фазе анализа мы использовали процесс, весьма метко называемый машинным обучением. При анализе текстов бывает нужно сортировать или классифицировать их по сходству и различию. Например, мы хотим отличать спам от обычных сообщений в электронной почте. Поскольку у спамерских посланий много общего – искаженное написание слов, частое упоминание виагры и т. д., – можно написать программу, которая будет определять, с какой вероятностью данное сообщение окажется спамом. Сортировка романов на бестселлеры и небестселлеры очень похожа на действия, выполняемые спам-фильтром в электронной почте. Допустим, у нас есть новая книга, которую мы видим в первый раз, и мы хотим понять, может ли она стать бестселлером. Если у нас уже есть куча бестселлеров («не спам») и куча книг, которые бестселлерами не стали («спам»), мы можем ввести их все в компьютер и научить его отличать книги одной категории от другой по определенным параметрам. Именно так мы и поступили. Более того, мы проделали это тремя разными способами, усреднили результаты и обнаружили, что в 80 % случаев наша система правильно определяла, какой текст из нашего корпуса – бестселлер, а какой – нет[39].
Этот средний показатель 80 % означает, что, если взять наугад из недавно опубликованных книг 50 бестселлеров и 50 так и не ставших ими, наш компьютер правильно классифицирует 40 бестселлеров и 40 небестселлеров. Конечно, это значит также, что компьютер сочтет 10 бестселлеров провальными, а 10 небестселлерам напророчит блестящий успех. В проведенной нами серии тестов компьютер, в частности, был абсолютно уверен, что «Гордость и предубеждение и зомби»[40] не будет иметь успеха, – и ошибся. Конечно, «Гордость и предубеждение и зомби» вышла тогда, когда любая отсылка к Джейн Остин гарантировала книге внимание читателей, а в кинотеатрах пачками шли фильмы про зомби. Но в данном случае контекст оказал непропорционально большое влияние на уровень продаж.
30
Общее описание нашего метода содержится в послесловии. (Примеч. авторов.)
31
Неопределенный артикль в английском языке.
32
Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «в», «через» и др. (Примеч. перев.)
33
Она (англ.).
34
Jane Eyre, Charlotte Brontё.
35
The Devil Wears Prada, Lauren Weisberger.
36
The Bonfire of the Vanities, Tom Wolfe.
37
The Quickie, James Patterson.
38
Extremely Loud & Incredibly Close, Jonathan Safran Foer.
39
Первую попытку выявления бестселлеров мы предприняли в первом нашем эксперименте, в Стэнфорде, еще в 2008 г. Наш корпус текстов состоял из 20 000 романов, но параметров для анализа у нас было гораздо меньше, всего 505. Такой большой корпус текстов был полезен для определенных видов анализа, но при этом он был составлен с уклоном в пользу более ранних периодов – в нем содержалось слишком много книг XIX века, а среди более современной литературы преобладали научная фантастика, фэнтези и любовные романы. Несмотря на эти недостатки, мы получили хорошие результаты: точность определения бестселлера колебалась в пределах 70–80 %.
При написании этой книги мы построили совершенно новый корпус текстов: более разнообразный и более современный. В нем содержалось почти 5000 произведений, в том числе электронные книги, не ставшие бестселлерами, романы, опубликованные традиционным путем, а также бестселлеры из списка NYT числом чуть больше 500. (Примеч. авторов.)
40
Pride and Prejudice and Zombies, Seth Grahame-Smith.