Страница 6 из 53
Словари, словари, словари…
В чем отличие частотного словаря от любого другого? Прежде всего в том, что вместе со словом в нем приводится и частота употребления этого слова в тексте. Слова могут идти либо в алфавитном порядке, либо по убыванию частот. В «Частотном словаре русского языка», как мы уже говорили, дается и алфавитный, и частотный списки. Частотный словарь может быть полным, когда в нем приводится список всех слов, встретившихся в тексте, и неполным, когда дается лишь список слов, встретившихся с определенной частотой. Так, алфавитный список «Частотного словаря русского языка» — полный, а частотный — неполный, он дает лишь список слов с частотой «десять» и более, остальные тридцать тысяч слов, менее употребительных, в него не включены.
Объем материала, который лег в основу словаря, в значительной мере влияет и на состав этого словаря. В зависимости от того, сколько тысяч или миллионов слов текста обследовалось — или просчитывалось на электронно-вычислительной машине — выделяют малые, средние и большие частотные словари (так, первые частотные словари английского языка были, безусловно, малыми, а словарь Торндайка и Лорджа, составленный по текстам в восемнадцать миллионов слов, относится, разумеется, к большим).
Однако на словарь влияет и стиль, и тематика, и жанр, и авторская принадлежность того или иного текста. Вот почему различают частотные словари устной и письменной речи, словари общие (вроде нашего «Частотного словаря русского языка») и отраслевые (например, Е. А. Калининой с помощью ЭВМ составлен частотный словарь русского подъязыка электроники). Есть словари отдельных произведений, как классиков, так и современных авторов. Составлены «персональные» частотные словари — Пушкина, Шекспира, Шевченко и других.
Не менее важно и то, что именно фиксируется в словаре: исходная форма слова, словоформа, то есть слово в различных грамматических формах, основа слова или словосочетание. В таких языках, как китайский, разница между словарем основ и словоформ практически неощутима. В английском языке она уже заметна. Когда же мы обращаемся к такому языку, как русский, где множество падежей, глагольных форм и т. д., различие между исходной формой слова и словоформой огромно. Например, частотный словарь русского подъязыка электроники, составленный по текстам в двести тысяч слов, дал свыше двадцати одной тысячи различных словоформ и менее семи тысяч слов!
Частоты, приводимые рядом со словами, также различны. Это может быть абсолютная частота, указывающая, сколько раз в тексте встретилось то или иное слово. Частота эта может быть относительной, выраженной в процентах или вероятностях (ведь объемы словарей могут быть разными, в зависимости от них различны и абсолютные частоты). Во многих словарях приводятся и другие числовые характеристики, например количество источников, в которых встретилось то или иное слово.
Наконец, словари могут различаться по способу анализа материала. Обычно их составляют на основании выборок. Так, для «Частотного словаря русского языка» брались отрывки из произведений различных авторов — писателей и драматургов, ученых и публицистов. В их числе были Ленин и Калинин, Леонов и Шолохов, Вавилов и Тарле, Тимирязев и Ферсман.
Однако есть и другой метод — сплошное расписывание текста. Именно так составляется словарь языка писателя. Подобного рода словари начали составляться давно. В них включаются все слова, которые употребил тот или иной автор в своих произведениях. Существует уже множество словарей, посвященных отдельным произведениям, например «Божественной комедии» Данте, «Неистовому Орланду» Торквато Тассо, «Улиссу» Джеймса Джойса и другим (кстати сказать, «Улиссу» принадлежит своеобразный рекорд по числу различных слов: если в «Божественной комедии» их пять тысяч восемьсот шестьдесят, в «Неистовом Орланде» — восемь тысяч четыреста семьдесят четыре, то Джойс ухитрился употребить почти тридцать тысяч разных слов в одном романе!)
Словарь языка писателя нетрудно сделать и частотным — для этого надо только указать, как часто употреблялось то или иное слово. Именно таким словарем является «Словарь языка Пушкина», выпущенный в нашей стране в четырех томах. В нем приводятся данные о том, сколько раз встречается то или иное слово в Полном собрании сочинений Пушкина, в каких именно произведениях, в каких значениях и грамматических формах.
Около шестисот тысяч слов содержат все пушкинские тексты. Из них двадцать одна тысяча двести слов — различные. Свыше ста раз встречается лишь семьсот двадцать слов. Зато один раз во всех пушкинских текстах употребляется шесть тысяч четыреста сорок различных слов, два раза — две тысячи восемьсот восемьдесят слов, три раза — одна тысяча восемьсот слов. Это — не «опровержимое и точное свидетельство богатства Пушкинского словаря, своеобразия его лексики.
Это, так сказать, общая статистическая картина. В последнее время в нашей стране появляются работы, в которых делается попытка на основании частотного словаря дать характеристику своеобразной модели мира, которая лежит в основе творчества каждого большого поэта. Большие поэты, как известно, проходят на своем пути этапы развития, вехи которых — поэтические сборники или поэмы. Сопоставление частотных словарей, составленных по отдельным сборникам, позволяет выразить в числах и точно сформулировать то, что интуитивно чувствует читатель.
Вот, например, сравнение частотных словарей по сборнику стихов Бориса Пастернака «Сестра моя жизнь» и Осипа Мандельштама «Камень» (сборники эти вышли почти одновременно и признаны едва ли не высшими достижениями в творчестве этих поэтов). Если откинуть все служебные слова, союзы и прочий «грамматический фон», то самым частым существительным у Пастернака является ночь, вслед за ним идут слова глаза, губы, звезда, сад. В «Камне» Мандельштама самое частое существительное — Рим, затем мир, сердце, печаль.
Еще более разительный контраст получается, если сгруппировать существительные по «смысловым полям»: природа, вещи, человек, культура и история. Слова, относящиеся к «полям» человек и вещи, употребляются обоими поэтами примерно одинаково. Но если у Пастер» нака «поле» природа включает половину всех слов, то у Мандельштама — менее тридцати процентов. И, наоборот, «поле» культура и история у Пастернака занимает три процента слов, а у Мандельштама — почти двадцать!
Смысловое «поле» флора у Пастернака содержит свыше сотни названий растений и слов, имеющих прямое отношение к растительному царству (грядка, шишка и т. п.). У Мандельштама в «Камне» лишь двенадцать названий растений. Пастернаковский «зоопарк» состоит почти из полусотни названий живых существ, от бациллы и стафилококка до ехидны и мамонта. Еще двадцать пять слов связаны с животным миром (рыба, гнездо, хвост и т. п.). Фауна Мандельштама бедней, всего лишь двадцать одно животное.
Сопоставление подобного рода смысловых «полей», частот отдельных слов и групп слов ярко показывает различие между моделью мира, запечатленной Пастернаком в сборнике «Сестра моя жизнь», где чувства человека слиты в неразрывное целое с окружающей природой, и моделью мира Мандельштама, выраженной в сборнике «Камень», где история и культура органически связаны с человеческим бытием. А если бы у нас был частотный словарь по произведениям Маяковского, написанных в ту же пору, когда писались «Камень» и «Сестра моя жизнь», мы бы наглядно убедились в том, что модель мира великого пролетарского поэта была совсем иной, она обращена была на революцию, опрокинувшую старый строй.