Добавить в цитаты Настройки чтения

Страница 34 из 38

«РУССКИЙ ОФИС» – ПОЛЕЗНЫЕ ДОПОЛНЕНИЯ

…Как известно, абсолютно идеального комплекта программ в природе не существует. И как бы ни был талантлив и мастеровит Microsoft Office, он умеет далеко не все. Но, к нашему счастью, этот пакет программ отличается не только умом и сообразительностью, но и дружелюбием. Его программы не только работают в тесной связке со своими коллегами по пакету, но и охотно заводят дружбу со сторонними программами, которые могут снабдить их новыми талантами и способностями. В главе, посвященной Word, мы говорили о том, что для этой программы существует большое число дополнительных модулей и надстроек. На самом деле они существуют не только для Word, но и для других программ офисного комплекта от Microsoft. Правда, большинство «макросов», представленных в Библиотеке дополнений Microsoft Office (http://www.microsoft.ru/offext), интересны лишь узким специалистам – например, бухгалтерам или статистикам. Но есть и другие программы, которые тоже умеют работать совместно с программами Office, встраивая в их интерфейс собственные панели инструментов. И без хотя бы короткого рассказа об этих программах наша книжка была бы неполной. Все эти разработки – нашего, российского происхождения, и созданы прежде всего для того, чтобы сделать и без того отлично говорящий по-русски Office еще более приспособленным к нашим нуждам и потребностям.

ОРФО – проверка орфографии

Комплекс ОРФО включает модули проверки русской орфографии и грамматики для программ семейства Microsoft Office, а также Adobe PageMaker, Corel WordPerfect, Lotus WordPro и QuarkXPress. Полезность ОРФО при использовании совместно с нелокализованными продуктами очевидна и пояснений в этом случае не требуется. Однако оказывается, что и при работе с локализованными продуктами ОРФО способен изрядно облегчить жизнь тем, чья профессия связана с обработкой текстов. В любом случае, после работы с ОРФО вы уже не сможете смотреть на встроенные системы проверки орфографии иначе, как со снисходительной жалостью. Сравним ОРФО хотя бы с орфографическим модулем того же Word (который был также создан компанией «Информатик»... целых девять лет назад!). Очевидно, что ОРФО может распознать гораздо больше слов, а в случае обнаружения ошибок – еще и предложить значительно больше вариантов их исправления. А вот и принципиальное новшество: ОРФО позволяет добавлять незнакомые слова в словарь вместе со всеми словоформами! Для этого вам достаточно правильно указать грамматические категории слова (т. е. его род, тип склонения и т. д.). В итоге, в дальнейшем будет правильно распознаваться не только конкретная форма введенного слова (например, «плагинов»), но и все остальные («плагины», «плагинами»...). Если бы вы работали со стандартным модулем Word, то каждую форму необходимо было бы указывать отдельно. При этом пользовательский словарь, созданный вами в одном приложении, будет доступен и при работе с другими пакетами, способными работать совместно с ОРФО.

Новые версии программы (начиная с профессиональной версии ОРФО-2002) поддерживают и подключение дополнительных, специализированных словарей (или «словников»), которые вы можете приобрести отдельно:

■ Научный словник. Содержит 25 тыс. слов из области математики, физики, химии, информатики, биологии, лингвистики.

■ Технический словник. Содержит 23 тыс. общетехнических слов и терминов из области авиа-, ракето– и автомобилестроения, нефтегазовой, радиотехнической, пищевой и парфюмерной промышленности.

■ Медицинский словник. Содержит 13 тыс. слов из области медицины.

■ Гуманитарный словник. Содержит 3 тыс. слов из области культуры, религии, политики, музыки, психологии.

■ Словник по бизнесу. Содержит 2 тыс. терминов по бизнесу, бухучету, финансам и праву.

Наконец, помимо орфографического модуля в профессиональную версию ОРФО дополнительно включены: Толковый словарь и Грамматический справочник, Составление реферата и списка ключевых слов, Поиск и замена слов во всех формах, подробная Справочная система, макрокоманда Расстановки всех возможных переносов и др.

FineReader – распознавание текста





Ввести со сканера текст в компьютер – задача не слишком трудная. Однако работать с таким текстом невозможно: как и любое сканированное изображение, страница с текстом представляет собой графический файл – обычную картинку. Отсюда возникают проблемы: во-первых, в графическом формате страница занимает слишком много места, и, скажем, отсканированная книга не на каждый жесткий диск поместится. И вторая, самая главная проблема: сканированный текст можно будет только читать, но не редактировать и не вставлять его фрагменты в создаваемый вами документ. Ведь сам сканер распознавать буквы именно как буквы не умеет: они для него – всего лишь пятна и точки черного цвета.

К счастью, на свете существуют программы, способные перевести сканированный текст из графического в текстовый формат – программы распознавания текста или OCR.

Современная OCR должна уметь многое: распознавать тексты, набранные не только определенными шрифтами (именно так работали распознавалки первого поколения), но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с текстами, содержащими слова на нескольких языках, корректно распознавать таблицы. И самое главное – корректно распознавать не только четко набранные тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст – это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового (или табличного) формата – скажем, формата Microsoft Word или Excel.

Как видим, для того чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций:

Сканирование. За эту работу отвечает, собственно, не программа OCR, а встроенное в систему программное обеспечение вашего сканера. Именно с его помощью вы можете задать нужные вам параметры сканирования – например, разрешение (рекомендуется 300 dpi), цветовой режим (для простых текстов достаточно черно-белого или LineArt) – и выделить ту область документа, которую вам необходимо «скопировать» в компьютер.

Сегментация. Полученную со сканера «картинку» подхватывает OCR-программа. Но до распознавания еще далеко – сначала надо отделить текстовые элементы от графики, да и текст в ряде случаев разбить на отдельные куски (например, при многоколоночной верстке).

Распознавание. На этом этапе текст переводится из графической формы в обычную текстовую.

Проверка орфографии и правка. Встроенная система проверки орфографии «проходится» по тексту, проверяя и корректируя последствия работы системы распознавания. Спорные слова и символы выделяются особым предупреждающим цветом. Потом наступает очередь пользователя, который также может внести свою лепту в этот ответственный процесс.

Сохранение. Для дальнейшей обработки документ должен быть передан «на поруки» соответствующей программе – как правило, одному из продуктов семейства Microsoft Office. Или сохранен в формате, соответствующем его содержанию: текст – в DOC или RTF, таблица – в XLS... Да и встроенную графику желательно в документе оставить...

Все эти операции в большинстве программ OCR могут выполняться как в автоматическом, с помощью программы-мастера, так и в ручном режиме, по отдельности. С двумя первыми и последней операциями с легкостью справится любая программа распознавания. А вот весь процесс целиком по зубам, увы, только нескольким продуктам, разработанным в нашей стране. Тут надо сделать небольшую поправку: на самом деле корректно работать с русским языком умеют практически все современные «распознавалки», вне зависимости от того, где они были разработаны. Более того, в состав Microsoft Office-2003 уже включена абсолютно бесплатная программа распознавания Microsoft Office Document Sca