Страница 20 из 371

Интернет-журнал "Домашняя лаборатория", 2007 №9

При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какой-нибудь десяток-другой снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6x4=24 Мб данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Из-за этого либо фотоаппарат необходимо держать постоянно подключённым к компьютеру, сбрасывая снимки по мере их возникновения (но для этого нужно специфическое программное обеспечение), либо закупаться очень большим количеством дополнительной памяти — не менее 1 Gb.

Примечание: в тексте говорится о теоретических проблемах при копировании с помощью фотоаппарата, однако на практике (переведены в djvu сотни книг) даже 3 мегапиксельный фотоаппарат делает djvu разворота книги приемлемого качества. Очевидно, это связано с особенность техники сжатия, текст состоит из мини-изображений букв. Поскольку почти все буквы "а" искажены одинаково, то и глаз человека на этом не спотыкается. Кроме того принципиально важен режим съемки с "ручными" установками диафрагмы и выдержки (маленькая диафрагма + большая выдержка). Большинство фотоаппаратов обеспечивают его только при дистанционном управлении со стороны компьютера. В случае работы на "автомате" качество изображения действительно не выдерживает никакой критики.

Сканер

Основные достоинства сканеров — равномерность подсветки и цветопередачи — в хороших моделях, естественно. Также упомянем невысокую цену по сравнению с фотоаппаратами. С другой стороны, сканер значительно больше фотоаппарата, его можно пронести в библиотеку только в сумке, а как в библиотеках относятся к сумкам — сами понимаете. Более того, покупка CIS-сканера — он и дёшев, и более компактен — приводит к невозможности сканирования толстых книг — в районе корешка текст приподнимается, a CIS-технология имеет очень низкую глубину резкости.

Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

• для домашнего пользования (например, Plustek OpticBook 3600), сконструированные для облегчения процесса именно книжного сканирования, однако в основе своей имеющие обычный планшетный сканер;

• полуавтоматические (например, Atiz BookDrive DIY), когда страницы книги по-прежнему переворачивают вручную;

• полностью автоматические, или роботизированные (например, Atiz BookDrive, Kirtas APT BookScan 2400, DigiBook 2000LC или 4DigitalBooks DL 3000), оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая головка, а одна закрепленная вертикально цифровая камера либо система из двух фотокамер (с эквивалентным разрешением 30-140 Мпикс.), установленных над сканируемой книгой и расположенных под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота. Такой подход позволяет достичь производительности 500—2000, иногда до 3000 стр./ч.

Основные моменты сканирования

Есть два основных метода сканирования: целым разворотом и по одной странице. При любом методе части страницы, где находится текст, должны быть полностью прижаты к стеклу — иначе возникает характерное затемнение в области корешка из-за наклонного падения света лампы подсветки (в любых сканерах) и размывание текста из-за малой глубины резкости (только в CIS-сканерах). По этому практически невозможно хорошо отсканировать книги, которые плохо открываются. (Существует, однако, специальный сканер OpticBook 3600, позволяющий сканировать книгу, открытую на 90 градусов. Этот сканер пока имеет драйверы только под Windows.) При сканировании разворотом, если книга полностью не влезает на стекло, может возникать дополнительное размытие текста на краю страницы из-за того, что текст не прижат к стеклу (только в CIS-сканерах). Всё это необходимо тестировать перед началом сканирования и определить оптимальный метод.

Необходимо также определить оптимальную рамку сканирования и контрастность. Это можно подобрать только методом проб и ошибок, но это необходимо подобрать правильно перед сканированием. Желательно также сразу же установить гамму и точки белого и чёрного, если это позволяет софт Вашего сканера.

Класть книгу абсолютно ровно, без перекосов, у Вас всё равно не получится, но это и не нужно, так как выравнивание можно проделать автоматически специальным софтом на стадии обработки сканов. Разрезание отсканированных разворотов и выравнивание полей тоже делается почти автоматически.

Иногда имеет смысл сделать ксерокс с книги и сканировать этот ксерокс. Дело в том, что в ксерокс-машинах гораздо больше глубина резкости, чем у сканеров, и поэтому удаётся скопировать участки текста, прилегающие к корешку книги, даже если книга плохо раскрывается. Кроме того, ксероксы специально делают повышение контрастности изображения, что позволяет избавиться от серого фона страниц и максимально уменьшить затемнение в середине разворота.

Софт для управления сканером можно использовать любой, например VueScan (есть для Windows/Linux), Irfan View (Windows), XnView (Windows), gimp/sane (Linux). Поддержка сканиров для Linux/Mac гораздо хуже, потому что как правило все производители делают драйверы только для Windows.

НЕ СЛЕДУЕТ пользоваться программой FineReader[6] для сканирования текста при создании электронных книг, потому что FineReader автоматически делает неаккуратное выпрямление косых сканов, из-за которого в изображении появляются "изломы". Эти изломы не мешают при распознавании текстов, но плохо выглядят в растровом варианте отсканированной книги. Вот пример отсканированного текста, в котором появились "изломы" из-за сканирования в FineReader:

Софт для сканирования желательно использовать такой, чтобы получить сырые сканы в формате TIFF (не JPG, так как неизбежна потеря качества!), поименованные автоматически, например, так: page0001.tiff, page0002.tiff и так да-

При сканировании по одной странице бывает удобнее сканировать сначала все четные страницы, потом все нечетные, и только потом переименовать все файлы автоматически по возрастанию номеров. При сканировании из XnView можно сразу указать, что сканируются только чётные или только нечётные страницы, — номера будут проставляться автоматически.

Разрешение (цифра "dpi" — количество пикселей на дюйм) и глубина цвета (черно-белый — 1 бит, серый — 8 бит, цветной — 24 бит) — самые важные параметры сканирования. Софт для сканера должен давать пользователю возможность выбрать эти параметры непосредственно, а не просто выбирать между непонятными режимами типа "текст" — "рисунок" — "фото для интернета". Сканер должен поддерживать разрешение как минимум 600 dpi; других сканеров сейчас не продают, а больше 600 dpi практически никогда не требуется. Сканировать можно либо в 600 dpi, либо в 300 dpi. Никогда не сканируйте в 150 или 200! Время при этом Вы не сможете сэкономить, а качество будет безвозвратно утеряно. Другие разрешения, такие как 360, 400 и т. д., мало смысла использовать — они работают через интерполяцию изображения, то есть реально сканер сканирует в 300 dpi сером и делает интерполяцию до 400 dpi черно-белого. Такую интерполяцию можно и нужно сделать специальным софтом, а не тем софтом, что пришел со сканером.

Многие сканеры одинаково быстро делают скан листа в 300 dpi черно-белого режима и в 300 dpi серого режима (greyscale). Поэтому если вы сканируете в 300 dpi (а не в 600 dpi), то лучше сканировать всегда в сером режиме (greyscale), даже если книга не содержит вообще цветного материала. Специальный софт потом может поднять разрешение 300 dpi серых сканов до 600 dpi черно-белого, при сохранении отличного качества текста (как будто сканировали в 600 dpi черно-белом). Проблемы 300 dpi серых сканов вылазят только в литературе с фотографиями, передаваемыми растровым методом: в некоторых местах появляется эффект муара, то есть волн яркости и/или цвета по изображению.