Добавить в цитаты Настройки чтения

Страница 6 из 51



Гипертекст . Есть подобие.

Возможность редактирования . Средняя.

Формально, файлы созданные с использованием DJVU трудно называть книгами. Это, по существу, растровый многостраничный графический файл. При его создании специальные алгоритмы отделяют текст от фона и иллюстраций, после чего они сжимаются с различным разрешением. Что и обеспечивает чрезвычайно высокое сжатие картинки (примерно 1:500) при более чем приемлемом качестве изображения. Эти свойства делают его идеальным для множества сканированных компьютерных (и не только) руководств и пособий, которыми сейчас завалены варезные сайты (такие книги еще называют «освобожденными» ;)) ). Ведь, если книга содержит примеры исходников программ, формулы, схемы или сложные таблицы, то даже незначительные ошибки при OCR могут непоправимо испортить ее. A DJVU позволяет представить книгу «как есть».

Причем интересы читателей, привыкших парой щелчков копировать нужный кусок текста в буфер, тоже учтены. Последние версии формата DJVU могут содержат чисто текстовый слой.

Справедливости ради, следует заметить, что DJVU, более чем хорошо справляющийся с текстами и штриховыми иллюстрациями, пасует перед цветными картинками и глянцевыми журналами. Выглядят такие издания в DJVU весьма непрезентабельно.

Существует довольно много форматов электронных книг, которые были созданы для одного конкретного устройства или программы.

К ним можно отнести Rocket e-book (.rb), Micro$oft Reader (.lit), PalmDoc, MobiPocket (.prc) Jinke Book Wolf (.wol) и т.д. Плюс некоторые программы для чтения норовят сконвертировать текст в свой собственный, ни с чем не совместимый формат (IceBook Professional на PC, iSilo и Weasel на Palm и прочие). Правда, при близком рассмотрении оказывается, что это все те же HTML, RTF или txt (некоторое исключение составляет формат ExeBook, который конвертирует текст книги в исполняемый файл, содержащий набор растровых картинок), как правило, упакованные для компактности, и снабженные служебной областью, где могут храниться, например, закладки. Также (и чаще, чем хотелось бы) может быть добавлена DRM.

Полиграфичность . Зависит от конкретного формата. Средняя или выше среднего.

Масштабируемость . Средняя или выше среднего.

Кроссплатформенность . Низкая. Обычно такие форматы создаются для одного конкретного устройства или программы. Просмотр на PC или, соответственно, КПК нередко возможен только с помощью программ, написанных энтузиастами.

Конвертируемость . Низкая. Обычно только через софт, опять же написанный энтузиастами.

Гипертекст . Чаще всего есть.

Возможность редактирования . Низкая или вообще никакая.

И, наконец…

Что такое XML, подробно описано ниже. Сейчас нас интересуют лишь сравнительные характеристики формата.

Полиграфичность. Высокая. Правда, всецело зависит от программы-ридера.

Масштабируемость. Почти абсолютная.

Кроссплатформенность . Практически абсолютная.

Конвертируемость . Практически абсолютная.

Гипертекст . Есть.

Возможность редактирования . Как правило, абсолютная.

Как видим, язык XML имеет наилучшее сочетание качеств, необходимых для e-book. Поэтому попытки делать e-book на его основе уже предпринимались неоднократно и небезуспешно.

В отличие от txt, RTF, DOC, HTML, PDF, и т.д. которые однозначно ориентированы на отображение или хранение текстовых данных, форматы на основе XML позволяют структурировать книгу.

Известны форматы OEB (Open E-Book), DocBook и другие. Но наиболее популярным (по крайней мере, в Рунете) является FictionBook.

§ 1.3 Несколько слов о XML

Расширяемый язык разметки — eXtensible Markup Language, был создан для хранения структурированных данных в текстовом формате. Теоретически файлы XML должны легко читаться как программным обеспечением, так и человеком.

С использованием технологии XML можно записывать и обрабатывать практически любые данные, вне зависимости от их структуры и сложности.

На базе XML уже создано большое количество подмножеств для решения конкретных задач. Например, есть реализация HTML средствами XML — XHTML, язык для записи математических формул и выражений (MathML), язык для химических формул, для медицинской электронной документации. Новый формат файлов пакета M$ Office 2007 представляет собой не что иное, как пачку XML-документов, которые сохраняются в одном архиве.

Кроме того, поскольку любые данные в XML — это обычный текст, то и работать с ними можно как с текстом: готовить XML-документы в notepad, а в случае потери какой-либо части данных с остальными можно будет по-прежнему работать.

В отличие от HTML, набор средств разметки (тэгов) в XML не фиксирован, и может быть произвольным.

Разумеется, это должно как-то описываться. Поэтому в XML есть такое понятие, как «спецификация», DTD (Document Type Definition — описание типа документа) — документ, в котором описана структура XML-подмножества. В настоящее время на смену DTD пришла XML Schema.

Если возникнет необходимость, XML легко преобразовать в любой другой формат. Для этого существует XSLT — eXtensible Stylesheet Language Transformation — расширяемый язык стилей.



Вот, к примеру, реализация адресной книги на базе XML.

Василий

Иванович

Пупкин

пер. Кривоколенный, 5-15

555-22-11

736-11-22

[email protected] /* */

Кооператив

Рога и Копыта

ул. Малая Арнаутская, 12

202-33-20

202-32-00

http://www.horn&hoof.com

mail@horn&hoof.com

Как видим, сам документ имеет древовидную структуру и состоит из вложенннных элементов.

Первая строка является признаком XML и содержится во всех документах.

Элемент — это данные, ограниченные парой тэгов. и .

Кроме данных, элементы могут содержать в себе атрибуты — например, у элемента phone есть атрибут type, который может принимать фиксированные значения «home» и «mobile».