книга из 300 страниц весит несколько сотен мегабайт), но приемлемое качество. PDF не переносит диффузных (Dithered) изображений, опять-таки из-за наличия в составе алгоритма JPEG. Сжатие превращает такие иллюстрации в подобие картин Казимира Малевича. Может, кому-то это понравится, но, ради спортивного интереса – посмотрите когда-нибудь на свой портрет, сжатый подобным образом…

DjVu – динамично развивающийся формат, разработанный специально для хранения сканированных документов большого объема. По сути это многостраничный графический формат, являющий собой своеобразную надстройку над алгоритмом сжатия графики JBIG. Главная особенность DjVu – использование так называемых словарей, то есть наборов описаний контрастных контуров, специфичных для страницы. Таким образом, при достаточном единообразии изображения (например, типографского шрифта) – сжатие может проводиться в сотни раз!

Использование словарей позволяет делить изображение на «слои», содержащие текст, графику и задний план. Специальных средств отображения текста формат DjVu не имеет, но позволяет хранить невидимый текстовый слой со сведениями о координатах расположения строк на изображении страницы. Такая структура дает возможность проводить текстовый поиск в файлах.

Средняя книга в формате DjVu занимает не более 10 мегабайт.

Все сказанное заставляет подумать, что DjVu – идеальный формат для электронных книг. В целом это недалеко от истины. При обработке сканов обычных черно-белых книг, таблиц и справочников с относительно небольшим количеством иллюстраций и вклеек DjVu настолько сильно выигрывает в размере и качестве файла у PDF, что применять последний становится бессмысленно.

Совсем иная картина при сохранении широкоформатных журналов, детских богато иллюстрированных книг и разнообразных фотокаталогов и альбомов.

Здесь обилие полноцветной графики высокого разрешения нивелирует все достоинства JBIG (поскольку в факторе сжатия сложных изображений он существенно проигрывает JPEG). Кроме того, попытки кодера DjVu понизить цветность отдельных участков изображения при его сохранении – крайне отрицательно сказываются на качестве.

Собственно в моей практике было всего два случая, когда DjVu проиграл PDF. Оба раза это были книги с большим количеством иллюстраций – «Петрович и Патапум» и фотокаталог деталей для завода. На них DjVu все-таки дал более чем двухкратный выигрыш в размере по сравнению с PDF, но при этом проиграл в качестве на два порядка, и был забракован.

Собственно, общие рекомендации по выбору формата сохранения могу дать следующие:

• Для сохранения подавляющего большинства художественной и научной литературы, таблиц и справочников, альбомов чертежей и атласов – ничего лучше, чем формат DjVu на сей момент не существует;

• Для сохранения полноформатных иллюстрированных детских книг, комиксов, альбомов по искусству, цветных фотокаталогов – стоит применить формат PDF, тем паче, что такие издания обычно на мобильных устройствах не просматриваются.

4.2 Сохранение в формат PDF

Сохранение в формат PDF я лично предпочитаю выполнять в FineReader, с небольшой финишной обработкой в Adobe Acrobat. Если текст распознан без большого количества грубых ошибок – PDF-кодер Ридера выдает вполне приемлемые результаты. Но с настройками сохранения, выставленными в программе по умолчанию – вы будете сильно разочарованы качеством графики. Поэтому, прежде чем выдать программе команду на сохранение файла – я обязательно захожу в диалог настройки пакета FineReader, жму на вкладке Сохранение кнопку Форматы – и выставляю опции на вкладке PDF:

При показанных настройках рост размера сохраняемого файла составляет примерно 10-25 % но сравнению с настройками по умолчанию. Качество же графики растет на порядок, поэтому скупиться себе дороже. Выставив настройки, можно смело сохранять все распознанные страницы в один файл.

Единственная беда полученного файла – отсутствие оглавления. В принципе, для детской книжки или комикса это можно пережить, но вот в случае фотокаталога или альбома по искусству создать оглавление придется, чтобы потом не возиться с текстовым поиском. Для этого лучше всего обзавестись Adobe Acrobat какой-нибудь старой версии, вроде 7.0 – все задачи по созданию оглавления он решит отлично.

Создать оглавление в Adobe Acrobat очень просто. Найдя начало нового раздела, нужно скопировать текст его заголовка из рабочего поля, а потом щелкнуть на кнопке с «солнышком» на панели закладок, как она выглядит на рисунке. Появится свежая закладка на текущую страницу. Название новой закладки вводится таким же образом, как имя файла в «Проводнике» Windows. После того, как все закладки созданы, их можно с помощью простого перетаскивания распределить по уровням вложенности (разделы и подразделы).

Сохранив файл в последний раз, вы получите готовую электронную книгу.

4.3 Сохранение в формат DjVu

Для сохранения в формат DjVu понадобится программное обеспечение, работающее с этим форматом. Конкретно это:

• Специализированный DjVu-кодер LizardTech Document Express Enterprise 5.1;

• Процессор текстовых слоев DjVu OCR 2.4 (выложен на сервере по адресу http://www.djvu-soft.narodTu/soft);

DjVu-редактор LizardTech Document Express Editor 6.0.1.

Вся операция сохранения начинается с настройки предварительно установленного кодера DjVu. Диалог настройки в LizardTech Document Express Enterprise вынесен в отдельное приложение, называемое Configuration Manager (Менеджер настроек). Запускаем это приложение.

Интерес здесь представляют профили кодирования, сгруппированные в списке Select Profile. Задача настройки (это нужно будет сделать всего один раз) состоит в том, чтобы подготовить три специальных профиля для кодирования изображения:

1. Одноцветный (Bitonal) на разрешение 600 dpi – для кодирования основной части книги и диффузных (Dithered) иллюстраций;

2. Фотографический (Photo) профиль на 300 dpi – для кодирования обложек и полноцветных иллюстраций;

3. Сканерный (Scanned) профиль на разрешение 600 dpi – для кодирования страниц с черно-белыми клишированными фотоиллюстрациями.

Для создания каждого профиля нужно сперва выбрать из списка Select Profile базовый профиль. Соответственно, для указанного списка это будут профили Bitonal (600dpi), Photo (300dpi) и Scanned (600dpi). Выбрав профиль, нажимаем кнопку Advanced Settings, не трогая никаких основных настроек. В появившемся диалоге на вкладках Text и Background выставляем параметры так, как показано на рисунках:

Для профиля Bitonal:
Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату
×