разрешении 300 dpi. Соответственно, вероятность успешного распознавания тоже вырастет, причем весьма существенно. Задача оверсемплинга – поднять разрешение скана до выходного, пересчитав определенным образом точки графического изображения.

Оверсемплинг позволяет впоследствии спасти изображение от дефектов сжатия (за счет оольшого числа точек они становятся незаметны), а также помогает вывести изображение на печать наилучшим образом. Например, при печати файла DjVu 300 dpi на полном формате (масштаб 100 %) шрифт получается «рваным» из-за того, что преобразование серого скана в чисто черно-белое изображение дает много дефектов по краям букв, а принтер, имея собственное разрешение немногим больше 300 dpi, не в состоянии их исправить. Совсем иное дело – при печати документа с разрешением 600 dpi. В этом случае входное изображение принтера, имеюшее огромное количество точек, «ужимается» в размер реальной бумажной страницы.

Особенности алгоритмов изменения размера приводят к тому, что границы символов разглаживаются, а резкость увеличивается.

Разница между сжатыми страницами с разным разрешением заметна даже при просмотре на экране: на 300 dpi все дефекты, не устраненные обработкой, становятся заметны, а иногда изображения (например, полученные с бледного скана) вообше приходят в негодность.

Список Color (цвет) задает цветность выходного изображения. Для черно- белого текста и одноцветных рисунков выставляется пункт BAV. для черно-белых фотографических иллюстраций – Gray, для полноцветных изображений – Color (24bit). Впрочем, установка цветности для страницы в целом чаще всего бывает не нужна, поскольку есть возможность обрабатывать рисунки отдельно.

Больше всего проблем возникает, когда часть текста верстается поверх изображения (типичный прием для верстки детских книг). Такие страницы желательно вообще не подвергать обработке Кромсатором, а сразу подвергать распознаванию и запаковывать в PDF.

Вкладка Options.

На этой вкладке стоит только поднять до предпоследнего деления уже упоминавшиеся ползунки Text vert. sensitivity. В некоторых особо тяжелых случаях (вроде все тех же таблиц, отпечатанных на полупрозрачной бумаге), избавиться от «съедения» программой части символов можно, установив в списке Despeckle (очистка от мусора) пункт Safe.

Вкладка Options 2.

На этой вкладке заслуживает внимания один-единственный элемент – флажок LZW for nou-bw TIFFs (применить сжатие для не ч/б TIFF-файлов). По умолчанию этот флажок включен, но его стоит выключить, чтобы потом не страдать от проблем с открытием файлов в программах распознавания.

Вкладка Convert.

На этой вкладке задаются параметры преобразования изображения из градаций серого в чистое черно-белое. Группа параметров Convert to b/w threshold (Порог преобразования в ч/б) содержит три списка с идентичным набором пунктов. Два верхних из них отвечают за порог преобразования для четных и нечетных страниц, последний – за преобразование специально выделенных одноцветных рисунков.

Для оптимального результата при нормально читаемом с бумаги тексте лучше всего выставить во всех списках вкладки пункт MiddleDark. Если же результат будет негодным, с этими параметрами придется экспериментировать, так как единого рецепта дать здесь невозможно.

Вкладка Quality.

На этой вкладке выставляются параметры, напрямую влияющие на качество выходного изображения.

Флажок Enhance Image (применить улучшение) включает такую специальную обработку.

Первое, что нужно сделать на этой вкладке – держа Ctrl, установить галочку Gray Enhance (улучшить в градациях серого). Затем щелкаем по самой надписи, и попадаем в окно настройки дополнительных параметров Gray image enhance.

Здесь включаем (опять держа Ctrl) флажок Correct Illumination (Коррекция освещенности). Параметры – как на рисунке. Именно этот прием обеспечит нам избавление практически от всего мусора на сканах и получение чистых черно-белых страниц.

Маленькие хитрости

В окне Gray image enhance кроме вкладки Illumination всегда стоит заглянуть на вкладку Unsharp (контурная резкость). Если включить фильтр Unsharp Mask (знакомый практически каждому, работавшему с Adobe Photoshop), то он может неплохо выгладить края символов и улучшить их четкость. Параметры фильтра можно выставить как на рисунке.

Когда все дополнительные параметры выставлены, окно Gray image enhance можно закрыть, и перейти снова на вкладку Quality. Здесь включаем флажки Smooth (сгладить), Blur (размыть) и Sharpen (усилить резкость). Параметры везде можно выставить по 1. Однако если нужно улучшить читаемость книги (особенно с монитора), параметры Smooth и Blur стоит увеличить, например поставить Smooth = 2, Blur = 1, или в любом другом сочетании. Размытие краев символов позволяет придать им большую цельность при сжатии, и такой текст с монитора будет отлично читаем.

Последняя вкладка – PDF – отвечает за подготовку PDF-документа прямо в программе ScanKromsator, но я предпочитаю ее не трогать, и вам не советую.

2.4 Подготовка рисунков

После того, как все опции установлены и общие параметры пакетной обработки заданы, приходит время разобраться с рисунками (если таковые имеются в книге). Первое, что стоит сделать с найденным рисунком выделить его мышью.

Выделенная область в программе ScanKromsator носит название зоны (Zone). Чтобы выделенный рисунок распознавался программой как не подлежащий обработке, после выделения достаточно щелкнуть в

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату
×