помочь увеличение чувствительности поиска вертикальных границ текста – она регулируется ползунком Text vert. sensitivity на вкладке Advanced.
Когда все параметры выставлены, остается только нажать на кнопку ОК и подождать… от десяти минут до получаса, в зависимости от объема книги и быстродействия компьютера. После окончания препроцессинга окно программы изменится:
На поле редактирования изображения появляются линии обрезки, а на его краях соответствующие ползунки. Ползунки с L-образным рисунком обозначают границу обрезки поля страницы, ползунки с Т- образным рисунком определяют границы переплета.
Теперь настало время проверить расстановку границ на всех сканах.
Это утомительная, но совершенно необходимая часть работы.
В секции опций окна ScanKromsator выбираем вкладку Page, чтобы при необходимости отключать разбиение разворотов на страницы флажком Split. Потом начинаем листать страницы одну за одной.
Листание реализовано очень удобно: клавиша «W» листает страницы вперед, a «Q» – назад.
Таким образом, перебирая левой рукой страницы, можно очень быстро ставить мышью на место неверно установленные границы, перемещая их за ползунки (сами линии на поле редактирования не перетаскиваются).
При необходимости поставить наклонную границу, можно наклонить одну из линий, нажав клавишу Shift и потянув ползунок. Только не нужно злоупотреблять наклоном горизонтальных границ, это может привести к появлению страниц с текстом, растянутым в форме трапеции. Уже упомянутый флажок Split отключает разбиение разворота на страницы (в случае, если, например, в книге присутствует большое изображение на целый разворот, требующее дополнительного сведения в другой программе). Если ошибки в расстановке границ повторяются (такое бывает, например, когда при сканировании деформировался мягкий переплет), можно скопировать текущее положение одной из границ группой команд Copy current position to… контекстного меню, вызываемого щелчком правой кнопки мыши на ползунке. В этой группе особый интерес представляют команды all down и all selected, задающие копирование положения границы «до конца» списка или на все выбранные сканы. Контекстное меню также позволяет отключить наклон границы командой Reset Slope.
2.3 Опции обработки
Когда все границы выставлены как положено, приходит время расстановки опций. Встряхнитесь, ибо тут нужно предельное внимание – даже один неверный шаг наверняка будет стоить вам потраченных нервов и процессорного времени.
Итак, перед нами секция опций программы ScanKromsator.
Помните, что большинство выставляемых опций относятся только к выбранной странице! Чтобы распространить устанавливаемую опцию на все страницы, нужно при включении флажка или щелчке на кнопке держать нажатой клавишу Ctrl!
Начнем с вкладки Page и пройдем по опциям последовательно слева направо.
Уже упомянутый флажок Split отвечает за разбиение на страницы. Флажки Deskew (выровнять) и Despeckle (очистить от мусора) установлены по умолчанию для всех страниц. Флажки Art (свободный наклон) и Ortho (принудительный поворот) задают специальное выравнивание страницы. В подавляющем большинстве случаев можно обойтись без них. Группа параметров Page align (выравнивание текста) сообщают программе о типе верстки страницы. Буква А в списках означает автоматическое детектирование верстки. Практически для любой книги (если только это не зоологический справочник с обилием таблиц, вклеек и разной версткой по разделам) выравнивание текста по горизонтали следует выставить по центру («С»), а вертикальное – автомат («А»).
Вертикальное выравнивание стоит устанавливать только для страниц, имеющих явно нестандартную верстку (например, когда в текст книги включаются формы документов, выровненные посередине высоты страницы).
На этой вкладке задаются единицы измерения (
При обработке ScanKromsator добавит белое поле именно такой ширины в изображение страницы.
Величину добавляемых полей можно установить в интервале 180-250 в зависимости от изначальной ширины полей книги.
Флажок
Остальные параметры можно не трогать, кроме флажка
На этой вкладке в поле Output folder (папка назначения) задается имя папки для выходных файлов, а в поле Ouput Prefix (префикс имени выходного файла) можно ввести «добавку» к имени файла, которая позволит отличить «сырые» сканы от обработанных. Параметры Start from / Step (Начальный номер/шаг) задают именование выходных файлов.
Особого внимания заслуживает группа параметров Ouput Format (выходной формат). В первом по счету списке выставляется формат упаковки TIFF-файла (уже упомянутый TIFF Uncompress). Следующий список задает разрешение вывода (DPI). Здесь нужно ОБЯЗАТЕЛЬНО выставить 600 dpi! Это включит оверсемплинг и облегчит в дальнейшем задачу распознавания, сжатия и печати.
Зачем нужен оверсемплинг?
При распознавании текста программа «оконтуривает» символы по их контрасту с окружающим полем страницы. Затем полученные контуры сравниваются с эталонными, содержащимися в языковой базе данных. Если процент сходства достаточно велик, контур признается распознанным как тот или иной символ шрифта.
В общих чертах, именно так работают алгоритмы OCR. Успех их работы сильно зависит от того, насколько велик абсолютный (в пикселах) размер символа в графическом файле. А этот самый размер напрямую зависит от разрешения файла. При разрешении 600 dpi на реальную ширину и высоту «бумажного» символа придется ровно вдвое больше пикселов графического изображения, чем при