формате несжатого TIFF, с разрешением 300dpi. Ну, и, само собой разумеется, в готовых файлах вы сами должны быть способны, не напрягаясь, прочитать текст.
Шаг 2. Пакетная обработка
После сканирования полученные файлы содержат страницы книги, иногда в довольно неприятном виде, вроде такого:
Смещенные и повернутые относительно друг друга страницы, низкий контраст, нечеткости печати во всей красе, затемненная область у корешка и полей – там, где книга неплотно прилегала к стеклу сканера. У такой страницы в неизмененном виде – мало шансов быть распознанной без ошибок, и тем более она не будет иметь никакого «товарного вида» после сжатия и упаковки в DjVu или PDF.
Устранить все дефекты и повысить качество распознавания текста – поможет пакетная обработка.
2.1 ScanKromsator V5.92
Салютуем альтруизму разработчиков-добровольцев!
Программа ScanKromsator 5.92 (автор – уважаемый камрад bolega) – объективно лучший на данный момент процессор пакетной обработки изображений, специально «заточенный» под книгосканирование. Скачать программу всегда можно здесь: http://www.djvu-soft.narod.m/soft/.
Программа ScanKromsator – мощный инструмент для подготовки книжных сканов. Она автоматически и наилучшим образом выполняет операции разбиения по страницам (
Первый шаг при работе с Кромсатором – командой File=›Open Images… вызвать диалог открытия файлов с изображениями, и в нем выбрать ранее подготовленные сканы:
В диалоге открытия присутствуют списки, влияющие на открытие многостраничных TIFF-файлов (некоторые программы сканирования позволяют сохранить несколько сканов в один TIFF-файл), и сортировку файлов после сформирования списка. Опцию «Sort Smart» («Умная» сортировка) стоит держать включенной всегда, и не отказываться от сортировки, так как обычная техника выбора файлов в Windows с помощью мыши и клавиши Shift – меняет местами первый и последний выбранные файлы в списке. Для того чтобы выбрать файлы в любом диалоге Windows в правильном порядке, нужно:
• Выделить щелчком мыши последний файл из выбираемых:
• Нажать клавишу Shift:
• Щелкнуть на первом из выбираемых файлов.
Открытие сканов занимает, в зависимости от быстродействия компьютера – от нескольких секунд до примерно полуминуты. Когда изображения открыты, можно просмотреть их в вертикальном графическом списке файлов, а имена сканов – перечисляются в левом верхнем углу окна. В списке имен наличие зеленой галочки рядом с именем файла – означает, что файл готов к финальной обработке (прошел стадию автоматической установки границ). В случаях, когда в файл вносятся изменения, и он требует повторной обработки, его имя выделяется полужирным шрифтом.
2.2 Препроцессинг и расстановка границ
Каждая страница, обрабатываемая Кромсатором, перед основной обработкой проходит препроцессинг – первичную расстановку границ. При этом программа пытается определить положение корешка (при сканировании разворотов), обреза книги и полей страницы. Запускается препроцессинг командой Draft Kromsate меню Edit, или одноименной кнопкой (на кнопке – рисунок с ножницами) инструментальной панели.
При этом появляется диалог Draft Kromsate с тремя вкладками: Options, Preprocess и Advanced.
Собственно интерес будет представлять только вкладка Options, так как на ней выставляются все нужные на данный момент параметры. Список Kromsate позволяет выбрать, к каким файлам из списка будет применен препроцессинг. Опцию Pre-Rotate (вращение) следует использовать, когда развороты или страницы книги сканировались в «вертикальном» положении и не поворачивались программой сканирования. Флажок Save after rotate позволяет задать необходимость предварительного сохранения повернутого изображения (вот где важно отсутствие JPEG-сжатия!). Группа списков Use options from… задает возможность выбора одного из предварительно сохраненных наборов настроек.
Флажки в нижней части диалога задают параметры работы препроцессора, от них напрямую зависит качество результата, поэтому остановимся на них более подробно:
• Split Pages – задает разбиение разворотов на страницы. Включается в зависимости от формата книги и методики сканирования.
• Ignore blank half-page – разрешает программе самостоятельно исключать из обработки белые форзацы и просто страницы, не содержащие печати. Пригодится, если в книге есть отделение глав друг от друга белым листом.
• Safe top/bottom – установка этого флажка запрещает обрезку «полупустых» страниц и белых форзацев. Выключать не рекомендуется, особенно если книга предназначена для последующей распечатки – иначе не исключено наличие обрезанных не по формату «куцых» страниц.
• Бледный скан – вдвое снижает порог обнаружения контрастных границ текста и корешка. Применяется, если текст на скане очень бледен и трудно читаем (например, при сканировании различных руководств и многостраничных технических таблиц, напечатанных на полупрозрачной низкокачественной бумаге).
• Skip marked files – запрещает повторную обработку файлов, отмеченных зеленой галочкой, то есть уже прошедших препроцессинг.
• Select special processed – выбирает в списке файлы, отмеченные полужирным шрифтом (имеющие специальные настройки).
• Set only cutters – задает возможность не совершать никаких действий, кроме расстановки границ.
• Don't set cutter near border – запрещает установку границы слишком близко от края изображения. Применяется, если книга сканировалась со слишком большим запасом по полям.
Если границы выставляются неправильно (чаще всего такое происходит на бледных сканах), может