Голубятня: FineReader 11.0
Вышла новая — одиннадцатая — версия Файнридера, о котором впервые я написал в Голубятне под номером 35 — «Acid Test: FineReader 5.0» — РОВНО 11 лет назад — 5 сентября 2000 года!
Удивительное совпадение, не правда ли? А с другой стороны — вот так вот и проходит наша жизнь: от релиза Файнридера к релизу O
Поскольку древнюю ту Голубятню сегодня днем с огнем не сыскать даже в архивах на сайте Компьютерры (так долго архивы не живут), а главное — результаты того «кислотного теста» я задумал сопоставить с новейшим релизом 11, приведу текст раритетного текста целиком, тем более, что поначалу Голубятни были крохотные:
ACID TEST (FineReader 5.0)
По коридорам редакции в перерывах между путешествиями бродит увешенная бесчисленными технопобрякушками (Palm Pilot, Nokia 7110, Twincept и т.п.) личность — говорят, это главный редактор журнала Козловский. Именно он, прочитав предыдущую «Голубятню», заявил, что я всех достал своими эмоциями: мол, взахлеб советую программы и при этом не подкрепляю чувства доказательствами. Это — старческий поклеп, и сегодня я готов доказать свою правоту.
На свет появился FineReader пятой версии. Появился как истинный диверсант, оставив в полном неведении всезнающих жуков на Горбушке. Финальный релиз Windows Millennium, который поступит в продажу только в конце сентября, лежал на прилавках уже в июне. Ровно неделю назад я поинтересовался о наличии FineReader 5.0, и на меня посмотрели как на ламернутого дурачка: «Мальчик, такого нет в природе!»
Нет, дядька, он в природе есть! Детали презентации программы и красочную коробку пятого «Файнридера», выдающую дизайн мирового класса, уже описал Денис Викторов в «ИнфоБизнесе». Козловский ничего написать не успел, потому что опять куда-то отчалил. Я же подверг новый релиз «аббийного» (от ABBYY — создателя программы) флагмана настоящему кислотному тесту, чем и готов поделиться.
Программы OCR [1] — веселые программы. Всякий апгрейд сопровождается невиданным хайпом: из победоносного релиза мы узнаем, что задействованы революционные технологии, полностью переписан код, радикально изменено ядро распознавания, скорость распознавания увеличилась в N-ное число раз. Это уже было и раньше в случае с четвертой версией FineReader, то же самое я слышал в связи с CuneiForm 2000. Про пятую версию FineReader тоже сказано, что «точность распознавания улучшена в 1,5–2 раза по сравнению с версией 4.0».
Насколько это так, мы сейчас посмотрим. Почему речь зашла о ? Дело в том, что совершенно бесполезно тестировать современные программы распознавания знаков на свеженьких текстах, отпечатанных типографским способом либо на лазерном принтере. Результат будет заведомо безупречен. Поэтому, если вам приходится иметь дело только с такими документами, то создавать электронный архив можно с любой программой OCR — разницы вы не почувствуете. Другое дело — документы экстремального характера…кислотном тесте (acid test [2])
14 лет назад из-под тонких пальчиков профессиональной машинистки выскочили 219 страничек моей диссертации. Как водится, первый экземпляр перекочевал к научному руководителю, второй — на кафедру, третий — в Ленинскую библиотеку в архивный отдел, а вот четвертый я зажал на память. Все эти годы я периодически возвращался к этим желтым и жухлым страничкам и всякий раз убеждался, что они — лучшее, что я создал в этой жизни. Вполне естественно, что желание перевести свою диссертацию в электронный вид не покидало меня ни на одно мгновение. Я набрасывался на всякий новый пакет OCR, но вот что из этого получалось, я вам сейчас продемонстрирую.
Перед вами типичный образец оригинального текста:
По большому счету, ничего тут героического нет: ну бледненько все, ну буквы неравномерно отбились — эка невидаль! Машинистка у меня была профессиональная — брала по восемьдесят копеечек за страницу, поэтому опечаток и замазок — самая малость. Не тут-то было! Этот «исходник» оказался не по зубам всем OCR без исключения.
То, как распознал этот отрывок FineReader предыдущей версии (4.64 Professional), достойно музея Гугенхайма:
Я насчитал только пять правильно распознанных слов (из двадцати девяти). Сами понимаете, «оцифровывание» моей диссертации пришлось отложить до лучших времен — проще все по новой перепечатать.
Приблизительно таким же был результат у CuneiForm 96 и CuneiForm 97, и CuneiForm 98… В какой-то момент я окончательно решил, что — не судьба. Как вдруг на свет появился CuneiForm 2000. Прорыв налицо:
Почувствуй, как говорится, разницу! Не беда, что «вещи с самом совой» и гарантия в четыре слова — «р их га антий». Тут уже можно было работать. И я принялся не спеша, неделя за неделей, разгребать авгиевы конюшни ультрасовременных технологий.
Но, как оказалось, я переоценил свое терпение. Потому что через месяц мне вся эта процедура обрыдла выше крыши. И я опять остался сидеть у самого синего моря в ожидании золотой рыбки.
В минувшее воскресенье я подставил свою диссертацию под FineReader 5.0. В успех не верил. Вот что получилось:
Нужны ли какие-нибудь комментарии? Нужны ли мои традиционные «эмоции взахлеб»? Думаю — нет. Факты, господа, одни только факты. Говорят, «аббисты-файнридерцы» переписали код программы с нуля. Если это так, то перед нами лишнее доказательство того, что русский человек не может ничего построить без того, чтобы сперва не развалить!
Помнится, дорогие аббийцы на меня за тот текст тогда обиделись, даже прислали письмо в редакцию с предложением провести независимое тестирование, давая понять, что мои результаты по четвертой версии — следствие мною же криво выставленных настроек. Я оправдывался: писал, что никаких настроек вообще не настраивал, а просто запускал процесс распознания текста по умолчанию, что говорится, из коробки. Детство отечественной айти-журналистики, чего уж там O
_________________________
За 11 лет много воды утекло: канула в Лету добрая «Кунейка» (CuneiForm) — единственный достойных конкурент Abbyy (не считать же конкурентом жуткий американский IRIS). Файнридер, однако, в нарушение всех законов и канонов бизнеса, оказавшись в гордом монопольном одиночестве, не то что не