разработчикам доступ к нашим технологиям оптического распознавания текста, меток и штрих-кодов посредством Web API. Он появился для решения проблемы, когда компания или независимый разработчик хотят встроить наш движок распознавания в свой продукт, но при этом покупка традиционного SDK является для них нецелесообразной с точки зрения решаемых задач или слишком дорогой. Облачный сервис решает этот вопрос, потому что любой разработчик может начать пользоваться первоклассным SDK для распознавания и встроить его в своё приложение без преодоления высокого входного ценового барьера, который есть в случае приобретения и лицензирования традиционного OCR SDK. Ценовая политика сервиса достаточно демократичная, существуют различные варианты пакетов страниц для распознавания: от бесплатного ознакомительного, включающего возможность распознать 50 страниц, до пакета стоимостью около 200 долларов США за 5000 страниц, а также есть варианты с договорной ценой, когда объёмы распознавания превышают 5000 страниц. С увеличением объёма цена за обрабатываемую страницу падает. Это открывает возможности для существенно более широкого круга разработчиков, которые раньше должны были довольствоваться лишь бесплатными OCR-движками, не всегда пригодными для решения реальных задач.
- Софт как сервис — это для вас, должно быть, сплошные преимущества. Пиратство, в частности, невозможно. В ABBYY одно время с ним жестоко боролись.
- Мы с ним и сейчас продолжаем бороться, но без фанатизма, с приложением усилий, адекватных получаемым результатам, потому что побороть пиратов полностью невозможно. Например, мы делаем так, чтобы юридические лица не использовали наше программное обеспечение нелегально. По физлицам какие-то способы защиты применяем в продукте, но, как говорили в фильме «Формула любви», «что одним человеком сделано, другим завсегда может быть сломано». Это лишь вопрос времени и усилий.
- А облачный сервис как раз не взломать никак. К тому же обновлять программу можно моментально для всех пользователей.
- Да, есть, конечно, ряд преимуществ. Но возникает другой вопрос. Как в телефонной связи создают клоны SIM-карт и воруют трафик, так будет и с облачными сервисами.
- Будут красть аккаунты?
- Да. Я думаю, такие вещи будут актуальны, и поставщикам сервисов придётся думать, как лучше от этого защититься.
- Какие ещё могут быть недостатки?
- Ещё к недостаткам, конечно, относится то, что интернет всё-таки не повсеместен. Даже недалеко от Москвы бывает сложно получить хороший канал связи, особенно если ты перемещаешься. То, что интернет доступен не везде, делает облачные сервисы не заменяющими традиционные приложения, а дополняющими их.
- Но постепенно они станут полной заменой?
- Ну да. Когда-нибудь мы придём к ситуации, когда основная масса индивидуальных сервисов будет потребляться из «облака», и люди привыкнут за это рассчитываться как за газ, свет, воду и интернет. Достаточно будет отметить галочками, какие услуги или программы продолжаешь использовать, и оплата за них будет включена в ежемесячный платёж.
- Хорошо, давайте поговорим о технологии распознавания текста как таковой. Произошли ли какие-то фундаментальные сдвиги в этой области за последние пять-десять лет? В других областях распознавания появляются, например, такие интересные сервисы, как Google Goggles или Siri.
- Мне кажется, технологии распознавания текста — это достаточно важная вещь, которая влияет и будет влиять на механизмы взаимодействия человека с окружающей средой при помощи мобильных и стационарных компьютеров, а также мобильных телефонов.
Конечно, за десять лет произошли изменения в качестве самих технологий. Есть два направления развития: первое — улучшение обработки изображений, второе — переход на более высокий уровень абстракции в анализе обрабатываемого документа. Первое направление помогает охватить более широкий спектр источников изображений — например, сделать снимки, получаемые при помощи камер мобильного телефона, более пригодными для распознавания. Второе направление развития направлено на то, чтобы сократить время, затрачиваемое на форматирование текста документа после его распознавания.
Если раньше учёные бились над качеством распознавания одного символа или слова, то сейчас, если качество изображения достаточное, то речь идёт о том, что, пора подниматься на такой уровень абстракции, как весь документ, а не отдельная страница — стараться понять взаимосвязи элементов в документе и настроиться на ту задачу, которую решает потребитель. Если он сканирует и распознает документ, чтобы дальше с ним продолжить работу в текстовом или другом редакторе, это один сценарий. Другой сценарий — когда документ нужно проиндексировать для поисковой системы, третий — сохранить в виде изображения, которое бы передало изначальный внешний вид, а под ним текстовый слой, по которому можно производить поиск. Под каждый из этих сценариев улучшаются компоненты, взаимодействующие с базовой технологией распознавания.
Мобильное использование накладывает дополнительные требования по технологиям обработки изображения. Хоть камеры в телефонах и улучшаются, но по сравнению с обычным сканированием добавляется множество факторов: некачественное освещение, искривления и так далее. Мы, например, последние пять лет активно занимаемся тем, что расширяем количество возможных источников для получения изображений для ABBYY FineReader. В результате появляются приложения и для мобильных телефонов. Например, наш ABBYY TextGrabber я активно использую, когда читаю журналы: если хочу поделиться заметкой с друзьями или коллегами, то фотографирую, распознаю и сразу отправляю в Facebook или по почте. Также вместо МФУ начал активно использовать приложение ABBYY FineScanner для съёмки документов. Ещё несколько лет назад сделать это было сложно, потому что и камеры были хуже, и технологии ещё предстояло доработать.
- Какие ещё тенденции на рынке OCR вы можете выделить? Скажем, изменения спроса на разные языки или сегменты.
- Особых изменений нет. Определённые виды языков были недостаточно качественно реализованы до текущего момента времени. Например, мы начали относительно недавно заниматься китайским — он присутствует в ABBYY FineReader с десятой версии. Мы постоянно улучшаем распознавание всех языков, отдельно я бы выделил только группы языков китайский-корейский-японский.
- Для российского рынка?
- Нет, речь обо всём мире — для экспорта это куда более актуально, чем для нашего рынка. У нас же спрос не изменился: это смешанные документы, преимущественно на русском языке, с появлением слов на иностранных языках. Структура потребления в смысле обрабатываемых материалов тоже не изменилась. А чтобы завоевать передовые позиции в мире, мы работаем не только над повышение качества, но и над поддержкой новых языков. Например, над арабским — он уже появился у нас в одиннадцатой версии, и мы намерены сделать его распознавание лучшим в мире. Сегодня FineReader распознает документы на 189 языках, и это самый высокий показатель в мире.