- Какое соотношение потребления вашей продукции в России и за рубежом?
- Россия и СНГ дают от 20 до 25 процентов.
- Могут ли какие-то тенденции отрицательно повлиять на необходимость в технологиях распознавания? Например, процессорные мощности станут доступнее, и сократится надобность в технологиях распознавания?
- Исходя из того, что человек воспринимает информацию при помощи звука и зрения, в принципе, необходимость анализа текстовой информации вряд ли отпадёт. Вопрос в том, в каком виде эта информация будет поступать на вход. Например, сейчас такие вещи, как извлечение информации из окружающей нас действительности, решаются достаточно слабо. Есть компании, которые лицензируют технологии распознавания вывесок и знаков, чтобы программировать реагирование на них. Но пока это используется в ограниченном объёме. Я думаю, что повышение мощностей устройств, на которых происходит предобработка изображений, лучшее соединение их с интернетом и, наконец, бесконечные мощности, которые есть в «облаке», будут вести к повышению качества обработки любой картинки, которая попадёт на вход, будь это статичное фото или видеопоток. Если что-то и может повлиять негативно, то тот факт, что люди будут больше обмениваться электронной информацией.
- По сути, уже сейчас все документы набираются на компьютере.
- В последние несколько лет в США несколько уменьшаются объёмы производимой бумаги, но не объёмы генерации этой бумаги, если мы говорим о бизнес-транзакциях. Почему-то люди предпочитают физические носители. Если говорить о России, то я думаю, что у нас в ближайшее десятилетие будет только подъём бумажных носителей — как в повседневной жизни, так и в бизнесе. Тем более что необработанных архивов ещё великое множество. Но в итоге, конечно, электронный обмен данными приведёт к тому, что некоторые сценарии, скорее всего, отомрут и определённые данные будут храниться только в электронном виде. Но технология распознавания и там может оказаться полезной — к примеру, если вам из файла PDF нужно извлечь структурированную информацию. Можно попробовать извлечь текст, но по опыту могу сказать, что PDF настолько по-разному генерируются разными программами, что проще будет этот документ превратить в картинку и распознать.
- Как вы расцениваете угрозу появления бесплатных OCR? Google, к примеру, такой уже предоставляет.
- Мы зарабатываем достаточно много денег на применении этой технологии в бизнесе. И когда речь идёт о бизнесе, то продукт высокого качества бесплатно никто не раздаёт. И требования здесь довольно высоки: если, например, в документе приходится перепечатывать хотя бы несколько символов на каждой странице, то технология уже считается непригодной для использования в реальных условиях. Мы познакомились с тем, как работает распознавание на Google Docs. Идея хорошая, но сервису есть куда расти по качеству. Зато бесплатные решения могут популяризовать технологию в целом. Многим пользователям ещё нужно объяснять, чем отсканированный документ отличается от текста. Индивидуального пользователя может и устроить бесплатное решение, но он поймёт принцип. И если бесплатный продукт будет предоставлять недостаточное качество, то он воспользуется платным.
- То есть это ещё может оказаться плюсом?
- В принципе, да, нам кажется, что это скорее плюс, чем минус. Конечно, если Google будет вкладываться в улучшение этой технологии, не получая за это денег, то это усложнит нашу жизнь. Но у нас есть очень большой сегмент бизнес-применения технологии, а там помимо простого распознавания текста нужно извлекать разные наборы данных, сопоставлять их между собой. Если это многостраничный документ, то иногда нужно проверять самые разные вещи: сходится ли контрольная сумма, соответствуют ли значения на пятой странице значениям на первой и так далее. Это дополнительная бизнес-логика, которая накладывается сверху на процесс распознавания и задаётся специальным языком описания документов. За это организации (государственные или частные) готовы платить большие деньги, потому что иначе у них альтернатива только одна — дать эту работу человеку. А это куда менее эффективно.
- Но проверять-то всё равно надо, если такие важные документы.
- Да. Но дело в том, что технологии распознавания живут достаточно просто: неуверенно распознанные символы или те куски информации, которые между собой не согласуются, подсвечиваются, и их видит человек-оператор — ему не нужно даже смотреть документ целиком. Это экономит много времени. Учитывая, что количество и темпы роста информации с каждым годом принимают всё более угрожающие формы, мы думаем, что бизнес-применение у этой технологии как минимум достаточно светлое — на десяток-второй лет так точно. А дальше посмотрим.
- Как вы оцениваете другие рынки распознавания: распознавание речи, лиц, предметов на изображениях и так далее? Сейчас со всей этой шумихой вокруг дополненной реальности, возможно, был бы востребован такой сервис.
- Это интересные области, но мы в них усилия не вкладываем. Хоть вроде бы все они носят общее название, но подходы в них применяются совсем разные. Вот, например, систему распознавания текстов может написать и студент университета, руководствуясь теоретическими знаниями. Вопрос в том, кто создаст наиболее высокое качество этого решения: все бьются за последние проценты и даже доли процентов. У нас же есть другие интересные направления, связанные с анализом информации. Есть технология ABBYY Compreno, которая в том числе позволяет проводить семантический анализ текстов. Эти технологии в том числе позволят и более качественно решать задачи, например, распознавания речи. Хоть мы сами распознаванием речи не занимаемся, но предполагаем, что те компании, которые занимаются, будут активно обращаться к нам. Для распознавания речи очень важен контекст, он значительно облегчает задачу.
- То есть система, сделанная для перевода, поможет облегчить и распознавание?
- Да. Перевод был изначальной целью создания ABBYY Compreno, но чем дальше мы заходили, тем лучше видели, что можно получить эффекты и в других, смежных областях. Идея того, что текст на любом языке трансформировался в объекты на универсальном дереве смысловых понятий, привела нас к тому, что и поиск можно делать по смысловым понятиям, и сравнение документов, и, например, автоматическую расстановку тегов в документах. Когда у людей много электронных документов, сохраняемых на сервере, заставить каждого пользователя расставлять теги невозможно. Зато можно все документы пропускать через некоторый фильтр, который будет говорить, что этот документ на эту тему с такими-то ключевыми понятиями, автоматически расставляя теги.
- И от этого мы переходим к следующей и ещё более интересной вещи — поиску. Можно, выходит, сделать поисковик, который понимает, что написано на странице?
- Да, это одна из интересных задач. Сейчас что-то найти в интернете становится всё сложнее. Во-первых, приходится задавать вопрос не на человеческом языке, а упрощать его. Несколько месяцев назад у меня вышел из строя аккумулятор от мотоцикла. И я подумал: надо бы посмотреть, как его