течение одного дня принять решение по его итогам. Логистические вопросы внутри HP тоже важны, и, в том числе, поэтому отпали кандидатуры Новосибирска или

Томска. Главное же - замечательная математическая школа в СПбГУ. Наверное, конкурентом могла бы быть Москва, но в столице у талантливых студентов больше искушений, которым они вынуждены поддаваться. Доля математиков, прикладных математиков, программистов в общем количестве студентов и специалистов информационных технологий в Питере больше, чем в Москве. А качество жизни в Москве, на мой взгляд, оставляет желать лучшего.

Какими проектами сейчас занимается п редставител ьство Лабораторий в Санкт - Петербурге ?

- Мы активно работаем над двумя проектами и ведем подготовку к третьему.

Первый проект - сугубо российский. В его рамках мы разрабатываем платформу по доставке контекстуальной информации. Здесь следует учитывать несколько важных аспектов. Прежде всего, информация должна быть точной и содержать как можно меньше «мусора» или так называемого информационного шума. Покрытие источников информации должно быть приближено к полному, чтобы минимизировать шанс упущения важных данных, Получаемая вами информация должна быть привязана к окружению, в котором вы находитесь; нелепо предполагать, что в офисе, в автомобиле или на рыбалке некие сведения полезны в одинаковой степени, неверно ожидать одинаковой реакции человека на поступление той или иной информации в столь разных условиях, а потому неверно и предоставлять эту информацию в одном и том же виде. Наконец, первостепенное значение имеет оперативность доставки информации и ее актуальность: прогноз погоды на вчера никому не нужен, кроме ученых-синоптиков. Все эти нюансы мы пытаемся увязать в разрабатываемой нами платформе CIDP - Contextualized Information Delivery Platform, принципы построения которой, на наш взгляд, станут основополагающими, когда существующие поисковые движки себя исчерпают.

Второй проект, у которого пока нет коммерческого названия, находится на этапе технологической передачи результатов исследований, полученных в наших Лабораториях, Эта работа посвящена технологии построения моделей областей знаний. Наличие такой модели позволяет при поиске информации перейти от общего решения вопроса к частному, учитывающему потребности предприятия или индивидуума. Через использование модели области знания мы можем отсечь лишнее информационное пространство, повысить производительность и точность поиска. Повышение производительности поиска экономит время и снижает аппаратные требования к поисковой системе. Разработка проходит пилотное апробирование в нескольких американских компаниях, работающих в разных секторах рынка. Примером гибкости предлагаемого нами подхода может послужить опыт нашего сотрудничества с одной энергетической фирмой, для которой мы сформировали модель области знаний в сфере охраны окружающей среды и условий труда на производстве. Первоначальная модель, которую мы предложили заказчику, оказалась недостаточно детализированной: информация в открытых источниках была довольно скудной для данного специального случая. Заказчик передал нам информацию о специфических терминах и процессах, связанных со своей деятельностью, и в течение 36 часов наши специалисты смогли настроить модель, существенно увеличив полноту модели знаний в этой области.

В какой степени процесс настройки модели автоматизирован ? Как проходит первоначальное построение модели под конкретного пользователя : он должен обработать какие - то тексты , пройти тесты ? - Мы стараемся сделать процесс построения модели максимально автоматизированным. Первоначально человек формирует поисковые запросы, связанные со своими интересами, и на их основе строится первый вариант модели знаний. Пользователь может оценивать полезность и полноту той или иной информации, которую выдает ему созданная модель, и в ответ на эти действия модель автоматически видоизменяется. Чем больше времени человек или компания «тренирует» свою модель области знаний, тем в большей степени она отвечает требованиям потребителя.

А каков ваш третий проект ?

- Это совместный проект с тремя другими Лабораториями HP - одной китайской и двумя американскими. Он, как нам кажется, будет иметь гораздо большую научную значимость. Мы хотим эффективнее обрабатывать информацию, в том числе информацию на естественном языке, хотим научиться удалять неоднозначности из текстов, выявлять смысловые отношения между понятиями, которые имеются в тексте.

В некоторых из этих технологий преуспели китайские исследователи, в других - российские. Американцы разрабатывали методы и алгоритмы, которые архитектурно расположены ближе к «железу». Мы хотим попытаться объединить эти технологии, чтобы добиться более быстрого и точного поиска информации.

Решением подобных проблем, с тем или иным успехом, в мире занимаются несколько групп и компаний. Чтобы проиллюстрировать сложность этой работы, приведу два примера. Допустим, нужно выяснить, кто знал что-то в такой-то момент времени? Так вот дать однозначный ответ, сформировав его из моря информационных источников, очень непросто, Второй элементарный пример. Слово «платформа» может иметь разное смысловое значение: железнодорожная платформа, программная платформа, туфли на платформе, политическая платформа и т. д. Как автоматически устранить смысловую неоднозначность употребления слова «платформа» в некотором текстовом файле? А как это делать, учитывая разные языки?

Проекты для HP Labs тщательно отбираются . Как это происходит ?

- У нас есть офис открытых инноваций, который был создан для управления всеми связанными с инновациями программами HP Labs с мировым академическим сообществом. Мы считаем, что наука интернациональна, что ученые должны регулярно обмениваться результатами исследований, обсуждать их. В феврале HP Labs сформулировала более двух десятков исследовательских тем, которые выложены в открытом доступе на портале Лабораторий вместе с приглашением подавать проектные предложения на конкурсной основе, В конкурсе может участвовать любая академическая или исследовательская организация. Российские Лаборатории HP курировали две темы: построение моделей знаний и обработку текстов на естественном языке. Мы получили и проанализировали больше тридцати предложений со всего мира, и в итоге пять из них рекомендовали для финансирования: две темы из России и по одной из Германии (Университет Кобленц-Ландау), США (Wright State University) и Индии (Технологический институт в Бангалоре). Все пять рекомендаций, которые дали российские Лаборатории HP, были приняты финансистами и руководством HP Labs. В дальнейшем мы будем курировать эти проекты {к каждому прикреплен конкретный сотрудник из наших Лабораторий)

Расскажите чуть подробнее о двух российских работах из этой пятерки .

- Работа, которую мы проводим совместно с СПбГУ и группой профессора Бориса Новикова, нацелена на повышение скорости обработки поисковых запросов. Группа Новикова занимается семантическим кэшированием. Мы считаем, что при правильном формировании кэша, который в дальнейшем может использоваться при обращении к информационной системе, мы сумеем сократить время получения результатов поиска. Формирование такого кэша - задача нетривиальная. Работа Новикова состоит в исследовании процесса семантического кэширования на более высоких семантических уровнях относительно простых запросов xQuery. Работа с семантикой высокого уровня необходима при выполнении интеллектуального поиска среди слабоструктурированных документов. Грубо говоря, мы должны спрогнозировать и перетащить в кэш-память компьютерной системы данные, которые с наибольшей вероятностью потребуются пользователю для удовлетворения его информационного запроса в кратчайшее время.

У Максима Гринева и его группы есть хорошие наработки и даже продукты, которые разработчики собираются выводить на рынок. Это системы поиска контекстуальной информации, то есть то, что близко нашим Лабораториям в целом. В работе Гринева больший упор делается на обработку текстов на естественном языке (вспомним пример слова «платформа»). извлечение из них сущностей и смысло

вых отношений между сущностями, Под сущностями понимаются любые существительные с их смысловым описанием. Скажем, название компании, фамилия руководителя компании, профиль деятельности компании, технологический процесс, промышленный образец, финансовая транзакция и т. п,

Остра ли для HP Labs проблема промышленного шпионажа ? Сказывается ли открытость

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату
×