(многовариантного толкования смысла слов) и получить максимально точные результаты обработки. Тем не менее, данные проблемы постепенно находят свое решение, хотя компьютерная лингвистика по праву считается одной из сложнейших отраслей современной прикладной и теоретической науки. Одной из причин этого является и большая трудоемкость проведения эксперимента, необходимость не только тестирования, но и предварительного обучения создаваемых программных средств, а каждому читателю известно, как велико количество разнообразных исключений из правил, вариантов передачи одного и того же смысла.

Сегодня за рубежом (увы, не у нас) на решение этих проблем затрачиваются значительные средства. Например, для решения проблем, связанных с автоматизацией обработки и анализа текстов, в бюджете американской военной исследовательской организации DARPA на 2000 и 2001 гг. выделено 12 и 29 млн. долл., соответственно. Добавим лишь, что многие исследовательские программы финансируются еще и рядом фондов, в том числе — NSF (National Science Foundation) и другими. Грустно, но наши специалисты в этой отрасли все чаще вынуждены отправляться на поиски признания (а оно сейчас все больше выражается в денежных единицах) в университетские научные центры США, Великобритании и Германии, где существует понимание актуальности этого круга проблем. Мы же по-прежнему все работы сваливаем на самого надежного и дешевого (но и подверженного многим видам нарушающих цикл ИАР воздействий — см. далее) эксперта-аналитика.

Использование автоматизированных систем существенно сокращает время на проведение поиска, отбора и экспресс-анализа текстовых документов, и, хотя качество аннотирования (реферирования) пока не позволяет использовать подобные системы для генерации обзоров источников, а тексты, полученные с их помощью, нуждаются в правке и редактуре, но этого качества вполне достаточно для проведения экспресс-анализа данных. К числу серьезных недостатков этих систем следует отнести их неспособность восстанавливать системы внутри- и интертекстовых ссылок и умолчаний (случаи неявного упоминания слов и терминов), а, между тем, относительное количество различного рода подстановочных конструкций (например, замена слова или термина местоимением, прилагательным и т. п.) в текстах достаточно велико. Причины этого недостатка лежат на уровне аксиоматики методов и подходов, реализованных в данных системах. Так, например, Россия, Российская Федерация, наша Родина и РФ для большинства таких систем — суть разные объекты, то есть, система должна быть снабжена семантической сетью или тезаурусом, который мог бы «объяснить» программе, как поступать в таком случае.

5.2 Структурированные текстовые данные

Другим видом информационных ресурсов/источников являются источники структурированных текстовых данных, в том числе — формализованный текст, таблицы, базы и хранилища данных, предоставляющие возможности поиска и фильтрации данных в таблицах, организации виртуальных таблиц и витрин данных. Этот тип ресурсов обладает своей спецификой, поскольку для интерпретации данных, как правило, требуются двухуровневые модели интерпретации: потребитель данных должен располагать моделью организации данных (логических связей между таблицами и записями), а также моделью предметной области, в то время как для обычного текста достаточно только второго класса моделей. Более того, коммерчески распространяемые базы данных, как правило, представляют собой неоперативный источник информации, структурированный в соответствии с представлениями поставщика о потребностях клиентов. То есть, эти информационные продукты не всегда адаптированы к реальным потребностям и часто содержат устаревшую или неполную информацию. По этой причине, большинство организаций, осуществляющих функции ИАО субъектов управления в некоторой области деятельности создают свои собственные базы данных, в большей степени отражающие их информационные потребности.

В связи с этим, чрезвычайно важным фактором, определяющим успешность применения созданной базы данных, является структура описаний (совокупность атрибутов, используемых для описания объектов учета). Если структура описаний не обеспечивает тех возможностей, которые необходимы потребителю для производства работ с ресурсами базы данных, то из эффективного инструмента информационной работы база данных превращается в кладбище данных, где на покосившихся крестах и памятниках давно повыцвели надписи. Уже на уровне структуры описаний должны быть учтены особенности технологии обработки информации, структура деловых процессов, возможности дальнейшего наращивания комплекса средств автоматизации, возможность востребования данных и без применения специализированных интерфейсов (программ иных, нежели программы системы управления базами данных) и так далее. В противном случае, в какой-то момент времени, когда очередная смена технологии потребует заменить интерфейсное программное обеспечение, вам придется проводить на заслуженный отдых не только эти программы, но и все те данные, которые были накоплены за годы работы вашей организации.

Вопросу атрибуции данных мы посвятим отдельный подраздел в данной главе. При этом мы не будем затрагивать проблему синтеза классификаций, которые используются для декомпозиции некоторой системы или предметной области на классы сущностей, описываемых набором атрибутов — эти вопросы подробно рассматриваются в специализированной литературе, посвященной вопросам теории баз данных, их проектирования, организации процесса проектирования и создания[60] . При рассмотрении вопросов, связанных с атрибуцией данных, наше внимание будет сосредоточено на проблеме создания специфических баз данныхбаз данных, предназначенных для хранения первичных материалов ИАР (сообщений) и описания источников информации, адаптированных к решению задач автоматизированного анализа ситуаций.

Однако, прежде, чем перейти к рассмотрению этого блока вопросов, рассмотрим специфику структурированных источников информации.

Мы уже указали на необходимость использования для работы со структурированными данными двухуровневых моделей интерпретации, а именно — модели организации данных (метаданных или метамодели). Располагая такой моделью, аналитик получает уникальную возможность получения специализированных массивов данных, отражающих состояние некоторого атрибута объекта анализа. В том числе, благодаря наличию структурной организации, может быть легко получен упорядоченный во времени массив численных значений некоторого параметра системы или процесса, или, наоборот — мгновенный срез состояния системы, образованный совокупностью измерений всех ее параметров.

В этом смысле, база данных представляет собой уникальный источник информации, использование которого в сочетании со средствами автоматизации ИАР способно многократно повысить продуктивность труда аналитика. Характерно, что большинство технических средств сбора информации, выражающих результаты в символьном виде, способно служить источниками только таких — специализированных данных. Как следствие, методологическое обеспечение систем анализа структурированных и числовых параметрических данных во многом совпадает. Даже в случае, когда в качестве параметров используются естественно-языковые термины, они могут рассматриваться как численные оценки значения атрибута, между которыми могут быть установлены те или иные отношения (порядка, величины, объема понятия и т. д.). В результате для обработки таких данных могут быть (хоть и с некоторыми изменениями) применены пакеты автоматизированной статистической обработки данных наблюдений, системы математического моделирования и иные программные средства, располагающие широкими возможностями для проведения статистических исследований, анализа временных рядов, спектрального анализа и так далее.

По существу, одной из задач информационной работы и является построение именно такого, структурированного ресурса для «внутреннего потребления» субъектом ИАР. Однако на пути к этому необходимо решить целый ряд сложных проблем, связанных с переходом от символьных данных произвольной семантики к символьным данным специальной семантики, обладающих

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату
×