выпуску, от программы к программе. Еще сложнее дело обстоит с релевантностью информации (ее свойством соответствовать текущим информационным потребностям субъекта): данных, содержащих релевантную информацию значительно меньше. А если учесть и иные ограничения, все более и более сужающие перечень источников и сообщений, то можно сделать вывод, что относительное количество сообщений, отвечающих потребностям управления некоторой конкретной системой в заданных условиях, крайне мало. К числу таких ограничений относятся: актуальность (возможность использования информации для управления системой или процессом в их современном состоянии), своевременность (возможность использовать информацию в контуре управления с учетом быстродействия подсистемы доведения управляющих воздействий), точность, достоверность, непротиворечивость и иные. Соответственно при всем обилии информации, которая может быть в принципе извлечена из всей совокупности источников, доля информации, представляющей ценность для ИАР, направленной на достижение некоторой цели, относительно невысока.

Коль скоро мы решили, что в этом подразделе проблемы поиска, отбора и экспресс-анализа информации будут рассматриваться применительно к классу источников, использующих для представления информации языковые средства, то, в первую очередь, нам следует проанализировать состав этого класса и режимы коммуникации (коммуникационные ситуации). В типовой коммуникационной ситуации (при обмене информацией между производителем и потребителем информации в режиме реального времени) в качестве основных источников текстовой информации может выступать всего два типа систем: разумные (человек), интеллектуальные (системы искусственного интеллекта) . Перечисленные системы способны самостоятельно генерировать новые тексты и информацию, то есть являются источниками и в узком, и в широком смысле, а также могут выступать в роли первичных источников текстовой информации. При наличии задержки в канале коммуникации речь идет о наличии промежуточного материального носителя информации, который обеспечивает возможность длительного хранения информации без внесения собственных искажений. Такие носители информации также могут рассматриваться в качестве источника информации, хотя сами не способны продуцировать информацию.

Чаще всего языковые средства коммуникации реализуют неоперативный режим коммуникации с использованием средств символьного представления информации (текстов). Поэтому, когда речь идет о неоперативной языковой коммуникации, в качестве источников принято рассматривать второй класс источников (материальные носители текстов). Если ввести строгие классификационные основания, то к классу источников, обеспечивающих неоперативные языковые коммуникации, следует причислять:

— источники неоперативной информации (хранилища, архивы и библиотеки, содержащие текстовые документы):

— на традиционных носителях символьных данных: бумага, фотопленка и т. д. (книги, журналы, реферативные журналы, газеты, рукописи, микропленки и иные);

— на нетрадиционных носителях символьных данных: магнитные ленты и диски, магнитооптические и оптические накопители ЭВМ, голографические накопители, электронные запоминающие устройства, сети ЭВМ различного уровня интеграции и т. д. (файлы, базы данных, хранилища данных, геоинформационные системы, глобальные, региональные и локальные сети ЭВМ и иные);

— источники оперативной информации (коммуникационные и связные системы, реализующие функцию коммуникации посредством передачи текстовых данных в символьном формате):

— воспроизводимые данные (зарегистрированные на материальных носителях, для которых существует возможность повторного воспроизведения), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.;

— невоспроизводимые данные (возможность регистрации которых на материальных носителях и повторного воспроизведения отсутствует по тем или иным причинам), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.

Источники информации, не воспроизводимой с требуемой степенью точностью, мы исключим из рассмотрения в силу их малой полезности, а также по причине того, что их поиск становится невозможным в силу отсутствия доступа к материальной копии. Впрочем, определив потенциального носителя таких данных или расположение материальной копии, возможно организовать доступ к материальной копии или носителю сведений, как, например, в случае захвата вражеского «языка», получения несанкционированного доступа к данным и иных случаях насильственного изъятия информации.

При наличии доступа к материальной копии информации (данным) всю совокупность доступных данных можно рассматривать в качестве источниковой базы проведения исследований. В этом случае, решив проблему согласования форматов представления, аналитик получает возможность применения комплекса информационных технологий к полученному массиву текстов. При этом, как мы уже указывали, аналитиком решается задача сжатия или обобщения информации, первыми этапами которой является отбор текстов, релевантных теме исследования, то есть — формирование специализированного массива текстов, которые имеют отношение к решаемой задаче.

При этом выделяются два класса источников, не рассматривавшихся в предложенной ранее классификации, а именно: класс источников неструктурированных текстовых данных и класс источников структурированных текстовых данных. При этом под текстом можно понимать и числа, как частный случай.

5.1 Неструктурированные текстовые данные

Наиболее доступным источниками информации на сегодня можно считать средства массовой информации и издания в диапазоне от художественной литературы и публицистики до специализированных научных изданий. Предположим, что в результате применения некоторого комплекса инструментальных средств вами получен неспециализированный массив текстовой информации на компьютерных носителях, обеспечивающий возможность применения разнообразных технологий обработки и анализа информации с применением программных и аппаратно-программных средств.

Также будем считать, что существует возможность оперативного пополнения этого массива за счет ресурсов глобальных, региональных и локальных телекоммуникационных сетей, подключения к ресурсам информационных агентств, а также получения текстов, публикуемых в электронных и обычных средствах массовой информации.

Такими возможностями на сегодня располагает большинство субъектов ИАР, обладающих возможностью подключения к ГСТК Интернет (Спринтнет, Гласнет, Релком, локальной вычислительной сети организации) и несложным комплектом технических средств, включающим в свой состав ЭВМ и периферийные устройства типа сканера, среднескоростного модема для аналоговых или цифровых каналов связи. Возможны и иные варианты комплектации, что в данном случае несущественно.

Задача состоит в том, чтобы осуществить над имеющимся массивом данных некие манипуляции, в результате которых будет получен специализированный массив каталогизированных и, возможно, аннотированных данных, необходимых для проведения дальнейших исследований.

Одним из вариантов решения задачи является использование неавтоматизированного режима поиска и отбора информации (в этом случае массив источников последовательно прочитывается на предмет поиска необходимой информации, и тексты, содержащие необходимые сведения подвергаются копированию/перемещению в некоторую область дискового пространства и/или каталогизации, при этом возможно параллельное аннотирование/комментирование текстов). Однако на достаточно больших

Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату
×