массивах текстов такая технология представляется крайне трудоемкой и малоэффективной. Несмотря на то, что существуют
Тем не менее,
Существует один, возможно, экстравагантный, но эффективный
После того, как первая версия поискового словаря создана, дальнейшие операции могут быть возложены на ЭВМ. Произведя первичный поиск и обнаружив в массиве текстов/документов текст, содержащий ключевые слова и наилучшим образом освещающий исследуемую проблему, аналитик переходит к следующему этапу —
Так или иначе, но
— поиск точного совпадения слова или словосочетания, обеспечивающий возможность обнаружения в тексте точной копии слова или словосочетания, указанного в поисковом задании;
— адаптивный поиск, обеспечивающий поиск фразы, указанной в поисковом задании, с учетом словоизменения;
— адаптивный поиск, обеспечивающий поиск отдельных компонентов фразы, указанной в поисковом задании, с учетом словоизменения, возможности использования усеченных форм и разнесения компонентов фразы по тексту на некоторое фиксированное расстояние (измеренное в словах);
— адаптивный поиск, ориентированный на применение специализированных языков управления поисковой машиной, обеспечивающий возможность управления режимом адаптации фразы, перестановок и подстановок отдельных слов и т. д.
Услуга
Если отвлечься от ГСТК Интернет и обратиться к проблеме поиска заданного текста на заранее сформированном универсальном массиве текстов, размещенных на отдельном компьютере или в сегменте локальной вычислительной сети, то тут следует обратиться к классу настольных и серверных поисковых систем. На отечественном рынке программного обеспечения системы подобного класса также представлены. Среди разработчиков программного обеспечения, реализующих передовые поисковые лингвистические технологии, следует выделить ЗАО «МедиаЛингва». Разработки этой фирмы, такие как «Следопыт», «Классификатор» и «Аннотатор», обеспечивают комплекс решений, позволяющих осуществлять оперативный поиск документов, их индексирование, классификацию и автоматическое аннотирование. Схожими возможностями обладают разработки НПИЦ «Микросистемы», в частности — программный продукт «TextAnalyst». Данная программа использует для решения задач распознавания слов нейросетевые технологии и, в основном, предназначена для решения задачи автоматического реферирования документов; функции поиска в этой системе также предусмотрены, однако в большей степени ориентированы на осуществление поиска в некотором подмножестве ранее обработанных и включенных в базу документов.
В основе функционирования таких систем лежат технологии искусственного интеллекта, на начальном этапе анализа текста использующие средства словарного и не словарного морфологического анализа текста, аппарат математической статистики, нейросетевые технологии, а на заключительном этапе, связанном с отбором, классификацией и аннотированием — аппарат семантических сетей, универсальные и отраслевые тезаурусы и словари. Рядом разработчиков предоставляются специализированные комплекты разработчика (так называемые SDK — Software Developer Kit), позволяющие при необходимости создавать собственное программное обеспечение, адаптированное к задачам, решаемым той или иной организацией.
Следует заметить, что проблемы анализа текстовой информации отнюдь не так просты, как это может показаться. В этой области существует масса проблем, связанных с различными этапами обработки текстов. На протяжении всего технологического цикла обработки, начиная от этапа морфологического разбора слова, и заканчивая этапом соотнесения термина с семантической категорией, разработчики технологий обработки текстов сталкиваются со сложностями как технологического, так и методологического порядка. А это означает, что в перечень проблемных этапов попадают:
— задачи установления факта принадлежности слова к некоторой части речи;
— задачи приведения слова к канонической форме;
— задачи выделения семантически связных цепочек слов;
— задачи выделения границ термина, установления его канонической формы и необходимой для его идентификации части;
— задачи восстановления системы ссылок и умолчаний;
— задачи соотнесения термина с грамматической и семантической категориями;
— задачи связывания тематически связных фрагментов текста. Неоднозначность распознавания и интерпретации слова и текста в целом является серьезнейшей проблемой, без разрешения которой достижение серьезных успехов в области анализа текстовой информации маловероятно. Для решения этой проблемы требуется обращение к методам, вовлекающим в использование контекст слова, высказывания и даже текста, с тем, чтобы локализовать предметную область, устранить последствия явления полисемии