«попросить» робот не индексировать ваш ресурс) и потому недоступны при свободном поиске.
В первую очередь индексируются и наиболее легко находятся при поиске синтаксически выделенные конструкции языка. И здесь нужно иметь в виду, что в Сети текст пишется и представляется не на естественном языке — русском или английском, а на языке разметки документа — html или dhtml. И конечно, более понятны поисковой программе именно синтаксические конструкции этих языков. То есть она регистрирует титулы, ключевые слова, заголовки всех уровней, ссылки, начала абзацев и другие элементы формальной структуры и обязательно также имена собственные.
Поставим простой эксперимент. Попытаемся отыскать, используя Яndex, «Анну Каренину» Льва Толстого. Сначала для поиска используем первую фразу романа: «Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему». Количество найденных адресов будет очень велико, и не все они будут указывать на роман. Некоторые — на собрания афоризмов. Я задам более жесткое требование и буду искать в найденном эпиграф к роману: «Мне отмщение, и Аз воздам». В результате отбора поисковая система выдаст одиннадцать адресов, из которых десять действительно будут указывать на текст романа Толстого.
Теперь я изменю условия и буду искать фразу из главы 17-й: «Это такая честная, правдивая натура, и сердце золотое». Результатом (точным, а другие нас не устраивают, фраза заведомо звучит так) будут четыре ссылки, из которых только две укажут толстовский текст — www.klassika.ru и orel.rsl.ru/nettext/russian/tolstoy_lev/annak1.htm, — и оба эти адреса уже вошли в список, который мы получили в предыдущем эксперименте. (Если вы повторите мой эксперимент, результат может быть совсем другим. Сеть меняется каждый день, не говоря о нескольких месяцах. Написано 2.10.2001.)
О чем это говорит? Ведь вторая цитата заведомо присутствует в найденных нами в первом эксперименте текстах. Но она — не проиндексирована. То есть поисковая система (в нашем случае Яndex) не связывает ее с адресами, указывающими на текст «Анны Карениной». Потому, в частности, что вторая цитата взята из середины абзаца и не содержит никаких синтаксических конструкций формального языка и собственных имен. Один и тот же по внешнему виду текст может быть в Сети более или менее активен. Он получает возможность, используя поисковые системы, продвигать себя навстречу читателю, облегчая ему поиск и становясь более актуальным сам. Текст, постоянно читаемый и перечитываемый поисковыми системами, не лежит в Сети — он движется, меняется, и происходит это, можно сказать, без участия реального читателя.
Когда писатель пишет и публикует текст, он хочет донести до читателя свою весть — message, как сегодня принято говорить. Чтобы это произошло, текст должен быть, во-первых, доступен, во-вторых, прочитан. Текст должны найти те, кто его ищет, может быть, даже не подозревая о его существовании.
Автор текста в Сети должен четко представить себе те запросы, которые будут адресованы поисковым системам и на которые именно его текст отвечает максимально полно. То есть если его ресурс попадет в отбор, то релевантность ресурса по оценке поисковой программы — другими словами, наиболее полное соответствие запросу — должна быть высокой. Релевантность можно представить себе как способ сортировки найденных по запросу документов. Чем больше документ соответствует запросу, тем выше в списке ответов он должен находиться, тем выше его значимость. Для достижения этого результата могут учитываться следующие параметры: количество найденных слов, «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, положение слова в документе и в зонах документа. Релевантность документа может определяться количеством указывающих на него ссылок и весом этих ссылок — чем солиднее ссылающийся ресурс, тем больше вес. Но этим показателем оперировать крайне трудно. Если вы получите несколько сот или тысяч адресов, то вряд ли вам придется изучать все из них: первые десять — двадцать, вероятно, содержат требуемую информацию.
Очень важную роль играет сетевое имя автора. Оно может стать надежным указателем, а может ввести в заблуждение и сбить с толку. Скажем, «Сергей Гандлевский» — хорошее сетевое имя. С очень высокой степенью вероятности при использовании его для поиска найденные документы окажутся связанными с известным поэтом и не будет почти никаких посторонних ссылок. А вот «Юрий Кузнецов» — крайне неудачное сетевое имя. В тех тысячах адресов, которые выдаст любая русская поисковая система, найти автора «Атомной сказки» и других замечательных стихов почти невозможно. То обстоятельство, что сетевое имя крайне существенно для надежного доступа и опознания, заставляет многих авторов брать сетевые псевдонимы.
Это же можно сказать и о выборе названия для изданий, представленных в Сети. «Кольцо А» — это внешнее кольцо Сатурна, которое существует и сегодня и будет существовать всегда. «Кольцо А» — трамвайное кольцо по московским бульварам, где проходил маршрут «Аннушки», не существует уже давным-давно, лет, наверное, пятьдесят. Называя литературный альманах «Кольцо „А“», необходимо было иметь в виду астрономическую коннотацию. А то получается невероятная путаница. Хотели напомнить стук трамвая по старой Москве, а получилось указание на огромные пространства и массы космоса. В печатном мире все было корректно, а в Сети все склеилось.
Текст, перенесенный с бумаги в Сеть, меняется. Но из этого еще не становится произведением сетевой литературы. Сетевая литература — это та, что активно использует новые условия представления текста. Можно отвергать текст только за то, что он выставлен в Сети, а можно использовать те возможности, которые предоставляет Интернет при создании текста, — в частности, единство информационного пространства и наличие глобальных поисковых систем. Только тогда, когда текстом используется Сеть и вне Сети текст не существует, нельзя его распечатать без потерь, как нельзя записать стихи без разбивки на строки, — тогда только текст можно отнести к сетевой литературе.
На сегодняшний день наиболее активно используют сетевое представление разного рода литературные обзоры и рецензии. Это — короткие тексты с большим количеством ссылок и имен. Что будет дальше, сказать сегодня трудно, но то, что литература активно продвигается в Сеть, несомненно, и, думаю, мы еще станем свидетелями неожиданных находок и открытий.
А теперь — краткий обзор поисковых систем.
Главная заповедь при поиске в Сети: любая поисковая система видит только часть Интернета, чтобы провести полноценный поиск, необходимо использовать несколько разных. Лишь в этом случае результат поиска можно считать удовлетворительным.
Поисковые системы:
Яndex (www.yandex.ru) русскоязычная,
Rambler (www.rambler.ru) русскоязычная,
Aport (www.aport.ru) русскоязычная,
Alltheweb (www.alltheweb.com) англо- и русскоязычная,
Google (www.google.com) англо- и русскоязычная,
AltaVista (www.altavista.com) англоязычная,
HotBot (www.hotbot.com) англоязычная,
Northern Lite (www.nlsearch.com) англоязычная,
Yahoo! (www.yahoo.com) англоязычный поисковый каталог,
Go (www.go.com) англоязычная,
Excite (www.excite.com) англоязычная.
Метапоисковые системы
Это системы, не имеющие собственной базы данных, но размещающие запросы в различных поисковых системах и анализирующие полученные ссылки:
1. All-in-One Search Page (www.albany.net/allinone),
2. CUSI (web.nexor.co.uk/public/cusi/doc/list.html),
3. Fun City Web Search (www.funcity.com/search.html),
4. MetaCrawler (www.go2net.com/search.html).
При составлении списка использовалась информация:
nfau.ukrfa.kharkov.ua/pankratova/html/index.htm. «Поиск информации в Интернете». Авторы: В. П. Черных, В. С. Власов, Я. И. Панкратова,
searchengine.narod.ru/index.htm. «Интернет-маркетинг. Стратегия и тактика работы