характеризует необходимую вам информацию. В рассматриваемом примере «словами-паразитами» являются слова «всех», «проходящих» и «через», которые могут встречаться практически на любой странице. Набрав откорректированный запрос расписание поездов Киев, вы получите то, что искали.
У каждой поисковой машины уникальная методика поиска, от эффективности которой зависит результативность поисковика, то есть релевантность полученного списка ссылок, и как результат – успех на рынке таких машин. Механизм поиска не только хранится в секрете, но и регулярно меняется.
В настоящее время поисковые механизмы ищут документы не только по строгому соответствию введенному запросу. Все поисковые машины, которые работают с русскоязычным текстом, умеют проводить морфологический поиск. Это означает, что программа будет искать формы слов, включенных в поисковый запрос, а также их синонимы. То есть поиск будет касаться не только определенного падежа или числа, но и всей парадигмы слова.
Сегодня многие поисковые машины используют технологии полнотекстового поиска. Этот способ отличается прежде всего тем, что поиск документов в этом случае не зависит от наличия словаря синонимов и форм использованных в запросе слов и позволяет находить документы в тех случаях, когда смысл слова меняется в зависимости от контекста. Второе важное отличие полнотекстовых систем – они работают со всем текстом документа, а не только с ключевыми словами.
Согласно общей классификации поиск бывает простым, расширенным и сложным.
Простой поиск. Чаще всего большинство пользователей применяют именно простой поиск. Принцип его использования описан выше: необходимо сформулировать запрос и получить список ссылок, соответствующих ему.
Самая важная задача этого этапа – правильно подобрать слова для создания поискового запроса. Они должны быть, во-первых, характерными для документов, которые вы ищете, во-вторых, нехарактерными для нерелевантных документов.
Получив список ссылок, следует провести его обработку. В первую очередь, увидев результат и определив ненужные ссылки, вы сможете уточнить поисковый запрос – либо сформулировать его по-другому, либо использовать его для построения дополнительного запроса.
Расширенный поиск. В зарубежных системах – Advanced Search – позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. Большинство поисковых машин работают по этой технологии. Для перехода к расширенному поиску предназначена специальная ссылка на главной странице машины (рис. 10.1).
Рис. 10.1. Окно расширенного поиска поисковой машины Google
В данном режиме с помощью специальных средств можно задать более точные критерии отбора и сузить область поиска. В этом случае расширенным является только набор критериев поиска, а вот область поиска в большинстве случаев существенно сужается.
Параметры расширенного поиска у разных поисковых машин схожи, но их использование и построение запроса может несколько различаться. Рассматриваемый способ относится к профессиональным инструментам поиска. Здесь доступно гораздо больше параметров запроса, и правильное их применение позволит получить лучший результат.
Для запуска предназначена специальная ссылка рядом с полем для поиска. Вам необходимо заполнить поля формы, в результате поисковая машина на основе заданных параметров сформирует сложный запрос и выполнит его. Для успешного использования всех возможностей расширенного поиска необходимо изучить его особенности и доступные возможности.
В поисковых системах Google и «Рамблер» доступна настройка типа вхождения поискового запроса на искомые страницы. При этом возможны следующие варианты.
•
•
•
В окне расширенного поиска системы «Яндекс» с помощью переключателя употреблены в тексте можно выбрать один из двух вариантов: в любой форме или точно так, как в запросе. Выбор второго варианта означает поиск точного совпадения с текстом запроса (рис. 10.2).
Рис. 10.2. Возможности расширенного поиска «Яндекса»Кроме того, работая с «Яндексом» и «Рамблером», вы можете ограничить расстояние между словами поискового запроса – они могут идти подряд, в одном предложении, не очень далеко или на одной странице. Это важно, когда слова составляют логически цельное словосочетание, например «издательство Питер», «расписание поездов» и т. д.
В расширенном поиске с помощью «Яндекса» можно ограничить ссылки регионом (например, Минск, Украина, Москва).
Большинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки другими параметрами. Например, вы можете задать поиск страниц только на одном языке, ограничить сайты определенным диапазоном дат обновления (это удобно, если вам нужно, например, найти только новые документы). Кроме того, вы можете задать поиск документов определенного типа (например, только HTML-, DOC-, RTF-, PPT– или PDF-файлы).
Многие поисковые машины позволяют ограничить поиск фрагментом страницы. Например, можно указать, что фраза поискового запроса встречается только в заголовке страницы или же в основной части, в адресе или в любом месте документа.
Еще одно удобное решение, доступное среди параметров расширенного поиска, – поиск фразы запроса на определенном сайте. Такая возможность на сегодняшний день доступна для всех поисковых машин, она позволяет получить список документов с одного сайта. Например, на сайте с базой данных рефератов вы хотите найти работу по нужной теме. Можно, конечно, вручную пересмотреть разделы каталога, приблизительно соответствующие вашей теме, но лучше задать запрос и провести поиск на этом веб-ресурсе. Система предоставит вам список страниц только с данного сайта, на которых находится необходимая информация (рис. 10.3).
Рис. 10.3. Поиск «Рамблера» для определенных сайтовПоисковые системы Google и «Яндекс» позволяют также получить список сайтов, похожих на заданный. В параметрах расширенного поиска «Рамблера» можно исключить из полученного списка ссылки, в которые входит заданное слово.
Сложный поиск. Он предусматривает возможность использования особенностей специального языка запросов. Хотя для каждой поисковой системы существует свой уникальный язык запросов, их возможности похожи.
Язык запросов содержит операторы двух типов: логические операторы и операторы расстояния.• Логические операторы определяют включение/исключение из поиска группы слов:
• AND (И) – поиск документов, содержащих все термины, соединенные данным оператором;
• OR (ИЛИ) – текст должен содержать хотя бы один из терминов, соединенных данным оператором;
• NOT (НЕ) – поиск документов, в тексте которых отсутствуют термины, следующие за оператором.• Операторы расстояния ограничивают порядок следования и расстояния между словами:
• NEAR (ОКОЛО) – второй термин должен находиться от первого на расстоянии, не превышающем определенного количества слов;
• FOLLOWED BY (СЛЕДОВАТЬ) – термины следуют в заданном порядке;
• ADJ – термины, соединенные оператором, являются смежными.Наряду с этими, наиболее типичными, в язык поисковых запросов могут входить и другие операторы.
В разных машинах каждому из этих операторов соответствуют свои обозначения. Детальнее узнать о них можно на странице помощи. Ниже будет рассказано о некоторых элементах языка поисковых запросов самых популярных поисковых машин. Работу операторов сложного поиска рассмотрим на примерах решения наиболее типичных задач.
• Найденные ссылки должны содержать точную фразу поискового запроса.
Такую фразу следует заключить в кавычки. Это правило справедливо для всех поисковых машин.
• В найденных документах должно быть несколько слов из поискового запроса.
В этом случае удобно применить логический оператор AND (и), использование которого означает