система будет искать страницы, в которых встречаются все эти слова—и слово «реферат», и «на тему», и «финансовый анализ в Excel». Причем, учитывая особенности построения поисковых запросов, последняя фраза будет искаться в точности так, как она была сформулирована. Запрос финансовый анализ в Excel предоставит вам несколько другие результаты.
Не стоит винить поисковую машину в том, что она не нашла нужную информацию – она всего лишь ответила на ваш запрос. Перефразируя известное выражение, можно сказать: «Каков запрос – таков ответ».
В идеале процесс поиска должен выглядеть примерно так. Сначала лучше сформулировать общий запрос и получить результат, в котором следует выделить описания более-менее подходящих ссылок. Затем необходимо добавить к запросу общие ключевые слова, которые есть в описании нужных веб-страниц, и повторить процесс. Если вы все делаете правильно, то каждый запрос должен приближать вас к нужной информации. Вы должны выступать в виде своеобразной обратной связи, с каждым шагом уменьшая несоответствие между необходимой вам информацией и тем, что выдает поисковая система.
Для иллюстрации вышесказанного рассмотрим еще один небольшой пример – представьте себе, что вам необходимо найти расписание поездов, проходящих через Киев. В качестве общего запроса можно так и «спросить» поисковую систему: расписание всех поездов, проходящих через Киев. Однако по такому запросу, например, Яндекс находит лишь расписания поездов, проходящих через Самару, Тернополь, но Киева среди результатов поиска не видно. Это ни в коем случае не означает, что такой информации в базе поисковой системы нет, просто запрос был сформулирован не совсем удачно.
Вы помните, что любая поисковая система старается найти страницы, на которых находится максимальное количество слов из вашего запроса, более того, если эти слова еще следуют друг за другом, то такие страницы будут выведены первыми. Например, если в тексте страницы встречается фраза «расписание всех поездов, проходящих через Самару», то даже при отсутствии фразы «расписание всех поездов, проходящих через Киев» система определит, что они имеют пять общих слов, то есть с большой вероятностью сайт, содержащий эти слова, вам подойдет. Хотя это и не так. Поэтому необходимо откорректировать запрос, убрав из него все ненужное и оставив только то, что точно характеризует необходимую вам информацию. В рассматриваемом примере «словами-паразитами» являются слова «всех», «проходящих» и «через», которые могут встречаться практически на любой странице. Набрав откорректированный запрос расписание поездов Киев, вы получите в точности то, что искали.
У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит результативность поисковика, то есть релевантность полученного списка ссылок, и как результат – успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется.
В настоящее время поисковые механизмы ищут документы не только по строгому соответствию введенному запросу. Все поисковые машины, которые работают с русскоязычным текстом, умеют проводить морфологический поиск. Это означает, что программа будет искать формы слов, включенных в поисковый запрос, а также их синонимы. То есть поиск будет касаться не только определенного падежа или числа, но и всей парадигмы слова.
Сегодня многие поисковые машины используют технологии полнотекстового поиска. Этот способ отличается прежде всего тем, что поиск документов в этом случае не зависит от наличия словаря синонимов и форм использованных в запросе слов и позволяет находить документы в тех случаях, когда смысл слова меняется в зависимости от контекста. Второе важное отличие полнотекстовых систем – они работают со всем текстом документа, а не только с ключевыми словами.
Согласно общей классификации, поиск бывает простым, расширенным и сложным.
Чаще всего большинство пользователей применяют именно простой поиск. Принцип его использования описан выше: необходимо сформулировать запрос и получить список ссылок, соответствующих ему.
Самая важная задача этого этапа – правильно подобрать слова для создания поискового запроса. Они должны быть, во-первых, характерными для документов, которые вы ищете, во-вторых, нехарактерными для нерелевантных документов.
Получив список ссылок, следует провести его обработку. В первую очередь, увидев результат и определив ненужные ссылки, вы сможете уточнить поисковый запрос – либо сформулировать его по- другому, либо использовать его для построения дополнительного запроса.
Расширенный поиск (в зарубежных системах – Advanced Search) позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. Большинство поисковых машин работают с этой технологией. Для перехода к расширенному поиску предназначена специальная ссылка на главной странице поисковой машины (рис. 9.1).
Рис. 9.1. Окно расширенного поиска поисковой машины Google
В данном режиме с помощью специальных средств можно задать более точные критерии отбора и сузить область поиска. В этом случае расширенным является только набор критериев поиска, а вот область поиска в большинстве случаев существенно сужается.
Параметры расширенного поиска у разных поисковых машин похожи, но их использование и построение запроса могут несколько различаться. Рассматриваемый способ относится к профессиональным инструментам поиска. Здесь доступно гораздо больше параметров запроса, но правильное их применение позволит получить гораздо лучший результат.
Для запуска предназначена специальная ссылка рядом с полем для поиска. Вам необходимо заполнить поля формы, в результате поисковая машина на основе заданных параметров сформирует сложный запрос и выполнит его. Для успешного использования всех возможностей расширенного поиска необходимо изучить его особенности и доступные возможности.
Рассмотрим некоторые инструменты расширенного поиска. В поисковых системах Google и Rambler доступна настройка типа вхождения поискового запроса на искомые страницы. При этом возможны следующие варианты.
• Любое слово. В результате поиска составляется список всех индексированных страниц, содержащих любое из слов поискового запроса. Нередко в этом случае количество полученных ссылок велико. Такой поиск может быть удобен, когда пользователь не уверен в правильности подбора ключевых слов. Например, если вы точно не знаете, как называется какой-то термин, задайте в поисковом запросе оба названия.
• Все слова. В этом режиме формируется список всех индексированных страниц, содержащих все ключевые слова в произвольном порядке. При этом сохраняется вероятность получения результатов, не соответствующих поисковому запросу.
• Точная фраза. При использовании данного режима составляется список страниц, содержащих фразу, точно совпадающую с ключевой, знаки препинания при этом игнорируются. В список не попадут сайты, посвященные одной теме, описываемой с использованием разных выражений. Обычно поиск точной фразы будет проводиться, если поисковый запрос взять в кавычки. Например, вы хотите найти текст песни, но не помните, как она называется и кто ее написал, но зато точно знаете, что в ней есть слова «на поляне траву зайцы в полночь косили». Введите эту фразу в окно запроса и заключите ее в кавычки – система найдет документы, содержащие фразу.
В окне расширенного поиска системы «Яндекс» с помощью переключателя употреблены в тексте можно выбрать один из двух вариантов: в любой форме или точно так, как в запросе. Выбор второго варианта означает поиск точного совпадения с текстом запроса (рис. 9.2).
Рис. 9.2. Возможности расширенного поиска «Яндекса»
Кроме этого, работая с «Яндекс» и Rambler, вы можете ограничить расстояние между словами поискового запроса – они могут идти подряд, в одном предложении, не очень далеко или на одной странице. Это важно, когда слова запроса составляют логически цельное словосочетание, например «издательство Питер», «расписание поездов» и т. д.
В расширенном поиске с помощью «Яндекса» можно ограничить ссылки регионом (например, Минск, Украина, Москва).
Большинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки другими параметрами. Например, вы можете задать поиск страниц только на одном языке, ограничить сайты определенным диапазоном дат обновления (это удобно, если вам нужно, например, найти только самые новые документы). Кроме того, вы можете задать поиск документов определенного типа