Персональный поиск Яндекса — это программа на вашем компьютере, осуществляющая поиск по файлам и письмам с учетом морфологии русского языка. Совершенно бесплатная, обладающая прекрасными поисковыми возможностями. Позволяет во много раз быстрее искать, к примеру, в базах почтовой программы The Bat! письма, чем выполнять поиск стандартными средствами почтовика.

Яндекс. Бар — это уже совсем иной продукт. Удобство его использования почувствует в первую очередь тот, кто много и часто пользуется Яндексом. А все потому, что в этот плагин, работающий и на MS IE, и на FireFox, включено большинство служб Яндекса, а также обеспечен доступ к вашим личным ресурсам (почте, ленте, денежным средствам).

Есть на Яндексе и другие сервисы и службы — игры и общение, соревнования по поиску и фотоальбомы. Сервисы постоянно развиваются, а количество их увеличивается. Но 'нельзя объять необъятное', говорил незабвенный Козьма Прутков. И не отвлекаясь на новинки, разберем, чем же является Яндекс сегодня.

Илья Сегалович — директор 'Яндекса' по технологиям и разработке, один из основателей компании.

Поисковыми технологиями Илья начал заниматься в 1990 году — в компании 'Аркадия', где руководил группой программного обеспечения. В период с 1993 по 2О00 год, Илья работал в компании CompTek International, где возглавлял отдел поисковых систем. При непосредственной поддержке созданы Национальный корпус русского языка (Ruscorpora) и Российский семинар по оценке методов информационного поиска (РОМИП). Илья Сегалович имеет высшее образование в области геофизики. Вместе со своей женой Марией Илья поддерживает благотворительную студию 'Дети Марии' (социальная помощь детям-сиротам и детям-инвалидам).

Глава 1

Поиск (Найдется всё!)

Главная задача информационно-поисковой системы — это поиск информации, релевантной информационным потребностям пользователя. Слово релевантность означает соответствие между желаемой и действительно получаемой информацией. Релевантность можно еще представить как меру близости между реально полученными документами и тем, что следовало бы получить из системы.

'CITForum: Поисковые системы'

1.1. Что такое 'поисковая машина'

Каждому из нас в определенный момент времени бывает необходима информация, отсутствующая среди записей, заметок и данных на нашем компьютере. Где в таком случае вы будете ее искать? Одним из наиболее простых и удобных способов поиска является Интернет (далее также 'Сеть'). Здесь есть все — техническая и экономическая информация, справочники и научные издания, расписания транспорта и онлайновые магазины, книги и курсы валют. Все можно найти, не отрываясь от стула. Но у этой хорошей стороны Интернета есть и обратная сторона — количество информации в Сети растет даже не по часам, а по минутам и секундам. Найти нужную информацию обычным серфингом уже невозможно. Простой и удобный протокол HTTP, используемый для серфинга, удобен для навигации и просмотра страниц, но совершенно не предназначен для поиска.

Первым шагом на пути систематизации информации, размещаемой в Интернете, стало создание каталогов сайтов, в которых ссылки на ресурсы группировались по тематическому признаку. Так построено большинство современных каталогов, но началом всему стал проект Yahoo! открытый в 1994 году. Вторым шагом после создания каталога стал поиск по размещенным в нем ссылкам. Понятно, что это был поиск не по всем ресурсам Интернета, а лишь по тем, которые присутствовали в каталоге. Даже сегодня, спустя десятилетия после появления первых каталогов, в них присутствует лишь малая толика интернет-ресурсов. В одном из самых крупных каталогов — DMOZ (Open Directory Project) находятся ссылки на 4 миллиона сайтов, распределенных по 590 000 категорий, а в базе Яндекса размещена информация свыше чем о 2 278 900 000 документов. Показатели для поиска несравнимые.

Поэтому не удивительно, что почти одновременно с появлением каталогов, появились и поисковые машины. Первой из них стал проект WebCrawler, появившийся в 1994 году. Следом за ним открылись поисковые системы Lycos и AltaVista, а в 1997 году Сергей Брин и Ларри Пейдж создали Google. В том же году была официально анонсирована и поисковая система Яндекс, ставшая самой популярной в русскоязычной части Интернета.

1.1.1. Компоненты поисковых машин

Информация в Сети не только пополняется, но и постоянно изменяется, но об этих изменениях никто никому не сообщает. Отсутствует единая система занесения информации, одновременно доступная для всех пользователей Интернета. Поэтому с целью структурирования информации, предоставления пользователям удобных средств поиска данных и были созданы поисковые машины.

Поисковые системы бывают разных видов. Одни из них выполняют поиск информации на основе того, что в них заложили люди. Это могут быть каталоги, куда сведения о сайтах, их краткое описание либо обзоры заносят редакторы. Поиск в них ведется среди этих описаний.

Вторые собирают информацию в Сети, используя специальные программы. Это поисковые машины, состоящие, как правило, из трех основных компонентов:

? Агента;

? Индекса;

? Поискового механизма.

Агент, или более привычно — паук, робот (в англоязычной литературе — spider, crawler), в поисках информации обходит сеть или ее определенную часть. Этот робот хранит список адресов (URL), которые он может посетить и проиндексировать, с определенной для каждой поисковой машины периодичностью скачивает соответствующие ссылкам документы и анализирует их. Полученное содержимое страниц сохраняется роботом в более компактном виде и передается в Индекс. Если при анализе страницы (документа) будет обнаружена новая ссылка, робот добавит ее в свой список. Поэтому любой документ или сайт, на который есть ссылки, может быть найден роботом. И наоборот, если на сайт или любую его часть нет никаких внешних ссылок, робот может его не найти.

Робот — это не просто сборщик информации. Он обладает довольно развитым 'интеллектом'. Роботы могут искать сайты определенной тематики, формировать списки сайтов, отсортированных по посещаемости, извлекать и обрабатывать информацию из существующих баз данных, могут выполнять переходы по ссылкам различной глубины вложенности. Но в любом случае, всю найденную информацию они передают базе данных (Индексу) поисковой машины.

Поисковые роботы бывают различных типов:

? Spider (паук) — это программа, которая скачивает веб-страницы тем же

Вы читаете Яндекс для всех
Добавить отзыв
ВСЕ ОТЗЫВЫ О КНИГЕ В ИЗБРАННОЕ

0

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату
×