сайта от первой просмотренной им страницы и до выхода из сайта. По определению IAB[2] сессия – это вся последовательность просмотра одним пользователем страниц сайта, при условии, что запрос каждой следующей страницы не отделяет от предыдущей более 30 мин. В случае, если интервал между запросами страниц одним пользователем превышает 30 мин., то сессия закрывается и открывается новая. Здесь есть свое разумное объяснение. Существует достаточно большое количество сайтов, на которые мы заходим несколько раз в день: почтовые серверы, поисковые системы, сайты новостей и другие, – и каждый раз это будут различные сессии. Именно поэтому IAB приняло за норму, что если человек не проявляет никакой активности на сайте в течение 30 мин, то его сессия считается законченной, а при следующем хите открывается новая сессия. Другими словами, если пользователь после перехода на очередную страницу сайта выключил браузер, то сервер, на котором расположен браузер, никак не узнает об этом, и тогда через 30 мин сессия будет закрыта;
• ПУТЬ ПО САЙТУ – последовательная цепь страниц, просмотренных пользователем на сайте за одну сессию в том порядке, в котором они посещались. Важно, что если в промежутке между просмотром пары страниц на сайте пользователь смотрел страницы на другом сайте, то у сервера об этом нет никакой информации и он считает путь непрерывным всегда, когда сессия не прерывалась;
• ВРЕМЯ НА САЙТЕ – время, проведенное пользователем на сайте в течение одной сессии. Время на сайте может быть измерено как промежуток времени от момента запроса первой страницы до момента запроса последней страницы сессии. Важно, что время, проведенное пользователем на странице, обычно не может быть измерено, если пользователь не перешел на следующую страницу, поскольку браузер после получения страницы не общается с сервером;
• ГЛУБИНА ПРОСМОТРА САЙТА – число страниц на сайте, просмотренных пользователем в течение одной сессии. Если человек в течение сессии несколько раз просматривал одну и ту же страницу, то она может быть посчитана несколько раз или один в зависимости от настроек анализирующей программы. Аналогичная ситуация и с путями по сайту: если пользователь в промежутке между просмотрами двух страниц на сайте смотрел страницы на другом сайте, то у сервера нет никакой информации об этом, и система анализа будет считать глубину просмотра сайта до тех пор, пока сессия будет оставаться непрерывной;
• ВОЗВРАТ НА САЙТ – повторное посещение сайта пользователем. Иначе говоря – вторая и любая последующая сессия на сайте. Возвраты на сайт могут быть определены только при использовании системы идентификации посетителей по cookie-файлам или через авторизацию. Некоторые системы статистики считают возвраты по IP – это неверно даже для мелких сайтов;
• ПОСТОЯННАЯ АУДИТОРИЯ – пользователи, которые заходят на сайт регулярно. Регулярность захода на сайт может быть определена произвольно – раз в неделю, раз в день, раз в месяц– и зависит от содержания сайта и преследуемых им целей. Как и возвраты на сайт, постоянные посетители могут быть определены только за счет использования системы идентификации посетителей по cookie-файлам или через авторизацию; НОВАЯ АУДИТОРИЯ – пользователи, пришедшие на сайт в первый раз. Как и возвраты на сайт, новые посетители могут быть определены только при использовании системы идентификации посетителей по cookie-файлам или через авторизацию (по отсутствию регистрационных данных или cookie-файлов). Важно помнить, что оба метода идентификации пользователей не идеальны, поэтому новым может считаться пользователь, который уже был на сайте (но стер cookie или зарегистрировался заново). Все эти перечисленные выше термины нередко встречаются в системах анализа. Многие из них вы будете использовать в своей работе.
Инструменты анализа
Упомянутые выше данные записываются в лог-файл – текстовый файл, где на каждый запрос/обращение к серверу записывается одна строчка данных (рис. 7.3). В этой строке поля с описанными выше параметрами отделены друг от друга пробелами, запятыми, кавычками (зависит от настроек). Для каждой страницы сайта записывается много строк лог-файла – в зависимости от числа элементов, подгружаемых на страницу, а также от формата записи в лог это может быть до нескольких десятков записей.
Рис. 7.3. Фрагмент лог-файла
Вряд ли вы захотите просматривать сырые данные в том виде, как они показаны на рис. 7.3, вам больше пригодятся обработанные статистические данные. Сколько на сайте было посетителей, какие страницы и с какой частотой они смотрели, откуда пришли на сайт, какие запросы вводили в поисковых машинах, чтобы найти сайт, как часто пользователи возвращались на сайт и другие важные данные о поведении посетителей на сайте. Нужны статистические отчеты, а не сырые данные, так как именно с цифрами отчетов мы и будем работать.
Как несложно догадаться, все эти записи и журналы событий не анализируются вручную, потому что даже для сайта с посещаемостью в несколько сотен человек придется перебрать вручную тысячи строчек кода в день – это невероятная работа. Поэтому существует много специальных сервисов и программных продуктов, анализирующих статистику сайтов. Все эти продукты делятся на четыре вида: универсальные счетчики, универсальные лог-анализаторы, анализаторы, встроенные в CMS-системы, и, наконец, специализированные решения. Каждый вид имеет свои недостатки и свои преимущества, но главное отличие в том, что они могут оперировать двумя разыми типами исходных данных – прямыми данными, то есть данными в лог-файлах на серверах, и опосредованными данными, собранными при помощи установленных на сайте специальных программных модулей.
Рассмотрим различные
ЛОГ-АНАЛИЗАТОРЫ – «коробочные» программы, устанавливаемые на локальный компьютер или на сервер, которые анализируют журналы записи событий (лог-файлы), накапливаемые на серверах. Иначе говоря, это аналитические пакеты, которые совершают обработку текстового файла и строят множество статистических отчетов, набор которых зависит от настроек и возможностей лог-анализатора.
Лог-анализаторы – сложные программные продукты, обладающие огромными возможностями. Наиболее совершенные из них имеют специальные модули для анализа финансовой информации (например, для сайта электронного магазина), поиска скрытых закономерностей (drill down reports), построения собственных статистических отчетов и так далее.
Как и любой сложный программный продукт, тем более не предназначенный для массовой аудитории, лог-анализаторы имеют громоздкий интерфейс, требующий заметной подготовки от оператора. Кроме того, сам анализ логов требует от исследователя знаний особенностей Интернета как медиа, многих технических моментов, понимания как минимум основ интернет-маркетинга. Например, если заранее не настроить исключения, то лог-анализатор засчитает в качестве посетителей всех поисковых роботов, которые приходят на сайт для индексации контента.
Существует несколько тысяч различных лог-анализаторов – в базовом варианте они представляют собой несложный программный продукт, поэтому их понаделали немало. Часть из них коммерческие, но большинство – бесплатные, появившиеся как развлечение или побочный продукт совершенно других разработок. Наиболее известные на сегодняшний день продукты – WebTrends, NetTracker, Analog, WebAlyzer. Первые два – коммерческие продукты, последние – распространяются бесплатно. Бесплатность лог-анализаторов – обманчивая вещь. Для того чтобы бесплатная система лог-анализа правильно работала, исследователю необходима недюжинная квалификация, а часто потребуется еще и программист, чтобы дописать необходимые модули (благо, бесплатные лог-анализаторы чаще всего поставляются в исходных кодах). Таким образом, эксплуатация свободно распространяемого программного продукта может оказаться более затратной, нежели коммерческого.
Наиболее важное свойство лог-анализаторов – это возможность строить с их помощью произвольные статистические отчеты. Они могут называться «Пользовательские отчеты», или Custom Reports, или Filters, или еще как-либо, но смысл одинаков – возможность построить отчет по специфическим параметрам. Не исключено, что как раз на этом этапе вам потребуется программист, чтобы написать нужный модуль.
Примеры произвольных статистических отчетов:
• страницы, посещаемые пользователями из Новосибирска, которые приходят на сайт не в первый раз;
• время, в которое пользователи сайта чаще всего просматривают страницу контактов,
• доля тех пользователей, которые просматривают эту страницу ночью.