Технология записи событий на сервере может быть разной, но в общем случае для каждого запроса пользователя, то есть для каждого запроса браузером чего бы то ни было с сервера, записывается определенный набор данных, обычно в виде текстовой строки. Каждый раз, когда на нашем компьютере появляется или обновляется какая-либо информация из Интернета, включая почту и системы обмена мгновенными сообщениями, мы делаем множество таких запросов. Даже на простое открытие одной страницы на сервере пишется несколько десятков строк лог-файла. Текстовая строка содержит большое количество полей с параметрами, наиболее важные из которых для анализа в интернет-маркетинге перечислены ниже.
• IP-АДРЕС ИЛИ ХОСТ (сетевой адрес компьютера, за которым работает пользователь). Чаще всего выглядит как набор цифр, разделенный точками, например 212.117.163.2. Собственно IP-адрес – это набор цифр, а хост – это соответствующий ему буквенный адрес. Хост может присутствовать не всегда, тогда как IP-адрес должен быть всегда. Все компьютеры, подключенные к сети Интернет, должны иметь такой номер, поскольку для других компьютеров и прочих сетевых устройств он является их единственным идентификатором, по которому к ним можно обратиться. Важно, что IP-адреса жестко распределены между провайдерами интернет-доступа и компаниями, то есть тот или иной провайдер имеет право предоставлять своим пользователям тот или иной IP-адрес и никакой другой. Эта привязка, конечно, не постоянна, провайдеры меняют блоки принадлежащих им IP-адресов по разным причинам, однако эти изменения случаются у каждого провайдера достаточно редко (вопрос месяцев и лет). Следовательно, по IP-адресу мы всегда можем выяснить, через какого провайдера этот пользователь в данный момент работал. Провайдер, в свою очередь, привязан к географической точке (городу или району), в которой он работает, либо если провайдер работает в нескольких регионах, то каждая сеть привязана к своему городу. Таким образом, зная IP-адреса своих пользователей, мы можем определить их географическое местоположение.
Посмотреть, к какому региону относится нужный вам IP-адрес, можно на сайтах: ripe.net (европейский регион, включая Россию), afrinic.net (Африка), apnic.net (Азия), lacnic.net (Латинская Америка и Карибский регион), arin.net (Северная Америка). На рис. 7.2. показан результат запроса к базе Ripe.
Рис. 7.2. Результат запроса к базе данных Ripe. В результате запроса показан диапазон сети (в первой строке), которым владеет указанная ниже компания, а также адрес компании как место расположения устройств, имеющих адрес из этой сети. Для данного IP-адреса это город Соммерсет в Англии
• ДАТА И ВРЕМЯ, в которые сделан запрос. Указывается время, установленное на сервере, а не на компьютере пользователя, и они могут различаться. Однако даже если время на сервере установлено неверно, то оно неверно для всех пользователей одновременно.
• ЗАПРОШЕННЫЙ ЭЛЕМЕНТ, то есть что конкретно запросил пользователь на сервере. Это может быть HTML-документ (страница сайта), картинка, видеоролик, исполняемый скрипт, архив, множество других вещей, которые пользователь может захотеть получить. Каждая страница на сайте состоит из множества элементов, часть из которых мы явно видим, а другую – нет. При получении страницы сайта с сервера браузер считывает ее (разбирает язык разметки HTML) и определяет, какие еще элементы нужны для показа страницы: картинки, таблицы стилей и проч. Также еще до того, как «отдать» страницу пользователю, сервер может «собрать» страницу из множества различных модулей, хранящихся на сервере отдельно. Для каждого элемента, задействованного на странице, создается свой запрос и записывается строчка в отчет. • REFERRER, ИЛИ ССЫЛАЮЩИЙСЯ ДОКУМЕНТ, то есть адрес страницы, на которой была ссылка на запрашиваемый элемент. Refferer – это адрес страницы какого-либо сайта, откуда был совершен переход, в том числе это могут быть и страницы вашего сайта. Адрес ссылающегося документа содержит много информации, например, если это был переход из результатов поиска поисковой машины, то можно из адреса referrer определить поисковый запрос, а также – какая именно поисковая машина была задействована. Иногда это поле бывает пустым, тогда такой переход на сайт называют type-in- переходом.
Type-in-трафик
Поле referrer может быть пустым, если пользователь обращается к странице (или к какому-либо другому элементу):
• набрав ее адрес в строке браузера;
• перейдя из закладок;
• перейдя на «домашнюю страницу»;
• перейдя из почтовой программы или из любого приложения (например, из Word).
В этом случае сервер не может определить, откуда был сделан переход, и не указывает это в журнале записи событий. Все переходы на сайте без указания ссылки совокупно называются Type-in-трафиком.
Следует отметить, что ссылка может не записываться также при переходе из flash-ролика. Поэтому, если вы используете для рекламы Flash-баннеры, то переходов с них вы вообще не увидите. Кроме того, в некоторых случаях proxy-сервер, через который пользователи осуществляют доступ в Интернет, может отрезать referrer и не передавать его внешним серверам. Особенно это касается корпоративных сетей с высокой степенью защищенности.
• USER AGENT – кодовое обозначение операционной системы и браузера, используемых для доступа к сайту. Пример UA: «Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)» – это Windows XP с IE 6.0.
• COOKIE – значение переменной, записанной в текстовый файл на компьютере пользователя. Каждый сайт может записать на компьютер пользователя небольшой текстовый файл в специальную директорию, прочитать потом этот файл может только тот же самый сайт, определяемый по домену. Файлы cookie используются для идентификации пользователя в течение его визита, а также при повторном переходе на сайт. Поэтому в файл записывается обычно идентификационный номер. Для того чтобы сайт устанавливал cookie, необходимо написать небольшую программу (скрипт), которая, собственно, и будет создавать уникальный номер, а потом записывать его пользователю в случае, если у него еще нет cookie этого сервера. В лог-файл пишется прочитанное значение, если у пользователя еще нет cookie этого сайта, поле остается пустым.
• РЕЗУЛЬТАТ – код результата запроса пользователей. Наиболее известный результат – это 404 «страница не найдена», однако самый часто встречающийся – 200 «данные переданы успешно». Нам для анализа результат нужен именно для того, чтобы определять случаи, когда пользователь по каким-либо причинам не получил нужную страницу.
Кроме параметров, перечисленных выше, фиксируется еще большое количество различных данных: размер переданного файла, промежуточные IP-адреса, тип запроса и другие. Маркетологов эти параметры не слишком интересуют, они нужны скорее системным администраторам для контроля работы серверов и программ.
Наконец, при помощи дополнительного программного обеспечения мы можем фиксировать такие параметры, как наличие java-script и его версии, наличие и версии flash-модуля, разрешение экрана и другие параметры, которые также могут быть интересны, однако не важны для анализа эффективности маркетинговых действий.
Идентификация посетителей
Один и тот же пользователь может просматривать достаточно большое число страниц, запрашивать на сервере множество разных файлов, поэтому первая задача статистики – определение принадлежности различных запросов одному пользователю, или, говоря строгим языком,
Без идентификации все посещения и посетители сливаются в одну сплошную неразличимую массу, и мы уже не можем отделить поведение одного пользователя от других.
Существует
1. ПО IP-АДРЕСУ. Каждый компьютер в момент подключения к любой сети TCP/IP (к которым относится и Интернет) имеет уникальный и однозначный IP-адрес, который не изменяется в течение всего времени