Методы измерения посещаемости сайта в Интернете

Собираемые данные

 

Особенностью Интернета как инструмента коммуникаций является его опосредованность через массу технических устройств: серверы, маршрутизаторы, файрволы и т. д. Действия пользователей, которые осуществляются через все это оборудование, автоматически фиксируются в памяти устройств, где могут иногда сохраняться значительное время. Этот простой факт предоставляет маркетологам огромные возможности для проведения анализа поведения посетителей сайта.

Технология записи событий на сервере может быть разной, но в общем случае для каждого запроса пользователя, то есть для каждого запроса браузером чего бы то ни было с сервера, записывается определенный набор данных, обычно в виде текстовой строки. Каждый раз, когда на нашем компьютере появляется или обновляется какая‑либо информация из Интернета, включая почту и системы обмена мгновенными сообщениями, мы делаем множество таких запросов. Даже на простое открытие одной страницы на сервере пишется несколько десятков строк лог‑файла. Текстовая строка содержит большое количество полей с параметрами, наиболее важные из которых для анализа в интернет‑маркетинге перечислены ниже.

  • IP‑АДРЕС ИЛИ ХОСТ (сетевой адрес компьютера, за которым работает пользователь). Чаще всего выглядит как набор цифр, разделенный точками, например 212.117.163.2. Собственно IP‑адрес – это набор цифр, а хост – это соответствующий ему буквенный адрес. Хост может присутствовать не всегда, тогда как IP‑адрес должен быть всегда. Все компьютеры, подключенные к сети Интернет, должны иметь такой номер, поскольку для других компьютеров и прочих сетевых устройств он является их единственным идентификатором, по которому к ним можно обратиться. Важно, что IP‑адреса жестко распределены между провайдерами интернет‑доступа и компаниями, то есть тот или иной провайдер имеет право предоставлять своим пользователям тот или иной IP‑адрес и никакой другой. Эта привязка, конечно, не постоянна, провайдеры меняют блоки принадлежащих им IP‑адресов по разным причинам, однако эти изменения случаются у каждого провайдера достаточно редко (вопрос месяцев и лет). Следовательно, по IP‑адресу мы всегда можем выяснить, через какого провайдера этот пользователь в данный момент работал. Провайдер, в свою очередь, привязан к географической точке (городу или району), в которой он работает, либо если провайдер работает в нескольких регионах, то каждая сеть привязана к своему городу. Таким образом, зная IP‑адреса своих пользователей, мы можем определить их географическое местоположение.

Посмотреть, к какому региону относится нужный вам IP‑адрес, можно на сайтах: ripe.net (европейский регион, включая Россию), afrinic.net (Африка), apnic.net (Азия), lacnic.net (Латинская Америка и Карибский регион), arin.net (Северная Америка). На рис. 7.2. показан результат запроса к базе Ripe.

 

Рис. 7.2. Результат запроса к базе данных Ripe. В результате запроса показан диапазон сети (в первой строке), которым владеет указанная ниже компания, а также адрес компании как место расположения устройств, имеющих адрес из этой сети. Для данного IP‑адреса это город Соммерсет в Англии

 

  • ДАТА И ВРЕМЯ, в которые сделан запрос. Указывается время, установленное на сервере, а не на компьютере пользователя, и они могут различаться. Однако даже если время на сервере установлено неверно, то оно неверно для всех пользователей одновременно.
  • ЗАПРОШЕННЫЙ ЭЛЕМЕНТ, то есть что конкретно запросил пользователь на сервере. Это может быть HTML‑документ (страница сайта), картинка, видеоролик, исполняемый скрипт, архив, множество других вещей, которые пользователь может захотеть получить. Каждая страница на сайте состоит из множества элементов, часть из которых мы явно видим, а другую – нет. При получении страницы сайта с сервера браузер считывает ее (разбирает язык разметки HTML) и определяет, какие еще элементы нужны для показа страницы: картинки, таблицы стилей и проч. Также еще до того, как «отдать» страницу пользователю, сервер может «собрать» страницу из множества различных модулей, хранящихся на сервере отдельно. Для каждого элемента, задействованного на странице, создается свой запрос и записывается строчка в отчет. • REFERRER, ИЛИ ССЫЛАЮЩИЙСЯ ДОКУМЕНТ, то есть адрес страницы, на которой была ссылка на запрашиваемый элемент. Refferer – это адрес страницы какого‑либо сайта, откуда был совершен переход, в том числе это могут быть и страницы вашего сайта. Адрес ссылающегося документа содержит много информации, например, если это был переход из результатов поиска поисковой машины, то можно из адреса referrer определить поисковый запрос, а также – какая именно поисковая машина была задействована. Иногда это поле бывает пустым, тогда такой переход на сайт называют type‑in‑переходом.

 

Type‑in‑трафик

Поле referrer может быть пустым, если пользователь обращается к странице (или к какому‑либо другому элементу):

  • набрав ее адрес в строке браузера;
  • перейдя из закладок;
  • перейдя на «домашнюю страницу»;
  • перейдя из почтовой программы или из любого приложения (например, из Word).

В этом случае сервер не может определить, откуда был сделан переход, и не указывает это в журнале записи событий. Все переходы на сайте без указания ссылки совокупно называются Type‑in‑трафиком.

Следует отметить, что ссылка может не записываться также при переходе из flash‑ролика. Поэтому, если вы используете для рекламы Flash‑баннеры, то переходов с них вы вообще не увидите. Кроме того, в некоторых случаях proxy‑сервер, через который пользователи осуществляют доступ в Интернет, может отрезать referrer и не передавать его внешним серверам. Особенно это касается корпоративных сетей с высокой степенью защищенности.

 

  • USER AGENT – кодовое обозначение операционной системы и браузера, используемых для доступа к сайту. Пример UA: «Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)» – это Windows XP с IE 6.0.
  • COOKIE – значение переменной, записанной в текстовый файл на компьютере пользователя. Каждый сайт может записать на компьютер пользователя небольшой текстовый файл в специальную директорию, прочитать потом этот файл может только тот же самый сайт, определяемый по домену. Файлы cookie используются для идентификации пользователя в течение его визита, а также при повторном переходе на сайт. Поэтому в файл записывается обычно идентификационный номер. Для того чтобы сайт устанавливал cookie, необходимо написать небольшую программу (скрипт), которая, собственно, и будет создавать уникальный номер, а потом записывать его пользователю в случае, если у него еще нет cookie этого сервера. В лог‑файл пишется прочитанное значение, если у пользователя еще нет cookie этого сайта, поле остается пустым.
  • РЕЗУЛЬТАТ – код результата запроса пользователей. Наиболее известный результат – это 404 «страница не найдена», однако самый часто встречающийся – 200 «данные переданы успешно». Нам для анализа результат нужен именно для того, чтобы определять случаи, когда пользователь по каким‑либо причинам не получил нужную страницу.

Кроме параметров, перечисленных выше, фиксируется еще большое количество различных данных: размер переданного файла, промежуточные IP‑адреса, тип запроса и другие. Маркетологов эти параметры не слишком интересуют, они нужны скорее системным администраторам для контроля работы серверов и программ.

Наконец, при помощи дополнительного программного обеспечения мы можем фиксировать такие параметры, как наличие java‑script и его версии, наличие и версии flash‑модуля, разрешение экрана и другие параметры, которые также могут быть интересны, однако не важны для анализа эффективности маркетинговых действий.

 

Идентификация посетителей

 

Один и тот же пользователь может просматривать достаточно большое число страниц, запрашивать на сервере множество разных файлов, поэтому первая задача статистики – определение принадлежности различных запросов одному пользователю, или, говоря строгим языком, идентификация уникального посетителя.

Без идентификации все посещения и посетители сливаются в одну сплошную неразличимую массу, и мы уже не можем отделить поведение одного пользователя от других.

Существует четыре основных метода идентификации посетителей, которые используются в различных ситуациях для решения различных задач.

  1. ПО IP‑АДРЕСУ. Каждый компьютер в момент подключения к любой сети TCP/IP (к которым относится и Интернет) имеет уникальный и однозначный IP‑адрес, который не изменяется в течение всего времени подключения к Интернету, а для постоянного подключения вообще не меняется. Следовательно, можно однозначно идентифицировать компьютер пользователя по IP‑адресу.

Этот метод идентификации совсем не точен, поскольку несколько пользователей могут иметь один и тот же IP‑адрес, если они находятся, например, за общим proxy‑сервером. В этом случае они все будут иметь тот IP‑адрес, который подставляет им proxy‑сервер. Таких пользователей сегодня большинство – это все пользователи корпоративных сетей, большинство пользователей домашних сетей, пользователи в интернет‑кафе, институтах и т. д. Но и это еще не все: в том случае, когда пользователь выходит в сеть через коммутируемое соединение, при каждом соединении он получает новый IP‑адрес. Более того, dial‑up‑соединение может быть разорвано в процессе сессии, и оно будет восстановлено потом уже с новым уникальным IP‑адресом. Все это, конечно, уменьшает точность идентификации.

Последние годы применяется идентификация одновременно по IP‑адресу и какому‑либо еще постоянному параметру, которым может выступать User Agent или разрешение экрана. То есть пользователь идентифицируется по сочетанию двух параметров. Однако и этот метод недостаточно точен, поскольку в корпоративных сетях последнее время техника в очень большой степени унифицирована, и если в домашних сетях действительно за общим IP‑адресом скрывается «зоопарк» различных компьютеров, то в корпоративных сетях все компьютеры часто имеют одинаковую конфигурацию и одинаковый набор программного обеспечения. Расхождение числа реальных пользователей и числа пользователей, определенных по IP, тем больше, чем больше сайт. Хостов всегда меньше. Для посещаемости менее 500 человек разница несущественна.

Методика идентификации по IP‑адресу весьма грубая, несмотря на все дополнения и уточнения. Эта методика никак не позволяет идентифицировать посетителя между сессиями – при повторном посещении – и не всегда дает возможность отличить друг от друга корпоративных пользователей или пользователей в одной домашней сети. Несомненное преимущество метода: он возможен всегда, поскольку у пользователя всегда есть IP‑адрес.

  1. ПО COOKIE. В отличие от IP‑адреса, уникальные cookie записываются на каждый компьютер посетителей сайта, поэтому эта технология изначально намного точнее. В cookie‑файлы может записываться все что угодно, но обычно это уникальный идентификатор, который сохраняется и после того, как пользователь уходит с сайта и вообще отключается от Интернета. При следующем посещении сайта даже через длительный промежуток времени пользователь может быть идентифицирован повторно, то есть «узнан» сайтом. Поэтому данная методика используется сегодня чаще других.

Но и она не лишена погрешностей. Пользователи могут отключать cookie – это делают немногие, всего около 4 % всех пользователей, cookie могут стираться пользователем в результате переустановки системы или после окончания каждого сеанса связи с Интернетом, если сделаны такие предустановки на компьютере. Однако самой большой погрешностью метода является то, что он определяет не пользователей, а браузеры, за которыми работают пользователи. Если за одним компьютером работает несколько пользователей, они пользуются общей учетной записью и одним и тем же браузером, поэтому они будут считаться одним пользователем. И наоборот, человек, по каким‑то причинам использующий несколько браузеров на одном компьютере, будет считаться столько раз, сколько различных браузеров он использует.

И конечно, если в распоряжении пользователя несколько компьютеров с доступом в Интернет, то на каждом из них будут свои cookie‑файлы. Все больше и больше пользователей имеют доступ одновременно из нескольких мест, включая и сотовый телефон, который тоже умеет принимать cookies, поэтому эта погрешность наибольшая и все время возрастает. Статистика по cookies завышает число пользователей в несколько раз. Тем не менее это наиболее точная методика идентификации посетителей на сегодняшний день.

Несмотря на то что методика идентификации пользователей по cookie имеет ряд погрешностей и идентифицирует не людей, но браузеры пользователей, она намного более точна, чем методика определения по IP‑адресу, и активно используется сегодня.

  1. ПО СЕССИОННЫМ ИДЕНТИФИКАТОРАМ. При помощи несложного программного модуля можно присвоить пользователю уникальный идентификатор, который будет передаваться в адресной строке при перемещении пользователя от страницы к странице. Это выглядит как добавление к адресной строке конструкции вида?sessid=65468765213249875419876, где набор цифр – это и есть уникальный идентификатор (он может состоять из букв или быть смешанным в зависимости от используемых для этого программ). В отличие от метода идентификации по cookie, сессионный идентификатор нельзя отключить, его нельзя запретить на proxy‑сервере. Конечно, можно стереть идентификатор из адреса, но это почти исключительное событие: большинство пользователей не имеют для этого достаточных знаний. В то же время сессионные идентификаторы не сохраняются после разрыва сессии, хотя сама по себе сессия может иметь иногда неограниченную длину – до тех пор, пока не будет закрыт браузер.

Этот метод идентификации, очевидно, может быть использован только в рамках одной сессии, однако в течение сессии он точнее всех других. Основное применение сессионных идентификаторов – это сохранение параметров при переходе между страницами. Например, пользовательские запросы или настройки гораздо проще сохранить на сервере в базе данных и сопоставлять с идентификатором, чем передавать в строке, где они могут банально не поместиться.

Сессионные идентификаторы имеют два важных отрицательных качества: во‑первых, они затрудняют индексацию поисковыми машинами, вплоть до полного запрета. Дело в том, что поисковый робот не различает идентификаторы и вынужден считать каждую страницу множество раз, что замусоривает базу данных поисковой машины. Во‑вторых, на страницу с таким идентификатором часто невозможно поставить закладку или отправить кому‑либо в виде ссылки. В силу этого сфера применения сессионных идентификаторов ограничена именно решением технической задачи передачи настроек пользователя между страницами сайта и, в основном, применяется для внутренних интерфейсов систем, где не требуется ставить закладку и которые не должны индексироваться поисковыми машинами. Например, для внутренних интерфейсов банков.

  1. АВТОРИЗАЦИЯ ПОЛЬЗОВАТЕЛЯ. Единственный совершенно надежный метод идентификации пользователя – это его авторизация (ввод логина и пароля). К сожалению, далеко не всегда можно применять авторизацию, так как пользователи не любят регистрироваться и оставлять о себе какие‑то личные данные. Заставить их делать это без потерь аудитории можно лишь в редких случаях. Кроме того, даже в случае, если пользователь зарегистрировался, нередко возникает ситуация, когда он теряет логин и пароль и поэтому регистрируется заново.

 

Например, около трети покупателей интернет‑магазина «Озон» (крупнейшего сегодня в России по числу покупателей) забывают свои регистрационные данные и при следующей покупке заново регистрируются. Даже введение пластиковых карточек с данными пользователя, которые бесплатно выдавались при первой покупке, хоть и улучшило ситуацию, но не решило ее полностью. Для магазина «Озон» это критическая проблема, потому что три четверти продаж совершается постоянными покупателями, и работа с постоянными покупателями – важнейшая составляющая маркетинга компании.

 

Наконец, пользователь может просто‑напросто передать пароль (мы все это нередко делаем) своим друзьям или знакомым, чтобы они могли совершать какие‑то действия от его имени.

Таким образом, метод идентификации по регистрационным данным – наиболее точный метод определения людей (не браузеров, а именно людей). Однако он имеет узкую сферу применения в силу нежелания пользователей оставлять о себе информацию в Интернете.

Для анализа в интернет‑маркетинге используется чаще всего метод идентификации по cookies. Остальные методы применяют только в тех случаях, когда cookies недоступны. Если на сайте осуществляется авторизация пользователей, например для интернет‑сервисов или для интернет‑магазинов, то можно использовать авторизационные данные для анализа продаж.

 

Производные данные

 

Я уже упомянул выше, что, зная IP‑адреса, можно определить географическое расположение пользователя, а зная referrer – запрос, по которому пользователь нашел ссылку на наш сайт в поисковой системе. Это так называемые производные данные – они получены за счет интерпретации собираемых данных. К основным производным данным относятся: СЕССИЯ – весь процесс посещения пользователем сайта от первой просмотренной им страницы и до выхода из сайта. По определению IAB[1] сессия – это вся последовательность просмотра одним пользователем страниц сайта, при условии, что запрос каждой следующей страницы не отделяет от предыдущей более 30 мин. В случае, если интервал между запросами страниц одним пользователем превышает 30 мин., то сессия закрывается и открывается новая. Здесь есть свое разумное объяснение. Существует достаточно большое количество сайтов, на которые мы заходим несколько раз в день: почтовые серверы, поисковые системы, сайты новостей и другие, – и каждый раз это будут различные сессии. Именно поэтому IAB приняло за норму, что если человек не проявляет никакой активности на сайте в течение 30 мин, то его сессия считается законченной, а при следующем хите открывается новая сессия. Другими словами, если пользователь после перехода на очередную страницу сайта выключил браузер, то сервер, на котором расположен браузер, никак не узнает об этом, и тогда через 30 мин сессия будет закрыта;

  • ПУТЬ ПО САЙТУ – последовательная цепь страниц, просмотренных пользователем на сайте за одну сессию в том порядке, в котором они посещались. Важно, что если в промежутке между просмотром пары страниц на сайте пользователь смотрел страницы на другом сайте, то у сервера об этом нет никакой информации и он считает путь непрерывным всегда, когда сессия не прерывалась;
  • ВРЕМЯ НА САЙТЕ – время, проведенное пользователем на сайте в течение одной сессии. Время на сайте может быть измерено как промежуток времени от момента запроса первой страницы до момента запроса последней страницы сессии. Важно, что время, проведенное пользователем на странице, обычно не может быть измерено, если пользователь не перешел на следующую страницу, поскольку браузер после получения страницы не общается с сервером;
  • ГЛУБИНА ПРОСМОТРА САЙТА – число страниц на сайте, просмотренных пользователем в течение одной сессии. Если человек в течение сессии несколько раз просматривал одну и ту же страницу, то она может быть посчитана несколько раз или один в зависимости от настроек анализирующей программы. Аналогичная ситуация и с путями по сайту: если пользователь в промежутке между просмотрами двух страниц на сайте смотрел страницы на другом сайте, то у сервера нет никакой информации об этом, и система анализа будет считать глубину просмотра сайта до тех пор, пока сессия будет оставаться непрерывной;
  • ВОЗВРАТ НА САЙТ – повторное посещение сайта пользователем. Иначе говоря – вторая и любая последующая сессия на сайте. Возвраты на сайт могут быть определены только при использовании системы идентификации посетителей по cookie‑файлам или через авторизацию. Некоторые системы статистики считают возвраты по IP – это неверно даже для мелких сайтов;
  • ПОСТОЯННАЯ АУДИТОРИЯ – пользователи, которые заходят на сайт регулярно. Регулярность захода на сайт может быть определена произвольно – раз в неделю, раз в день, раз в месяц– и зависит от содержания сайта и преследуемых им целей. Как и возвраты на сайт, постоянные посетители могут быть определены только за счет использования системы идентификации посетителей по cookie‑файлам или через авторизацию; НОВАЯ АУДИТОРИЯ – пользователи, пришедшие на сайт в первый раз. Как и возвраты на сайт, новые посетители могут быть определены только при использовании системы идентификации посетителей по cookie‑файлам или через авторизацию (по отсутствию регистрационных данных или cookie‑файлов). Важно помнить, что оба метода идентификации пользователей не идеальны, поэтому новым может считаться пользователь, который уже был на сайте (но стер cookie или зарегистрировался заново). Все эти перечисленные выше термины нередко встречаются в системах анализа. Многие из них вы будете использовать в своей работе.

[1] Internet Advertising bureau – некоммерческая международная организация, занимающаяся стандартизацией интернет‑рекламы, IAB.com. Летом 2010 г. эта организация открывает свое представительство в России.

 

Добавить комментарий