Как системы веб-аналитики собирают данные

Существует большое количество программных продуктов, которые позволяют агрегировать и анализировать данные об активности пользователей веб-сайта. Прежде чем говорить о выборе того или иного инструмента, необходимо разобраться в методах сбора данных, их преимуществах и недостатках.





Коды учета

Данный метод основан на внедрении определенного кода в исходный текст страниц веб-сайта. Внедряемый код называется счетчиком или кодом системы веб-аналитики. При каждой загрузке страницы внедренный код формирует и передает серверу расширенную информацию о посетителе, такую как сведения о поддержке технологий Adobe Flash и Java в веб-браузере, разрешение экрана, ссылка на страницу, с которой посетитель пришел на анализируемый сайт и многое другое.

Код учета является скриптом Javascript, который выполняется в веб-браузере посетителя. В серой теории код учета может основываться на Adobe Flash или другой технологии, однако на практике для учета используется именно Javascript, который отлично поддерживается веб-браузерами (кроме браузеров некоторых мобильных устройств).

В системах, основанных на кодах учета можно выделить два типа:

1. Системы веб-аналитики

Это профессиональные инструменты, разработанные для анализа посещаемости сайта. Большинство веб-аналитических систем – это коммерческие продукты с довольно высокой стоимостью.

Примеры: Google Analytics, Omniture, Index Tools.

2. Пузомерки

К этому типу относятся счетчики рейтингов и каталогов веб-ресурсов. Пузомерки дают ограниченные сведения о посетителях, поскольку их главное назначение – не аналитика в чистом виде, а участие в рейтинге и публичное предоставление информации. Код пузомерки может отображаться на сайте в виде счетчика посещаемости.

Примеры: top.bigmir.net, catalog.i.ua, liveinternet.ru.

Идентификация посетителей в таких системах осуществляется на основании данных куки, которые передаются при запросе каждой страницы. На сегодняшний момент это наиболее точный способ отслеживания посетителей.

Поскольку код учета является небольшой программой на языке Javascript, то учет посещаемости невозможен в тех случаях, когда Javascript не работает. А не работает он в содержимом сайтов, не основанном на html. Таким образом, невозможно отследить посещения RSS-каналов, загрузку pdf- и doc-файлов.

Кроме того, необходимо помнить, что не все посетители веб-сайта – это люди из плоти и крови. Огромное количество посещений создается ботами – программами, которые индексируют выбранные страницы или весь сайт с определенной целью. Такими ботами могут быть поисковые роботы, которые индексируют содержимое страниц. Боты не интерпретируют Javascript-код, поэтому не фиксируются системами веб-аналитики. В ряде случаев полезно знать о посещении веб-сайта роботами: например, для того чтобы определить как часто поисковый бот заглядывает на сайт для индексации содержимого.

Анализаторы логов

Другой тип получения данных о посещаемости основан на анализе журнальных файлов веб-сервера. Веб-серверы по умолчанию фиксируют информацию о доступе к веб-страницам. К примеру, один из самых распространенных веб-серверов – Apache, сохраняет в своем логе следующие данные: IP-адрес посетителя, дата и время запроса страницы, адрес запрошенной страницы, адрес страницы, с которой пользователь перешел на сайт и некоторые другие данные.

Системы анализа логов определяют посетителя на основании его IP-адреса, что на самом деле не является точной идентификацией. UrchinSoftware использует для идентификации пользователя связку параметров IP-адрес + тип браузера, однако данный метод также далек от идеала, поскольку за одним IP-адресом может находиться большое количество пользователей с одинаковым типом браузера.

Еще одна проблема учета сведений о посещаемости в системах, основанных на анализе журнальных файлах, связана с кэшированием веб-страниц. В случае, когда содержимое страницы не изменилось, веб-браузер  посетителя может отобразить  страницу на основании данных локального кэша, не осуществляя ее загрузку с веб-сервера. Таким образом, посещение сайта не будет зафиксировано.

Сравнение методов использования кодов учета и анализа лог-файлов

По данным Брайана Клифтона, главы отдела веб-аналитики Google в Европе, Африке и на Среднем Востоке, для более 99% веб-сайтов используются коды учета и-или анализ лог-файлов веб-сервера. Поскольку это два наиболее распространенных метода, имеет смысл провести их сравнение.

Особенность

Коды учета

Анализаторы логов

Необходимость менять код страниц сайта, внедряя на них код учета

Да

Нет

Учет посетителей

Куки

IP-адрес (хост) или IP-адрес + тип браузера

Учет посещения с закэшированных страниц

Да

Нет

Учет посещения сайта ботами

Нет

Да

Возможность отслеживания событий веб-страницы: javascript, Flash и т.п.

Да

Нет

Ответственность за обновление программного обеспечения и хранение аналитических данных

Разработчик системы веб-аналитики

Владелец сайта

Возможность отслеживания страниц без html-содержимого (RSS, статические файлы). Отслеживание объема загруженных данных

Нет

Да

Отслеживание пользователей мобильных устройств

Нет, если мобильный браузер не поддерживает технологию Javascript

Да

Резюмируя описанные особенности, выделим основные преимущества описанных типов.

Системы, основанные на кодах учета сильны в:

  • точной идентификации посетителей,
  • возможностях отслеживания событий веб-страницы, использовании дополнительных переменных для расширенной аналитики.

В свою очередь, системы, основанные на анализе журнальных файлов веб-сервера, показывают преимущество в:

  • отслеживании загрузки RSS-лент, файлов,
  • учете сведений о посещении сайта роботами.

Эволюция систем веб-аналитики начиналась с анализаторов логов. Однако, системы основанные на кодах включения получили широкое распространения благодаря ряду преимуществ:

  • Большое количество владельцев сайтов имеют доступ только к содержимому веб-страниц и не имеют доступ к установке программного обеспечения веб-сервера и его системным файлам. Это значит, что владелец сайта может внедрить javasript-код на страницы сайта, но не может установить программное обеспечение для анализа журнальных файлов.
  • Информация о посещении сайта ботами возникает лишь в ограниченном количестве случаев.
  • Отслеживания событий веб-страницы открывает перед интернет-маркетологом  широкие возможности.

Гибридный метод

Гибридный метод основаны на совместном использовании методов кодов включения и анализа журнальных файлов.  Это позволяет получить преимущества двух типов сбора данных «в одном флаконе».

При этом максимальный эффект можно получить при использовании систем, которые по определению поддерживают гибридный метод (например, SageMetrics), однако хороших результатов можно добиться, используя связку бесплатных инструментов, например Google Analytics + Webalizer. Первый может служить основным инструментом веб-аналитики, а второй потребуется для отслеживания роботов, загрузки файлов и посещении RSS-каналов.

Другие методы

Метод прослушивания трафика.

Этот метод основан на установке дополнительного программного обеспечения, которое фиксирует все передаваемые посетителю и посетителем данные. Преимущество этого метода заключается в отсутствии необходимости модифицировать код веб-страниц.

Пример: Pion Lite от компании Atomic Lab

Дополнительные модули веб-сервера

Данный метод предполагает установку дополнительных модулей, которые осуществляют учет данных либо расширяют возможности стандартной системы журналирования посещаемости. По сути данный метод полностью аналогичен предыдущему.

Аппаратные методы

Аппаратные методы – это продолжение метода прослушивания трафика. В этом случае прослушивание доверяется отдельному устройству, которое устанавливается в одной сети с веб-сервером.

Пример: Pion Reactor Core от Atomic Labs

Внесайтовая аналитика

Внесайтовая веб-аналитика (Off-site web analytics) – это принципиально иной метод изучения посетителей, который основан на изучении потенциальной аудитории веб-сайта, сборе мнений посетителей о торговой марке, анализе результатов внесайтовой оптимизации.

Заключение

Большая часть материалов по веб-аналитике относится к системам, основанным на кодах учета. Системы, использующие логи веб-сервера в качестве источника данных, постепенно забываются. Несмотря на доминацию систем первого типа важно помнить обо всех способах сбора данных, которые могут сыграть свою роль при решении специальных задач.





Автор: Андрей Астахов

Забавное видео

Этот 5-ти летний малыш удивит вас своими баскетбольными навыками!


Нужны деньги до зарплаты?

более 30 сервисов

Кредиты онлайн на карту за 15 минут

от 0,01%

ставка

до 180 дней

макс срок

до 20 000 грн.

макс сумма