Что такое Sitemap и как с ней работать 15.07.2015

Понятие Sitemap (генератор карты сайта) ассоциируется у пользователя со страничкой на сайте, показывающей посетителям структуру веб-ресурса. Однако прежде всего Sitemap – это XML-документ (XML – специальный расширяемый язык разметки для описания строения и особенностей страниц), содержащийся в корневой директории сайта и способствующий его эффективной индексации поисковыми системами (Google, Yahoo, Яндекс, Rambler, Bing и проч.). Prostobiz рассказывает, в чем его задачи и как его сделать.

Что такое Sitemap и как с ней работать

Энциклопедически

Файл Sitemap представляет собой полный список страниц сайта с указанием ряда их характеристик. Поисковым системам эта информация помогает «увидеть» все страницы сайта и не тратить время на их учет при помощи перехода по имеющимся в сети ссылкам на них. Конечно, Google или Яндекс не гарантируют при наличии Sitemap индексации всех страниц и повышения в поисковой выдаче, однако график сканирования благодаря карте сайта значительно оптимизируется, кроме того, поисковики замечают и те страницы, которые пропустили бы при стандартном сканировании.

Конечно, можно положиться на роботов, но в некоторых случаях Sitemap просто необходима – в частности, если на сайте есть динамическое содержание, в том числе мультимедийный AJAX-контент или изображения, которых Googlebot, например, просто не видит; если сайт создан недавно, а значит, на него указывает мало ссылок в сети; если на сайте помещен крупный архив страниц, почти не связанных гиперлинками.

Большинство поисковых систем руководствуются единым протоколом Sitemap, описанным на ресурсе sitemaps.org (доступна и русскоязычная версия). Таким образом, сделав единожды карту сайта согласно его стандартам, вы сможете отправить ее всем поисковикам. Последние также выйдут на вашу Sitemap, если вы укажете ее местоположение в файле robots.txt, где перечисляется, какие страницы вашего сайта доступны/недоступны для поисковых систем.

Что такое Sitemap и как с ней работать image:1

Синтаксис и индексы

Кроме предпочтительного XML в кодировке UTF-8, для Sitemap возможен также текстовый формат, а для Google подойдут и RSS, mRSS, Atom 1.0. Стандартное описание одного URL (страницы) сайта с общим (неспециальным) контентом в XML-документе выглядит следующим образом:

Что такое Sitemap и как с ней работать image:2

В XML-файле Sitemap обязательно должен описываться такой параметр, как область имен, характеризующий тип контента, ссылки на который даются в карте сайта. Он указывается сразу после тега <urlset>, открывающего документ. Если вы перечисляете обычные текстовые страницы, то область имен выглядит так: xmlns="http://www.sitemaps.org/schemas/sitemap/0.9". Для видео, мобильного контента, новостей применяются специальные обозначения.

Что такое Sitemap и как с ней работать image:3

При составлении описания URL используется ряд тегов, некоторые из которых обязательны (<urlset> – указатель стандарта протокола, <url> – родительский тег для описания каждой ссылки, <loc> – тег для указания собственно URL-адреса страницы), некоторые – факультативны. Например, <lastmod> позволяет определить дату последнего изменения страницы, <changefreq> – вероятную частоту ее изменения (ежечасно, ежедневно и т.д.), <priority> – приоритетность этой страницы по отношению к другим страницам вашего сайта. Однако эти теги не являются для поисковиков командой проверять страницы именно ежечасно/ежедневно или повышать их в поисковой выдаче.

В XML-описании специального контента (видео, мобильные приложении и проч.) применим целый ряд специфических тегов. Например, для изображений обязательными будут <image:image> (информация о картинке), <image:loc> (URL картинки), необязательными – <image:caption> (заголовок изображения), <image:geo_location> (географическое местоположение изображения), <image:title> (название изображения), <image:license> (URL лицензии изображения). Подробнее

XML-файл Sitemap может содержать не более 50 тыс. URL и не должен превышать в объеме 10 Мб. Если данных больше, следует создать несколько файлов Sitemap, перечислить их в файле индекса Sitemap и отправить поисковым системам уже последний. В robots.txt также будет добавляться в таком случае файл индекса. Он может указывать только файлы Sitemap, которые находятся на одном с ним сайте.

Что такое Sitemap и как с ней работать image:4

При указании URL используйте одинаковый синтаксис. Например, если адрес сайта указан как http://www.example.com/, в списке не должно быть URL типа http://example.com/. Для разных языковых версий применяйте разные URL и все их включайте в Sitemap. Кириллические URL читаться не будут, поэтому их необходимо кодировать.

К текстовой версии Sitemap также выдвигается ряд требований. В ней следует перечислить только все полные URL страниц сайта (при этом URL видео, изображений, прочего специального контента вставить в такой формат не удастся); следует прибегнуть к кодировке UTF-8 и расширению .txt; в файле не должно быть заголовков или какой-либо иной информации. Пример подачи URL: http://www.example.com/catalog?item=1.

Размещение, проверка, отправка

Файл Sitemap рекомендуется размещать в корневом каталоге веб-сервера. Тогда этот документ сможет описать все URL сайта. Например: http://www.example.com/sitemap.xml. Если же, например, Sitemap размещена таким образом: http://example.com/catalog/sitemap.xml, то в ней могут быть описаны лишь URL, находящиеся в разделе http://example.com/catalog. Впрочем, иногда может возникнуть необходимость писать отдельные файлы Sitemap для каталогов более низкого уровня, чем корневой (в случае ограниченного доступа к разным частям сайта).

Перед окончательным «запуском» карты сайта рекомендуется проверить его соответствие стандартам. Так, на sitemaps.org размещены схемы, позволяющие оценить правильность структуры файлов Sitemap и индекса Sitemap, а также ссылки на инструменты по работе с XML-документами. Собственный валидатор для Sitemap предлагает и Яндекс, а Google сообщает об ошибках в разделе Оптимизация – Файлы Sitemap – Данные файла Sitemap. Там же содержатся и ведомости об индексации поисковиком страниц сайта, указанных в его карте.

Что такое Sitemap и как с ней работать image:5

Отправление файла Sitemap / индекса Sitemap поисковым системам осуществляется через инструменты для веб-мастеров, имеющиеся в каждом из поисковиков. Сначала веб-мастер регистрирует свой сайт в подобных разделах (причем требуется подтвердить свои права на ресурс, разместив там, например, предложенный поисковиком HTML-файл), а затем может совершать дальнейшие оптимизационные действия, в том числе отсылать карту сайта. Так, в Google в меню Оптимизация – Файлы Sitemap раздела «Инструменты для веб-мастеров» нужно выбрать «Добавка/проверка файла Sitemap», указать пусть к файлу, предварительно размещенному на сайте, и нажать кнопку «Отправить файл Sitemap». Практически аналогична процедура и в Яндексе – в разделе Яндекс.Вебмастер необходимо указать URL карты сайта в разделе «Файлы Sitemap». При изменении карты ее нужно будет отправить повторно.

Внося Sitemap в файл robot.txt, достаточно указать полный путь к ней (или к файлу индекса Sitemap, если пришлось создавать таковой), причем отдельных требований по месту размещения в robot.txt нет – поисковик найдет карту в любой строке. Если вы не хотите, чтобы поисковики ориентировались на Sitemap, его необходимо удалить как из инструментов веб-мастера, так и из файла robot.txt.

С посторонней помощью

Создание файла Sitemap вручную – дело, требующие компетенций программиста. Зачастую при программировании веб-ресурсов пишутся специальные скрипты, генерирующие и обновляющие карту сайта. В большинстве стандартных CMS также есть модуль создания Sitemap. Можно скачать отдельную программу по подготовке таких файлов.

Наконец, существуют онлайн-генераторы sitemap’ов, в которых лишь нужно задать URL сайта и характеристики вроде частоты обновляемости страниц, затем карта сайта будет сформирована автоматически, останется лишь загрузить ее, причем возможна загрузка и HTML-варианта для пользователей. Впрочем, опытные веб-мастера не советуют особенно полагаться на онлайн-генераторы, сетуя, что они не учтут всех страниц сайта, отследив лишь присутствующую на ресурсе перелинковку. Однако в любом случае выбирать есть из чего – см. здесь.

Что такое Sitemap и как с ней работать image:6
Что такое Sitemap и как с ней работать image:7

Конечно, и без карты сайта Google (Яндекс и проч.) вас рано или поздно найдет и проиндексирует. Но оптимизацию никто не отменял. Даже наоборот.


Срочно нужны деньги?