sonyps4.ru

Что значит файл sitemap недоступен. Файлы Sitemap

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подписаться

Предположим у вас есть сайт, забитый уникальным контентом, на котором проведена SEO оптимизация и сидите вы, потирая ладошки в ожидании, когда же ваше детище начнет посещаться поисковым роботом, индексироваться и приносить заветный трафик. Идет время, а результат ваших стараний не особо-то и виден. В чем же дело? Возможно, что-то все же было упущено из виду, что-то да забылось в погоне за ништяками. Предположим, что сайт по-прежнему уникальный и оптимизаторы из вас хоть куда. Тогда нужно разбираться, почему поисковик так неохотно вас посещает и по какой причине все происходит так медленно.

Каждый web-проект должен иметь два важных, а может и основных файла: это роботс (robots.txt) и карта сайта (). Если какой-то из них отсутствует или неверно заполнен, велика вероятность, что ресурс не даст того результата, на который вы рассчитывали. Ведь у поисковых ботов есть заданные ограничения как по времени нахождения на ресурсе, так и по количеству документов, которые они могут проверить и занести в базу. А это все к тому, что если вами не были заданы пути перемещения для поискового робота, то он может добраться до контента очень нескоро, перед этим побродив в файлах движка.

Чтобы избежать подобной неразберихи, в файле роботс мы говорим, на что ботам не стоит тратить время, а с помощью карты сайта, наоборот, подсказываем куда следует заглянуть и где побродить.

Предположим, что у нас все срослось и поисковики начали индексировать наш проект, а вот отсутствие второго может затянуть достижение поставленных целей. А теперь подробнее про создание sitemap.

XML и HTML версии карты сайта

Sitemap.html выступает в роли навигации для гостей нашего ресурса, которая помогает понять структуру сайта и найти интересующий их раздел.

Sitemap.xml подсказывает и помогает поисковым ботам обнаружить и начать индексировать страницы нашего проекта. Если мы имеем большой уровень вложенности и многочисленное количество веб-страниц на сайте, XML гарантирует, что боты не упустят из вида, то что нужно проиндексировать. Как приятный бонус мы получаем плюсик к карме в виде увеличения доверия к ресурсу со стороны поисковиков.

Положительные стороны присутствия sitemap. xml на сайте

  • ускоренное индексирование недавно созданных страниц;
  • стопроцентная вероятность того что поисковик отыщет необходимые страницы;
  • возможность указать приоритеты при проверке, частоту и дату последнего обновления страницы;
  • немного увеличивается доверие к ресурсу.

Важно!

  • используйте для карты сайта кодировку UTF-8 ;
  • вес файла должен быть не более 10 MB и его содержание не должно быть больше 50 тысяч URL .

Как создать и добавить sitemap. xml на сайт

Берем любой текстовый редактор, например Notepad++, и начинаем творить.

Первым блоком идет стандартная часть, в которой мы указываем:

http://Наш сайт.ru/ 2016-05-23T23:45:36+00:00 daily 1.0

Значения тегов:

  • «loc» - в него мы заключили адрес страницы нашего сайта, которую в скором времени должны проиндексировать поисковые роботы;
  • «lastmod» - отображается последняя дата обновления страницы указанной в первом теге;
  • «changefreq» - показывает как часто будет обновляться контент (в нашем случае каждый день);
  • «priority» - задает приоритетность к индексации страницы (от 0 до 1)

Сохраняем получившийся файлик в формате XML и помещаем его в . Далее указываем путь к нему в robots. txt прописывая данную строчку:

http://Наш сайт/sitemap.xml

Либо мы можем использовать один из онлайн-генераторов. Например, , который рассчитан на создание не больше чем 500 страниц. Но зачастую больше и не надо, поэтому работаем с ним.

В первую строку вписываем полный URL нашего сайта с http://Наш сайт.

Вторая строка, которая называется « Change frequency», показывает поисковым роботам, как часто будут обновляться веб-страницы. Можем выбрать: never, weekly, daily, hourly, monthly, yearly.

Третья строка « Last modification » показывает, когда последний раз обновлялась страница, можем выбрать либо дату когда мы решили создать карту сайта, либо выбрать « Use server’s response » - тогда генератор автоматически внесет дату последнего изменения.

И четвертая строка « Priority», как мы уже ранее обсуждали позволяет выбрать приоритет к индексации, выбираем « Automatically Calculated Priority ».

Нажимаем кнопку «Start» и ждем когда сгенерируется карта сайта в формате XML , после опять проделываем манипуляции с помещением в корень и указания пути в robots.txt.

Как сообщить о файле sitemap после создания Google и Яндекс

Заходим в Вебмастер и действуем следующим образом.

Выбираем проверку карты сайта:

И задаем путь к нашему файлу sitemap.

Проверяем что получилось:

Убеждаемся, что все в порядке и отправляемся на поклон к Google.

Для того чтобы попасть в Search Console Гугл, в которой, собственно, и можно сообщить о нашей карте, переходим

Обновляем страницу - перед нами результат проверки и если в колонке «Проблемы» стоит прочерк, значит, мы все сделали правильно.

Подведем итоги

Создать и разместить файл sitemap. xml на ресурсе по факту минутное дело, для этого можно использовать любой текстовый редактор или онлайн-генератор. Если у вас есть карта сайта на своем ресурсе вы ускоряете и упрощаете жизнь поисковому роботу, который следует по указанному пути и индексирует нужные страницы. Это значит, что результат вашей работы по оптимизации имеет шанс быстрее стать заметным. Но важно не забывать про карту сайта и периодически ее обновлять, т.к. страница может перестать участвовать в продвижении, а боты будут продолжать ее посещать, что отразится на позициях. Также наш XML-проводник может служить помощником не только роботам, но и воришкам контента, ведь в sitemap мы указываем нужные нам документы, что значительно упрощает жизнь копипастерам. Поэтому рекомендуем периодически проверять контент вашего ресурса на уникальность. Соблюдая эти правила вы повышаете доверие поисковых систем Google и Яндекс к своему ресурсу.

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подписаться

Карта сайта Sitemap XML

Карта сайта (Sitemap) – это специальный файл в формате.xml, хранящийся в корневой директории сервера. Владельцы сайтов нередко интересуются – зачем нужен Sitemap и влияет ли наличие/отсутствие этого документа на поисковое продвижение? Чтобы ответить на эти вопросы, рассмотрим назначение и структуру карты сайта.

Итак, зачем нужен xml Sitemap, что он собой представляет? Карта сайта – это своеобразный каталог, состоящий из перечня ссылок, ведущих на все разделы и страницы сайта. Файл Sitemap помогает поисковым системам более быстро и качественно индексировать интернет проект. Это особенно важно в том случае, если объем web-ресурса исчисляется тысячами или десятками тысяч страниц.

Больше видео на нашем канале - изучайте интернет-маркетинг с SEMANTICA

Это важно! В карту сайта следует включать только те страницы, которые должны быть в поисковом индексе. Документы с запрещенной к индексированию или служебной информацией не следует вносить в Sitemap. В карту сайта также не включают страницы с тегами и динамические URL-адреса.

Влияет ли Sitemap на продвижение?

Поисковики не будут пессимизировать интернет проект за отсутствие этого файла. Теоретически, робот должен самостоятельно просканировать все страницы сайта и включить их в поиск. Однако нужно учитывать, что система может дать сбой и не найти некоторые web-документы. Обычно «проблемными местами» становятся разделы, в которые можно попасть только по длинной цепочке ссылок, и динамически создаваемые URLы.

С точки зрения SEO, Sitemap имеет определенное влияние, поскольку карта сайта значительно ускоряет индексацию. К тому же повышается вероятность, что web-страницы попадут в индекс до того, как недобросовестные конкуренты успеют скопировать и опубликовать контент. Поисковые системы отдают предпочтение первоисточнику, тогда как копипаст подвергается пессимизации.

Как создать сайт мап

Проще всего воспользоваться одним из специализированных сервисов. К примеру, online-генератор http://www.mysitemapgenerator.com/ позволяет бесплатно сделать карту сайта, размером до 500 страниц. Предусмотрена возможность платной генерации Sitemap без каких либо ограничений. Вебмастеру потребуется всего лишь указать адрес своего сайта, а затем поместить полученный файл в корневой папке сервера.

Можно воспользоваться программой SiteMap Generator. В поле http:// следует завести адрес стартовой страницы сайта, кликнуть по клавише «start» и подождать, пока будет сформирована карта сайта. Затем нужно перейти на вкладку «Google Sitemap/XML», скопировать полученный код и вставить его в файл формата.xml.

Файл sitemap xml – доступные директивы

  • Параметр Lastmod указывает роботу, когда документ последний раз обновлялся.
  • Тег priory указывает на приоритет документа, по отношению к другим страницам сайта.
  • Параметром loc обозначают URL адрес страницы.
  • Тег changefreq используется для обозначения динамичности страниц (документы с параметром «0» робот будет посещать очень редко).

Как сообщить поисковику о карте сайта

Чтобы оповестить Яндекс, можно добавить директиву sitemap в файл robots.txt. Код будет выглядеть следующим образом:

Sitemap: http://yoursite.ru/sitemap.xml

Кроме того, можно передать карту сайта через интерфейс Яндекс.Вебмастер. Для этого нужно перейти на вкладку «Настройка индексирования» >> «файлы Sitemap», а затем указать системе адрес карты сайта.

Аналогичным образом можно оповестить Google. В панели инструментов для вебмастеров нужно перейти на вкладку «Сканирование» >> «файлы Sitemap».

Рассказать о статье:

Получите профессиональный взгляд со стороны на свой проект

Специалисты студии SEMANTICA проведут комплексный анализ сайта по следующему плану:

– Технический аудит.
– Оптимизация.
– Коммерческие факторы.
– Внешние факторы.

Мы не просто говорим, в чем проблемы. Мы помогаем их решить

09.06.2016 19983

Наличие xml карты сайта (sitemap xml) на сервере - стратегически важно для оптимизации. Карта хранит в себе структуру актуальных страниц вашего ресурса и служит для того, чтобы поисковые роботы быстрее ориентировались по сайту, а ваши страницы быстрее индексировались. Иными словами: карта сайта указывает поисковым роботам кратчайший путь к страницам. Вот такая карусель. Что конкретно находится в карте сайта? Файл sitemap. xml содержит не только url страниц,…

01.03.2012, 14:41

Товарищи!
Мне генератор сайтмэпа выдал файлик, куда вписал и site.com/ и site.com/index.html.
Естественно, это одна и та же страница.
Как лучше сделать для гугла? Оставить обе строчки или какую-то из них кастрировать? Если кастрировать, то какую?

01.03.2012, 14:55

site.com/ главная
дубль site.com/index.html, можете делать редирект на главную или rel="canonical"

01.03.2012, 15:28

А зачем вообще в карте сайта корневая страница? Вы думаете он сайтмап проиндексирует а на главную не заглянет? :)
Толку от sitemap нет. Он служит лишь для сообщения поисковику о наличии страницы и нужен лишь в тех случаях, если на какую-то страницу нельзя добраться внутренними ссылками.

богоносец

01.03.2012, 17:44

Вообще, идиотизм встречается и на сайтах (http://www.google.com/search?q=site:romip.ru+inurl:index.html), где специалистами являются все - по определению. И даже на мегапроектах (http://www.google.com/search?q=site:yandex.ru/index.html).

01.03.2012, 18:38

Толку от sitemap нет

02.03.2012, 00:11

Рискну выразить мнение, что можно ускорить индексацию новых страниц Гуглом.
При обновлении sitemap в вебмастере Гугл, бот сразу же его забирает, я проверял в логах сервера.
Новую страничку добавил в sitemap, обновил его в WMT, на следующий день страничка уже в индексе.
А через 2 месяца половины страниц в индексе уже нет. Так?))

богоносец

02.03.2012, 01:22

Естественно, это одна и та же страница.
Это разные... зеркала типа... и даже если вы не внесёте в сайтмап /index.html его вам могут проиндексить... и надо всячески этому препятствовать.

02.03.2012, 08:42

и даже если вы не внесёте в сайтмап /index.html его вам могут проиндексить
Если убрать со всех страниц index.html, и на неё нет внешних ссылок, то поисковики её уберут из индекса.
У меня была такая ситуация. Со всех страниц на главную ставил короткую ссылку index.html. А внешние были в формате http://хххххххх.ru/. Обе были в индексе. И http://хххххххх.ru/, и http://хххххххх.ru/index.html
Проставил на всех внутренних страницах http://хххххххх.ru/ и через несколько апдейтов http://хххххххх.ru/index.html не стало в поиске и у Яндекса и у Гугла.

Добавлено 02.03.2012 в 09:49 ----------

С помощью robots.txt?
Нет. Надо просто у себя на всех страницах, где проставлена index.html заменить на http://хххххххх.ru/. Вроде такие ссылки называют абсолютными.
А короткие внутренние - относительными.
Но боюсь опять будут укорять меня за внедрение новых терминов.....)))
И нигде не надо ставить http://хххххххх.ru/index.html

Бизнесмен:)

02.03.2012, 09:20

Если убрать со всех страниц index.html, и на неё нет внешних ссылок, то поисковики её уберут из индекса....

Согласен, есть такой же опыт. только в роботсе на всякий тоже можно закрыть;)

02.03.2012, 11:16

Рискну выразить мнение, что можно ускорить индексацию новых страниц Гуглом.
При обновлении sitemap в вебмастере Гугл, бот сразу же его забирает, я проверял в логах сервера.
Новую страничку добавил в sitemap, обновил его в WMT, на следующий день страничка уже в индексе.

Для этой цели можно использовать RSS фид и пинг

богоносец

02.03.2012, 13:56

С помощью robots.txt?
Как вам удобнее.

Http://www.bdbd.ru/index.php
http://www.bdbd.ru/index.html
должны отвечать 301

Http://www.unmedia.ru/index.html
Данные запроса
GET /index.html HTTP/1.1
User-Agent: Opera/9.80 (Windows NT 5.1; U; ru) Presto/2.10.229 Version/11.61
Host: www.unmedia.ru
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Language: ru-RU,ru;q=0.9,en;q=0.8
Accept-Encoding: gzip, deflate
Cookie: PHPSESSID=cc2a67ae9b5ae208cd2b96470619d10b; BITRIX_SM_GUEST_ID=100454; BITRIX_SM_LAST_VISIT=02.03.2012+14%3A53%3A27
Connection: Keep-Alive
Тело запроса

Данные ответа
HTTP/1.1 301 Moved Permanently
Server: nginx/0.6.32
Date: Fri, 02 Mar 2012 10:53:45 GMT
Content-Type: text/html; charset=iso-8859-1
Connection: keep-alive
Location: http://www.unmedia.ru/

Если убрать со всех страниц index.html, и на неё нет внешних ссылок
То в индексе могут (http://www.google.com/search?q=site:yandex.ru/index.html) ещё остаться (http://www.google.com/search?q=site:platon.ya.ru+%D0%B1%D0%BE%D1%82) ...

Файл sitemap.xml, так же, как и обычная карта сайта представляет из себя набор страниц, оформленных в XML-теги. С помощью данного файла, поисковые системы понимают, какие страницы вашего сайта следует индексировать в первую очередь.

Карта сайта в формате XML:

У каждого варианта есть свои плюсы и минусы. Ключевое преимущество карты сайта в формате XML - исключение возможности размытия статического веса страниц внутри сайта.

В этой статье я расскажу вам как составить корректный файл Sitemap.xml.

Если вы уже знаете все про составление Sitemap, сразу переходите к последней главе, которая называется «Фишки».

1. Директивы файла sitemap.xml

Существуют 3 обязательных директивы, которые должны быть заполнены в любом случае, это теги:

А также 3 необязательных тега:

Вот памятка по расшифровке каждого тега из официального сайта http://www.sitemaps.org/ru/protocol.html :

Атрибут

Статус

Описание

обязательный

Инкапсулирует этот файл и указывает стандарт текущего протокола.

обязательный

Родительский тег для каждого URL-адреса. Остальные теги подчинены этому тегу.

обязательный

Сам URL-адрес страницы. Всегда начинается с префикса (например, HTTP) и заканчиваться косой чертой (если сервер вашего сайта требует этого).

Внимание: длина URL-адреса не должна превышать 2048 символов.

необязательный

Дата последнего изменения файла. Указывается строго в формате W3C Datetime. Он позволяет при необходимости не учитывать сегмент времени и использовать формат ГГГГ-ММ-ДД.

необязательный

Позволяет указать как часто меняется информация на странице.

Это значение устанавливается приблизительно.

Допустимые значения:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

Если страница изменяется каждый раз, когда ее открывают - используем значение «always» (всегда). Если это архивная страница - ставьте never (никогда).

Учтите, что этот атрибут служит для поискового робота подсказкой, а не правилом. Поэтому зависимости между ним и реальной частотой посещения страницы поисковым роботом нелинейная.

необязательный

Позволяет указать приоритет одних страниц вашего сайта перед другими.

Диапазон значений - от 0,0 до 1,0.

По умолчанию каждой странице отдается приоритет 0,5.

Значение атрибута работает для сравнения приоритета страниц только внутри вашего сайта. То есть оно не влияет на сравнение вашего сайта с сайтами конкурентами в поисковой сети. Более того, выставлять всем страницам максимальный приоритет тоже бессмысленно. Потому что тогда значения будут одинаковыми для робота и атрибут просто не сработает. Так что не ищите лазеек, а указывайте объективные приоритеты для страниц.

Сохраните эту памятку. Она обязательно пригодится вам в первое время. Стоит отметить еще один плюс XML-карты сайта – это гибкость. Гибкость заключается в сочетании разных необязательных директив.

Теперь, когда у вас есть ясность, что такое XML-карта сайта и вы узнали основные директивы этого файла, можно перейти к его составлению.

2. Составление файла sitemap.xml

Составлять карту сайта можно 3 способами:

  • Вручную;
  • Автоматически, с помощью специальных сервисов;
  • Автоматически, с помощью готовых решений в виде плагинов к CMS и т.п.

Процесс приготовления карты сайта следующий:

  • Составляем карту сайта одним из способов, перечисленных выше;
  • Проверяем на валидность с помощью сервисов поисковых систем (https://webmaster.yandex.ru/sitemaptest.xml);
  • Размещаем файл на сайте;
  • Указываем путь к карте сайта для поисковых роботов в файле robots.txt (Кстати, есть отдельная статья о том, );
  • Указываем Sitemap в панели вебмастеров Яндекс и Google.

Итак, как составлять файл карты сайта?

Разберем пример составления файла вручную. Если вы хотите добавить в карту сайта 5 страниц вашего сайта:

Вот так должна выглядеть карта сайта в формате XML:

Приведенный выше код, указывает поисковой системе, что страница http://site.ru/

в последний раз изменилась 1 января 2005 года. Обновляется с частотой раз в месяц. И приоритет у данной страницы 0.8 (максимально возможный 1).

Особенно удобен функционал подсветки парных тегов.

Сервисы для генерации Sitemap

В случае, если на вашем сайте много полезных страниц и вы не хотите тратить время на составление файла вручную, то вам помогут следующие сервисы:

Таких сервисов много. Я использую https://www.xml-sitemaps.com/ .

Поясню вкратце все настройки:

Поисковая система Google рекомендует использовать https://code.google.com/archive/p/sitemap-generators/wikis/SitemapGenerators.wiki

Плагины для CMS

Существует огромное количество плагинов и готовых решений для систем управления сайтов. Например:

Плагин

Валидность

После составления карты сайта нужно проверить ее на наличие ошибок. Для проверки используйте сервис https://webmaster.yandex.ru/sitemaptest.xml

После успешной проверки заливаем наш файл на сайт.

Расположение файла

В отличие от файла robots.txt, файл sitemap.xml может располагаться в любом месте вашего сайта. Например, в корневой папке сайта файл будет доступен по следующему адресу:

Если вы разместили файл в папке /files/, то он будет доступен по такому адресу:

После успешной загрузки файла, обязательно укажите поисковым роботам как найти этот файл. Делается это очень просто. В файле robots.txt () в директиве Sitemap пропишите полный адрес к файлу. Например, файл robots.txt может выглядеть следующим образом:

Важно! В отличии от robots.txt файлов Sitemap может быть несколько. В таком случае необходимо указывать в robots и вебмастерах полный адрес ко всем файлам Sitemap.

Search Console и панель Яндекс.Вебмастера

Остался последний этап. Указать путь к карте сайта в панелях вебмастеров поисковых систем.

  • Настройка индексирования
  • Файлы Sitemap
  • «Проверить» и «Добавить»

Следует отметить ограничения в XML-карте сайта:

  • В одном файле можно указать не более 50000 URL-адресов
  • Вес файла не более 10 мегабайт (поисковые системы не индексируют документы, превышающие размер в 10 мегабайт). При необходимости файл можно сжать с помощью архиватора.gzip.
  • Кодировка файла только в UTF-8

На этом основные этапы завершены. Следуйте всем описанным простым правилам и ошибок у вас не будет. Вторая часть статьи посвящена более детальной настройке, тонкостям и особенностям sitemap.xml эти знания потребуются вам для составления профессиональной карты сайта для интернет-магазинов.

3. Группировка файлов Sitemap

В случае превышения лимита в 50000 URL-адресов, нужно использовать вложенную структуру и создать группу из нескольких Sitemap. То есть создавать карты сайта в карте сайта!

Для обычного сайта (не крупного портала или интернет-магазина) такой объем страниц редкость, поэтому группировку Sitemap большинство SEO-специалистов используют для удобства, например, для группировки страниц товаров или разделов.

Синтаксис выглядит следующим образом:

http://site.ru/sitemap1.xml.gz

2004-10-01T18:23:17+00:00

http://site.ru/sitemap2.xml.gz

Определение XML-тегов:

Атрибут


Описание

обязательный

Инкапсулирует информацию о всех файлах Sitemap в этом файле.

обязательный

Инкапсулирует информацию об отдельном файле Sitemap.

обязательный

Указывает местоположение файла Sitemap.

необязательно

Указывает время изменения соответствующего файла Sitemap. Робот использует эту информацию, чтобы понять в каких файлах Sitemap произошли изменения. Косвенно, этот тег позволяет роботу быстрее обнаружить новые страницы сайта.

Таким образом составляется сгруппированная карта сайта. Все остальные процедуры те же, что описаны выше. Не забываем указывать в файле robots.txt, в директиве Sitemap, корректную ссылку на ваш файл.

4. Исследование

В конце 2014 года я провел небольшое исследование по анализу эффективности наличия на сайте файла sitemap.xml.

Наблюдалась проблема индексации товарной группы на сайте интернет-магазина (товаров порядка 10000). При этом, ничего не препятствовало их индексации. Был составлен файл карты сайта, состоящий только из ссылок на товары сайта. Карта сайта обновлялась автоматически. За 2 месяца в индексную базу поисковой системы Яндекс попало более 70% URL-адресов. Большая доля страниц, попавших в индекс, это страницы из карты сайта. Отмечу, что в данный период не проводились другие мероприятия по ускорению индексации сайта (например, простановка ссылок).

Вот сами результаты:

Вывод: карта сайта до сих пор влияет на индексацию вашего сайта. Необходимо регулярно обновлять и актуализировать данный файл.

5. Фишки

Чтобы статья не получилась скучной для опытных SEO-специалистов, предлагаю вам ознакомиться со следующими «фишками».

Картиночный сайтмап

Для привлечения дополнительного трафика из поисковых систем (возможно не совсем конверсионного) вы можете составить дополнительный Sitemap для картинок.

Синтаксис для картиночной карты сайта выглядит так:

xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">

http://example.com/primer.html

http://example.com/kartinka.jpg

http://example.com/photo.jpg

Памятка по XML-тегам:

Обязательно?

Описание

Содержит всю информацию об одном изображении. Каждый URL (тег) может включать до 1000 тегов.

URL изображения.

В отдельных случаях домен URL изображения может отличаться от домена, используемого основным сайтом. Если оба домена подтверждены в Search Console, проблем при этом не возникнет. Но если картинки размещены с помощью системы управления контентом, например, сервиса Google Сайты, вам необходимо подтвердить сайт хостинга в Search Console. Кроме того, файл robots.txt не должен запрещать сканирование содержания, которое необходимо индексировать.

Подпись к изображению.

Место съемки. Например, Поронайск, о. Сахалин.

Название изображения.

URL лицензии изображения.

Лайфхак для тех, кто дочитал

Многие SEO-специалисты генерируют файлы Sitemap один раз на старте проекта. Дальше про карту сайта забывают. Проиндексировались страницы - хорошо. Нет - а что поделать?! Новые страницы вообще забывают вносить в sitemap.

В ходе своего исследования я выяснил, что наиболее удобным способом решения этой проблемы является отдельный файл sitemap.xml, в котором будут только те страницы сайта, которые еще не попали в индекс.

И именно это позволило вогнать в индекс Яндекса более 70% новых URL-адресов.

Sitemap позволяет владельцам сайтов и веб-мастерам сообщить поисковым системам о структуре сайта и обновлении контента на его страницах. Таким образом при правильном использовании sitemap можно добиться лучшего индексирования страниц веб-ресурса поисковыми системами. Соответственно, при неправильном использовании данной технологии можно навредить самому себе (точнее своему интернет детищу).

В этой статье я хочу коротко рассказать вам о Google Sitemap, предоставить программный код на Java для простой генерации sitemap.xml, ну и открыть некоторые нюансы обнаруженные моим другом и мной, и о которых, как мне кажется, многие не знают.

Sitemap состоит из набора блоков, каждый из которых описывает одну страницу сайта и предоставляет некоторую информацию о динамике ее обновления. Вот небольшой пример sitemap.xml, сгенерированный с помощью программы на java, которую я предоставлю ниже:

http://www.javenue.info/post/20 weekly 0.5 2009-02-20T15:32:20+02:00 http://www.javenue.info/post/73 daily 0.3 http://www.javenue.info/post/2 weekly 0.5

Расскажу о каждом элементе входящем в блок url:

1. loc - собственно URL страницы

2. changefreq - как часто данная страница может изменяться. Возможные значения - always, hourly, daily, weekly, monthly, yearly, never. Судя по всему, данный параметр еще используется поисковиками, для того чтобы вычислить приблизительную дату следующего захода на страницу.

3. priority - приоритет страницы, помогает поисковому спайдеру определить, какие из страниц более приоритетные для краулинга по вашему мнению. Так как обычно количетсов страниц, которые скачает краулер ограничено, данный параметр может оказаться очень полезным для сайтов, где контент меняется очень часто. На выдачу поисковиков данный параметр не влияет.

4. lastmod - время последнего обновления конетнта страницы. Для сайтов со статическим контентом можно не использовать lastmod, changfreq будет более чем достаточно.

Ну а вот ужасная вещь: практически во всех статьях, которые я читал о google sitemap и о генерации сайтмеп, есть очень подозрительная вещь:

2009-02-20

Здесь не указано время обновления страницы. Google конечно понимает разные форматы дат, но давайте рассмотрим такой случай:

1. вы обновили страничку, например 2009-02-20.

2. crawler заходит на сайт, скачиавет страничку. Скорее всего он помечает, что заходил на эту страницу 2009-02-20.

3. В этот же день вы находите ужасные недочеты в контенте страницы и полностью переделываете ее. После изменений дата lastmod все равно остается 2009-02-20.

4. в следующий раз spider скачивает sitemap.xml и видит, что та самая страничка последний раз менялась 2009-02-20. Но в этот день гугл уже якобы скчивал страницу. А значит нет смысла заново ее загружать. Таким образом гугл никогда не узнает о ваших изменениях, если конечно вы еще раз не обновите lastmod.

Ну а вот и обещаный программный код для генерации sitemap:

Public class GoogleSitemap { private String publicUrl; private List urls = new ArrayList(); public String getPublicUrl() { return publicUrl; } public void setPublicUrl(String publicUrl) { this.publicUrl = publicUrl; } public List getUrls() { return new ArrayList(urls); } public Url addUrl(Url url) { urls.add(url); return url; } public void removeUrl(Url url) { urls.remove(url); } private String w3cDateTime(Date date) { SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"T"HH:mm:ssZ"); String formated = df.format(date); return formated.substring(0, 22) + ":" + formated.substring(22); } public void write(Writer writer) { PrintWriter xml = new PrintWriter(writer); xml.println(""); xml.println(""); for (Url url: urls) { xml.println(""); xml.println("" + (publicUrl == null ? "" : publicUrl) + url.loc + ""); xml.println("" + url.changefreq.name().toLowerCase() + ""); xml.println("" + url.priority + ""); if (url.lastModified != null) xml.println("" + w3cDateTime(url.lastModified) + ""); xml.println(""); } xml.println(""); xml.flush(); } public static class Url { private String loc; private float priority = 0.5f; private Changefreq changefreq = Changefreq.WEEKLY; private Date lastModified = null; public Url(String loc) { this.loc = loc; } public Url(String loc, Changefreq changefreq) { this.loc = loc; this.changefreq = changefreq; } public Url(String loc, Changefreq changefreq, float priority) { this.loc = loc; this.changefreq = changefreq; this.priority = priority; } public String getLoc() { return loc; } public void setLoc(String loc) { this.loc = loc; } public float getPriority() { return priority; } public void setPriority(float priority) { this.priority = priority; } public Changefreq getChangefreq() { return changefreq; } public void setChangefreq(Changefreq changefreq) { this.changefreq = changefreq; } public Date getLastModified() { return lastModified; } public void setLastModified(Date lastModified) { this.lastModified = lastModified; } } public static enum Changefreq { ALWAYS, HOURLY, DAILY, WEEKLY, MONTHLY, YEARLY, NEVER } public static void main(String args) throws IOException { GoogleSitemap sitemap = new GoogleSitemap(); sitemap.setPublicUrl("http://www..setLastModified(new Date()); sitemap.addUrl(url1); sitemap.addUrl(new Url("/post/73", Changefreq.DAILY, 0.3f)); sitemap.addUrl(new Url("/post/2", Changefreq.WEEKLY)); sitemap.write(new PrintWriter(System.out)); } }

Если вы спросите, что такое

Formated.substring(0, 22) + ":" + formated.substring(22);

Так вот, это небольшой хак. Дело в том, что по стандарту w3c в таймзоне должно присутствовать двоеточие, а Z для таймзоны в SimpleDateFormat двоеточие не ставит.

Надеюсь, статья была вам интересна и информация из статьи когда-нибудь вам пригодится. Всего вам хорошего.



Загрузка...