Дублирование контента. Похожие (дублированные) страницы

Дублированный контент ухудшает индексацию сайта

«Разные дороги ведут в разные места, и только одно из них — правильное»

Здравствуйте друзья! Эту тему я давно собирался раскрыть на страницах своего сайта, поэтому, изучив достаточно много материала по дублированию контента и его причинах, последствиях и способах устранения этого негативного явления, решил изложить свои мысли по данной проблеме на своем скромном ресурсе.

Запаситесь терпением и тщательно изучите все излагаемые рекомендации статьи, а затем проверьте состояние ваших ресурсов. Если хотите видеть отличное ранжирование страниц своих сайтов в поисковых системах — неукоснительно их выполняйте.

Не претендуя на все возможные способы устранения причин дублирования контента, я, тем не менее, предложу изучить наиболее важные моменты этого вопроса.

Если обычный пользователь (а иногда и сам вебмастер) может не заметить дублированный контент сайте, то поисковики это сразу определят. Их реакция будет однозначной: контент с этих страниц перестанет быть уникальным . А это уже есть нехорошо, так как негативно скажется на их ранжировании.

Кроме того, дублирование размывает ссылочный вес, на определенную запись, которую, оптимизируя, вы пытались продвинуть в ТОП, как целевую страницу. Дубли просто сгубят все попытки ее оптимизации, а эффект перелинковки будет минимальным.

Что такое дубликаты контента?

1.Контент, скопированный кем-то или лично вами и размещенный на сторонних ресурсах.

О том как бороться с ворованным контентом, можно прочитать множество статей в интернете, как один из вариантов — моя статья. Можно ли истребить — вопрос риторический и на сегодняшний день, на мой взгляд, кардинальных решений данной проблемы в интернете нет. Есть только несколько более-менее действенных приемов.

2. Контент -дубликат, который создает собственными руками вебмастер.

Полный (или неполный) дубликат при распространении информации(или как еще их называют — анонсов) на специальных сайтах и форумах. Желаете получить дубликат вашей записи в интернете — продублируйте его на каком-либо приличном ресурсе — результат, почти всегда, будет незамедлительным. Дубликат возможен непосредственно на страницах сайта. Случалось ли вам видеть две одинаковые страницы на своем ресурсе, когда вы создавали лишь одну? Почему так происходит? Причины в редактировании записей или сохранении неоконченных в черновиках, а затем, по неосторожности, создание дубликата. Вебмастер, сам того не замечая и в дальнейшем не просмотрев все свои записи, что бы не обнаружить дубликат, живет себе припеваючи, не подозревая, что у него появились «двойняшки», «тройняшки» и т.п.

3. Дублирование по техническим причинам — возникновение дублей, в которых виноваты CMS.

Эти ошибки появляются от того, что разработчики CMS думают не как браузеры или поисковые пауки, а думают как и подобает разработчикам движков к сайтам; грешат этим многие — Joomla, например.

Немного поясню. Предположим, что вас есть статья с ключевой фразой «дублирование контента» . Она должна располагаться на странице с таким адресом:, http://домен.ru/дублирование контента/ , но тот же контент может отображаться, например, вот так: http://домен.ru/article-category/дублирование контента/ . А если еще учесть другое дублирование, страницы , например: http://домен.ru/дублирование контента/?source=rss . Все эти урлы — разные адреса для любой , но один и тот же для пользователя(читателя). Эти различия позволяют вебмастеру проследить откуда пришел пользователь, но они могут и навредить, если не сделать нужных настроек индексирования.

Сайты, как известно, работают благодаря существующей системе базы данных. В базе существует единственная версия определенной статьи(ID), а вот скрипты сайта позволяют выводить эту статью из базы данных на разных страницах(URL) . Но для поисковиков нужен документ(URL) — только он является уникальным индефикатором и больше ничего!

4. Нечеткие дубли.

Особый вид дублирования, который встречается в основном на интернет-магазинах, где где страницы с карточками товаров отличаются лишь несколькими предложениями с описанием, а весь остальной контент, состоящий из сквозных блоков и прочих элементов, одинаковый. Трудно винить вебмастера, хотя и тут есть некоторые варианты их устранения.

Итак, мы разобрались с причинами и последствиями дублирования контента. Теперь перейдем к решению проблем. Прежде всего, выясним

Как обнаружить страницы-копии?

1. Ручной способ.

1) Если ваш контент не слишком велик, просто пролистайте в админпанели страничку «Все записи » и, при обнаружении дубликатов, удалите лишние.

2) Для выяснения наличия дублей, можно воспользоваться сервисами поисковых систем «Яндекс-вебмастер» или Google Webmaster Tools.

Например, в Webmaster Tools откройте страницу «Инструменты для вебмастеров» — «Оптимизация» — «Оптимизация HTML» : если есть ошибки и дубликаты, мастер все вам покажет. Разбирайтесь кликами, устраняйте ошибки и дубли, заодно.

3) Воспользуйтесь непосредственно окнами поиска систем (приблизительный метод). Введите для каждой из них запись вида site: домен.ru и сравните их результаты. Если они не очень сильно отличаются, значит с дублированием у вас не все так уж плохо.

4) Есть один эффективный способ нахождения дубликатов — поиск по фрагментам текста. Делается это просто: в поисковом окне любой ситемы, введите текстовой фрагмент вашей записи(статьи) в размере 10- 20 слов(лучше из середины) и проанализировать полученный результат. Наличие двух и более страниц в выдаче — значит дубли для этого опуса имеют место быть. Если нет — можете немного порадоваться:).

Сложно, если сайт накопил множество страниц. Вышеуказанная проверка может стать невыносимой рутинной работой. Желаете минимизировать временные затраты — воспользуйтесь программой Xenu`s Link Sleuth .

Чтобы проверить сайт, необходимо открыть новый проект, выбрав в меню «File» «Check URL», ввести адрес и нажать «OK». После этого программа начнет обработку всех URL сайта. По окончании проверки нужно экспортировать полученные данные в любой удобный редактор и приступить к поиску дублей.

Кому нужна ссылка на скачивание файла этой программы, отпишитесь в комментариях, пришлю на ваш e-mail.

Итак, мы выяснили, какие (основные) причины приводят к возникновению дублированного контента. Теперь определим способы его устранения.

Способы устранения дублированного контента

Канонические URL — концептуальное решение проблемы

Если у вас нет возможности () удалять дубликаты, проблему можно решить с помощью тега canonica l (применяется для нечетких копий). Тег canonical так же подойдет для версий страниц для печати и в других подобных случаях. Применяется он очень просто – для всех копий указывается атрибут rel=”canonical”, а для основной страницы, которая наиболее релевантна, – нет. Код должен выглядеть примерно так: link rel=»canonical» href=»http://домен.ru/страница-копия»/, и стоять в пределах тега head.

Для пользователей с движком WordPress имеется прекрасная возможность сделать все это автоматически, установив плагин all in one seo pack или ему подобный. В настройках эта операция устанавливается метками:

Настройка функций disallow в файле robots.txt вашего сайта

Хотя настройка запрещающих страниц для индексирования не всегда является эффективным способом от дублей, так как поисковики умудряются их иногда обходить, все же правильно настроенный robot.txt значительно облегчит задачу их недопущения.

С www или без www

Как будет выглядеть сраницы вашего сайта — только с использованием http или http.www? Неопределенность породит дублирование. Сразу, после создания сайта, определите, какой гипертекстовый транспортный протокол будете использовать. Для этого в панели вебмастеров Яндекса и Google проставьте ваш выбор (в Google это можно сделать для обоих версий, но нужно будет подтвердить права на оба адреса). Можно, оставить по умолчанию или на «выбор поискового робота», но лучше четко определится.

Настройка редиректа

Редирект 301 отлично подходит для склеивания страниц-копий, URL которых отличаются наличием и отсутствием www. Как вы уже поняли(смотри скрин выше), настройка редиректа на WordPress тоже упрощается с помощью плагина. В сущности, если вы и поисковой робот «определился» с вашим выбором — с www илии без него будет основной домен, настройка редиректа для всех страниц не нужна. Впрочем, тема настройки редиректа и его целесообразности — тема отдельной статьи.

Итоги и выводы

не допускайте дублирования страниц(контента) на ваших ресурсах, так как дубли приводят к серьезному понижению релевантности страниц что затрудняет их вывод на передовые позиции в в поисковой выдаче(ТОП);
проблемы с дублированием контента в своем большинстве имеют решение — для этого используйте все возможные средства;
постоянно следите за процессом индексации вашего контента и ни создания дублей на нем

Вот и все, дорогой читатель. Если есть что добавить или поправить меня, задать вопрос — рискните!

Не совсем в тему, но про близнецов.

(Visited 28 times, 1 visits today)

Дубликаты контента — одна из основных проблем низкого ранжирования сайта в поисковых системах. К данной проблеме приводит наличие на сайте страниц, которые полностью или частично идентичны друг другу. Естественно для поисковых систем наличие на сайте мусорных страниц представляет серьёзную проблему, так как приходится тратить на их обработку серверные мощности. Поисковым системам нет смысла тратить физические ресурсы на индексацию такого бесполезного контента. Поэтому они борются с такими сайтами, накладывая на них фильтр, либо занижает в ранжировании, что приводит к низким позициям по продвигаемым запросам.

Дубликаты и SEO

Наличие на сайте страниц дубликатов приводит к тому что:

Полезный ссылочный вес распыляется на эти бесполезные страницы.
Страница-дубликат после очередного апдейта вытесняет целевую страницу и та теряет позиции.
Дублированный контент снижает уникальность всех страниц на которых он размещён.
По мере того, как поисковая система борется с такими страницами, удаляя их из поиска — она может исключить и продвигаемую страницу.

Классификация дубликатов и решения по их устранению

Дубликаты бывают полными и частичными. Полные дубликаты — это когда страницы полностью идентичны. Соответственно, частичные дубли — это когда страницы совпадают не полностью. Полные дубликаты устраняют через robots.txt и настройку 301 редиректа. Частичные дубликаты устраняются путем проведения необходимых правок на сайте.

Привожу перечень чек-листов, которые нужно пройти, чтобы выявить и решить проблему дубликатов:

Поиск дубликатов главной страницы сайта. Например, могут быть следующие варианты главной страницы: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http://domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Как видите вариантов много, но оптимальным является вариант http://www.domen.com/. Для устранения остальных копий главной страницы используется 301 редирект и закрытие в robots.txt (в случае с конструкциями вида https://www.domen.com/.
Проверка фундаментального (золотого правила SEO) — каждая страница должна быть доступна только по одному адресу. Нельзя, чтобы адреса варьировались следующим образом: http://www.domen.com/stranica1/stranica2/ и http://www.domen.com/stranica2/stranica1/.
Проверка на наличие переменных в урле. Их, в адрессе страницы, быть не должно. Например, генерация урлов вида: http://www.domen.ru/index.php?dir=4567&id=515 — это ошибка. Правильным будет следующий вариант урла: http://www.domen.ru/dir/4567/id/515.
Проверка на наличие в урлах идентификаторов сессии. Например, урлы вида http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 — недопустимы. Такие урлы содержат бесконечное количество копий каждой страницы. Поэтому необходимо закрывать все идентификаторы сессий в robots.txt.

Поисковые системы типа Google столкнулись с проблемой – и имя ей «дублированный контент». Контент называют дублирующим, если он в похожем виде появляется в разных местах глобальной сети Интернет (по разным URL-адресам), в следствие чего поисковые системы не знают, какой URL отображать в результатах поиска. Это может отрицательно сказываться на ранжировании веб-страницы, а когда люди начинают ссылаться на разные версии одного и того же контента, проблема только усугубляется.

Данная статья поможет понять причины возникновения дублирующего контента, и даст понимание того, что нужно делать в каждом конкретном случае.

Что такое дублированный контент?

Дублированный контент можно сравнить с перекрестком, на котором дорожные знаки указывают разные направления для одного и того же населенного пункта: какой путь вам выбрать? Что ещё хуже, конечное место назначения тоже отличается, совсем чуть-чуть. Как читателю вам все равно, главное получить то, за чем пришли, но поисковая система должна выбрать какую страницу отображать в результатах поиска, поскольку, естественно, не хочет повторно отображать один и тот же контент.

Допустим ваша статья о «ключевом слове x» появляется в неизменном виде по адресам и http://www.example.com/article-category/keyword-x/ . Ситуация не надуманная: подобное происходит во многих современных системах управления контентом. Затем, скажем, вашу статью взяли на вооружение несколько блогеров, причем одни сослались на первый URL адрес, а другие на второй. Вот он, тот самый момент, когда проблема поисковых систем показывает свою истинную природу – вас она тоже касается. дублированный контент является вашими трудностями, поскольку те ссылки продвигают разные URL. Если бы они ссылались на один URL-адрес, шансы ранжирования «ключевого слова x» были бы выше.

1 Причины возникновения дублированного контента

Существуют десятки причин, по которым, появляется дублированный контент. Большинство из них носят технический характер: не так уж и часто человек решается на размещение одинакового контента в двух разных местах, не дав при этом понять какой из них является оригинальным – для большинства из нас это кажется неестественным. Однако имеется большое количество технических причин, и возникают они главным образом потому, что разработчики мыслят по-своему – не так как браузеры, и даже не так как пользователи, не говоря уже о поисковых пауках – они размышляют, как программисты. Возьмем, к примеру, упомянутую ранее статью, находящуюся по адресам http://www.example.com/keyword-x/ и http://www.example.com/article-category/keyword-x/. Если вы поинтересуетесь мнением разработчиков, они заверят вас, что статья здесь одна.

1.1 Неправильное понимание концепции URL

Нет, разработчики не сошли с ума, они просто говорят на другом языке. Вероятнее всего сайт будет подкреплен системой управления содержимым CMS, и в её базе данных будет содержаться лишь одна статья, однако программное обеспечение веб-сайта позволит получить доступ к этой статье посредством нескольких URL-адресов. Недопонимание происходит потому, что с точки зрения разработчиков, уникальным идентификатором для статьи служит ID присвоенный ей в базе данных, а не какой-то там URL. Но для поисковой системы URL является уникальным идентификатором контента. Если объяснить ситуацию разработчикам, они начнут понимать суть проблемы, а прочитав статью, вы даже сможете обеспечить их готовым решением.

1.2 Идентификаторы сеансов

Зачастую вам хочется отслеживать действия посетителей и позволять им, к примеру, сохранять желаемые товары в корзине покупок. Чтобы этого добиться вам нужно предоставить им «сеанс». Сеанс – это краткая история активности посетителя на вашем сайте, которая может включать в себя упомянутые ранее товары в корзине покупок и тому подобное. Для сохранения сеанса активности пользователя (пока он продолжает листать страницы сайта), нужно где-нибудь сохранить уникальный идентификатор сеанса, его еще называют ID сеанса. Наиболее распространенным решением является использование файлов cookie, но правда поисковые системы обычно их не сохраняют.

В таком случае, некоторые системы останавливаются на использовании идентификаторов сеанса в URL. Это означает, что URL-адресу каждой внутренней ссылки веб-сайта присваивается ID сеанса, а так как этот идентификатор является для сеанса уникальным, это приводит к созданию новых URL-адресов и соответственно дублирующего контента.

1.3 Параметры URL, используемые для отслеживания и сортировки

Еще одной причиной возникновения дублирующего контента является использование URL параметров, не меняющих содержимое самой страницы, как например, в трекинговых ссылках. Видите ли, для поисковой системы URL-адреса http://www.example.com/keyword–x/ и http://www.example.com/keyword-x/? source=rss различны. Это может позволить отследить какой ресурс привел посетителей, но вместе с тем и усложнить для вас ранжирование – очень нежелательное последствие!

Это, конечно, относится не к одним лишь параметрам трекинга, а ко всем параметрам, которые можно добавить к URL-адресу и которые не меняют принципиально важную часть контента. И не важно для чего служит этот параметр, будь то «изменения в сортировке у категории товаров» или «отображение очередной боковой панели» — любой из них становится причиной возникновения дублирующего контента.

1.4 Скраперы и синдикация контента

По большей части в возникновении дублирующего контента виноваты ваш сайт либо вы сами. Однако, иногда вашим контентом, с вашего согласия или без него, пользуются и другие веб-сайты. Они не всегда ссылаются на оригинальный источник, в следствие чего поисковой системе приходится иметь дело с еще одной версией той же самой статьи. Чем популярнее становится ваш сайт, тем больше он привлекает скраперов, усугубляя проблему все больше и больше.

1.5 Порядок параметров

Еще одной распространенной причиной является то, что CMS использует не красивые чистые URL, а скорее URL типа /?id=1&cat=2 , в которых «ID» относится к статье, а «cat» к категории. URL /?cat=2&id=1 будет представлять собой один и тот же результат для большинства систем веб-сайтов, но для поисковой системы результаты будут совершенно разными.

1.6 Пагинация комментариев

В моем излюбленном WordPress, а также в некоторых других системах управления содержимым, существует возможность пагинации комментариев. Это приводит к появлению дублирующего контента по URL-адресу статьи, так как к URL статьи приплюсовываются /comment-page-1/, /comment-page-2/ и т.д.

1.7 Версия страниц для печати

Если система управления контентом создаcт версию страниц для печати, и вы сошлетесь на них со своей статьи, Google скорее всего найдет их (если конечно они не были намеренно заблокированы). А теперь ответьте себе честно: какую версию вы предпочли бы видеть в результатах поиска Google? Версию с вашей рекламой и вспомогательным контентом или ту, в которой имеется только статья?

1.8 с WWW и без WWW

Эта причина стара как мир, но в случае доступности обеих версий WWW и без WWW, поисковые системы то и дело (правда не часто) продолжают воспринимать соответствующий контент, как дублированный. Еще одна причина (не такая популярная, но с которой мне также приходилось сталкиваться) – это HTTP и дублированный контент.

2 Концептуальное решение: «канонический» URL-адрес

Как мы уже поняли, когда к одному и тому же контенту ведут несколько URL-адресов, возникает проблема, но, впрочем, ее можно решить. У одного человека, работающего над публикацией, не должно возникнуть сложности в том, чтобы объяснить каким должен быть «правильный» URL для определенной статьи, но если поинтересуетесь у трёх человек из одной компании – ответы можете получить совершенно разные…

Решить данную проблему можно лишь с помощью адресации, поскольку, как бы там ни было, URL может быть только один. Такой «правильный» для определенного контента URL-адрес, рассматривается поисковыми системами, как канонический.

Ироническое замечание
Канонический» — это термин, проистекающий из римско-католической традиции, согласно которой был создан и принят в качестве подлинного, список священных книг. Они стали известны, как канонический Евангелие Нового Завета. По иронии судьбы, чтобы утвердить этот канонический список, Римско-католическая церковь потратила около 300 лет и приняла участие во множестве боев. В конечном счете сошлись на четырех версиях одной и той же истории…

3 Выявление проблем с дублированным контентом

Вы можете не знать, что повлекло за собой появление у вас дублированного контента, всему виной сайт или сам контент? Есть несколько способов узнать.

3.1 Google Search Console

Google Search Console – замечательный инструмент для выявления дублирующего контента. Перейдите в консоль поиска (Search Console) для своего сайта, затем во вкладку Вид в поиске ->Оптимизация HTML Improvements, и вы увидите следующее:

Наличие у страниц повторяющихся заголовков или дескрипторов – это почти всегда плохо. После нажатия обнаружатся URL с повторяющимися заголовками или дескрипторами, что поможет вам идентифицировать проблему. В случае, если у вас есть статья, подобная той, о которой мы упоминали ранее (keyword X) и она отображается в двух категориях, у нее могут быть разные заголовки. Например, «Keyword X – Category X – Example Site» и «Keyword X – Category Y – Example Site». Google не будет расценивать данные заголовки, как повторяющиеся, но их можно будет найти осуществив поиск.

3.2 Поиск заголовков или сниппетов

Существует несколько операторов поиска, очень полезных в случаях вроде описанного выше. Если хотите найти все URL своего сайта, содержащие статью «keyword X» вам нужно вбить в поиск Google следующую фразу:

site:example.com intitle:»Keyword X»

После чего Google отобразит вам все страницы, выявленные на сайте example.com и содержащие указанное ключевое слово. Чем конкретнее будет intitle, тем легче будет отсеять дублированный контент. Можно воспользоваться данным методом для идентификации дублирующего контента в Интернете. Если, к примеру, полный заголовок вашей статьи «Keyword X – почему это клёво», вам нужно использовать фразу:

intitle:»Keyword X – почему это клёво»

И Google выдаст вам все сайты, подпадающие под этот заголовок. Иногда имеет смысл осуществлять поиск даже по одному-двум полным предложениям из вашей статьи, поскольку некоторые скраперы могут изменить заголовок. В некоторых случаях, подобный поиск может привести к отображению следующего уведомления на последних страницах поиска Google:

Это признак того, что Google уже занят удалением дублирующего контента. Но этого по-прежнему недостаточно, поэтому стоит перейти по ссылке и посмотреть на все остальные результаты, чтобы понять можно ли исправить хотя бы некоторые из них.

4 Практические решения относительно дублированного контента

Определившись с тем, какой адрес является каноническим для определенной части вашего контента, нужно перейти к процессу канонизации («да, я знаю» попробуйте три раза сказать это быстро и вслух). Это значит, что нам необходимо сообщить поисковым системам о канонической версии страницы и позволить им найти ее как можно скорее. Существует четыре возможных решения, в порядке предпочтительности они располагаются так:

Не создавать дублированный контент
Перенаправлять дублированный контент на канонический URL
Добавлять атрибут rel=canonical странице с дублирующим контентом
Добавлять HTML ссылку со страницы с дублирующим контентом на каноническую версию страницы

4.1 Как избежать дублированного контента

Часть из вышеуказанных причин возникновения дублирующего контента легко устранимы:

Есть ли в ваших URL-адресах идентификаторы сеанса? Зачастую можно просто взять и отключить их в настройках системы.
Есть ли у вас версии страниц для печати? В них нет никакой необходимости: вам просто нужно использовать CSS стили для печати.
Используете ли вы пагинацию комментариев в WordPress? Вам нужно просто отключить эту функцию (в разделе настроек у 99% сайтов).
Остается ли порядок параметров неизменным? Скажите своему программисту, чтобы написал скрипт, который будет всегда упорядочивать параметры (его зачастую называют «URL factory»).
Возникают ли проблемы с трекинговыми ссылками? В большинстве случаев вы можете развернуть компанию отслеживания по хештегам вместо того чтобы пользоваться для этого параметрами.
Есть ли у вас проблемы с «WWW и не связанные с WWW»? Выберите что-нибудь одно, а затем реализуйте перенаправление на оставшийся адрес. Вы также можете настроить предпочтения с помощью сервиса Google Webmaster Tools, но обе версии доменного имени должны принадлежать вам.

Даже если решить вашу проблему не просто, усилия вполне могут быть оправданы. Цель должна сводиться к предотвращению появления дублирующего контента, поскольку это, безусловно, самое лучшее решение.

4.2 301 редирект дублированного контента

Бывают случаи, когда полностью избежать использования системой неправильных URL-адресов (для контента) попросту невозможно, но это могут быть те случаи, когда можно воспользоваться переадресацией. Если вы думаете, что в этом нет логики (понять я вас могу), просто не забудьте вспомнить об этом во время разговора с разработчиками. Работая над устранением проблем с дублирующим контентом, убедитесь, что вы перенаправляете весь дублированный контент со старых URL-адресов на канонические.

4.3 Использование ссылок

Иногда, даже зная, что URL неправильный, вы не хотите или не можете избавиться от дублирующей версии статьи. Для решения такой проблемы поисковыми системами представлен элемент канонической ссылки, размещающийся в заголовочной части вашего сайта и имеющий следующий вид:

link rel=»canonical» href=»http://example.com/wordpress/seo-plugin/

Атрибуту href канонической ссылки вы присваиваете правильный канонический URL-адрес вашей статьи. Когда поисковой системе, поддерживающей канонические ссылки, попадается такой элемент, она выполняет 301 редирект, отдавая таким образом практически всю ценность, заработанную страницей ее канонической версии.

Правда быстрее будет пользоваться 301 редиректом непосредственно и поэтому, при наличии выбора, нужно отдавать ему предпочтение.

» я уже касался темы дублированных страниц и сегодня поговорим об этом более подробно.

Что такое дубли страниц ? Это страницы с похожим или одинаковым текстом доступные по разным URL адресам. Например, очень часто встречающиеся дубли главной страницы ресурса

Ниже мы рассмотрим несколько распространенных вариантов дублирования контента, а сейчас давайте поговорим о том, как влияют похожие страницы на продвижение сайта.

Поисковые системы давно научились определять уникальность текста по последовательности символов, т.е по одинаково составленным предложениям, откуда берется последовательность букв и пробелов. Если контент не уникальный (ворованный), то робот без труда это выяснит, а когда не уникальный текст встречается часто, то перспектива попадания такого ресурса под фильтр АГС довольно высока.

Давайте представим себе работу поискового робота. Зайдя на сайт он в первую очередь смотрит на файл robots.txt и от него получает инструкции: что нужно индексировать и что для индексации закрыто. Следующим его действием будет обращение к файлу sitemap.xml, который покажет роботу карту сайта со всем разрешенными маршрутами. Почитайте статью — «Файл sitemap.xml для поисковиков Google и Яндекс .» Получив всю необходимую информацию, робот отправляется выполнять свои привычные функции.

Зайдя на определенную страницу он «впитывает» ее содержимое и сравнивает с уже имеющейся в его электронных мозгах информацией, собранной со всего бескрайнего простора интернета. Уличив текст в не уникальности поисковик не станет индексировать данную страницу и сделает пометку в своей записной книжке, в которую он заносит «провинившиеся» URL адреса. Как Вы наверное уже догадались на эту страницу он больше не вернется, дабы не тратить свое драгоценное время.

Допустим, страница имеет высокую уникальность и робот ее проиндексировал, но пройдя по следующему URL того же ресурса он попадает на страницу с полностью или частично похожим текстом. Как в такой ситуации поступит поисковик? Конечно он тоже не станет индексировать похожий тест, даже если оригинал находиться на том же сайте, но по другому URL. Робот наверняка останется недоволен бесполезно потраченным временем и обязательно сделает пометочку в своем блокноте. Опять же, если такой инцидент будет неоднократно повторяться, то ресурс может пасть в немилость к поисковой системе.

Вывод №1. Похожие страницы расположенные по разными URL отнимают время, которое отводится роботу для индексации сайта. Дубли страниц он все равно индексировать не будет, но потратит часть временного лимита на ознакомление с ними и возможно не успеет добраться до действительно уникального контента.

Вывод№ 2. Дублированный контент отрицательно скажется но продвижении сайта в поисковой системе. Не любят поисковики не уникальные тексты!

Вывод №3. Надо обязательно проверять свой проект на дубли страниц, чтобы избежать проблем перечисленных выше.

Многие совершенно не заботятся об «чистоте» своего контента. Ради интереса я проверил несколько сайтов и был несколько удивлен положению дел с дублями страниц. На блоге одной женщины я вообще не обнаружил файла robots.txt.

Необходимо со всей серьезность бороться с дублями контента и начинать надо с их выявления.

Примеры часто встречающихся дублей контента и способы устранение проблемы

Дубль главной страницы. Пример:

http://сайт.com
http://сайт.com/index.php.

В этом случаи вопрос решается с помощью 301 редиректа — «командой» для сервера через файл.htaccess.

Еще один пример дубля главной страницы:

http://сайт.com
http://www.сайт.com

Чтобы избежать подобного дублирования можно прописать основное зеркало сайта в файле robots.txt в директиве — «Host» для Яндекс:

Host: сайт.com

А также воспользоваться 301 редиректом и указать поисковикам Яндекс и Google на главное зеркало сайта посредством инструментов для веб-мастеров.

Пример дубля главной страницы, который чуть не взорвал мне мозг при поиске решения выглядит так:

http://сайт.com
http://сайт.com/

Я где-то прочитал, что слеш в конце ссылки на главную страницу, создает дубль и поисковики воспринимают ссылки со слешом и без, как разные URL, ведущие на страницу с одинаковым текстом. Меня забеспокоила даже не сама возможность дублирования, сколько потеря веса главной страницы в такой ситуации.

Я начал копать. По запросу к серверу по вышеупомянутым URL я получил ответ код 200. Код 200 означает — » Запрос пользователя обработан успешно и ответ сервера содержит затребованные данные». Из этого следует, что все-таки дубль на лицо.

Я даже попытался сделать 301 редирект (перенаправление), но команды не действовали, и желанного ответного кода 301 я так и получил. Решение проблемы состояло в отсутствии самой проблемы. Каламбур такой получился. Оказывается, современные браузеры сами подставляют символ «/» в конце строки, делая его невидимым, что автоматически делает дубль невозможным. Вот так!

Ну и еще один пример дубля главной страницы:

http://сайт.com
https://сайт.com

Бывают случаи, что по ошибке веб-мастера или глюка поисковика или при других обстоятельствах в индекс попадает ссылка под защищенным протоколом https://. Что же делать в таком случаи и как избежать этого в будущем? Конечно надо удалить ссылки с протоколом https://из поиска, но делать придется в ручную средствами инструментов для веб-мастеров:

В поисковой системе Яндекс, веб- мастер — мои сайты — удалить URL:

Важно ! Директивы, прописанные в файле robots.txt, запрещают поисковым роботам сканировать текст, что уберегает сайт от дублей, но те же директивы не запрещают индексировать URL страниц.

Подробнее читайте в статьях:

Есть еще один довольно действенный способ определения «клонов» с помощью самих поисковых систем. В Яндексе в поле поиска надо вбить: link.сайт.com «Фрагмент теста». Пример:

Яндекс нашел 2 совпадения потому, что я не закрыл от индексации категории и поэтому есть совпадение с анонсом на главной странице. Но если для кулинарного блога участие рубрик в поиске оправдано, то для других тематик, таких как SEO такой необходимости нет и категории лучше закрыть от индексации.

С помощью поиска Google проверить можно так: site:сайт.com «Фрагмент текста». Пример:

Программы и онлайн сервисы для поиска внутренних и внешних дублей контента по фрагментам текста

Я не буду в этой статье делать подробный обзор популярных программ и сервисов, остановлюсь лишь на тех, которыми сам постоянно пользуюсь.

Для поиска внутренних и внешних дублей советую использовать онлайн сервис www.miratools.ru . Помимо проверки текста сервис включает еще различные интересные возможности.

Программа для поиска дублей — Advego Plagiatus . Очень популярная программа, лично я ей пользуюсь постоянно. Функционал программы простой, чтобы проверить текст достаточно скопировать его и вставить в окно программы и нажать на старт.

После проверки будет представлен отчет об уникальности проверяемого текста в процентах с ссылками на источники совпадений:

Также, будут выделены желтым фоном конкретные фрагменты текста, по которым программы нашла совпадения:

Очень хорошая программа, пользуйтесь и обязательно подпишитесь на обновления блога .

До встречи!

С уважением, Кириллов Виталий

1. Введение в проблему

В настоящее время все острее и острее встает проблема дублирования информации в интернете. Чаще всего такое дублирование совершается умышленно, с нарушением авторских прав. Злоумышленники используют авторский контент для наполнения собственных сайтов, чтобы извлекать для себя выгоду.

Такое дублирование информации ухудшает выдачу поисковых систем, вследствие чего последние активно борются с этим явлением. Действительно, если пользователь получает по запросу 10 одинаковых документов («одинаковость» определяется пользователем по ), это вряд ли добавляет популярности поисковику. Несколько лет назад такая ситуация наблюдалась в Рамблере, вследствие чего поисковик растерял часть своего рейтинга. Однако сейчас Rambler отфильтровывает и скрывает дубликаты.

Также нужно отметить, что дублирование контента засоряет индекс поисковика, ему становится труднее выдавать быстрые ответы пользователю. При этом все документы нужно регулярно индексировать, а появление новых документов с неоригинальным контентом явно вредит скорости индексации.

2. Теория по определению «нечетких дубликатов»

a. Что такое «нечеткий дубль»

Для начала нужно определиться с терминологией. Единого мнения по этому поводу в еще нет, и поэтому данная терминология отталкивается просто от здравого смысла.

Дубль (дубликат) web-документа – точная копия web-документа. «Нечеткий дубликат» web-документа – web-документ, частично измененный в содержательной части и/или в части форматирования (использование других тегов html для оформления страницы).

Мы будем трактовать «дубликат web-документа» только с точки зрения поисковой системы, а не пользователя. Поэтому мы не будем рассматривать такое явление как «копирайтинг», т.е. переписывание текста специально для поисковых систем с использованием других слов, но с сохранением общего смысла. Такой текст для поисковика будет всегда оригинальным, т.к. смысл текста компьютеры пока различать не могут.

Существует несколько основных методов определения дубликатов.

b. Метод «описательных слов»

Данный метод работает по следующему принципу.

Сначала формируется небольшая (ок. 2000-3000 слов) выборка. Выборка должна удовлетворять следующим условиям:

С ее помощью можно достаточно полно описать практически любой документ в сети
- описание документа не должно быть при этом избыточным

Таким образом, для формирования выборки нужно отбросить слова, которые наиболее и наименее употребительны, т.е. не учитывать стоп-слова и различные узко тематические термины. Также в выборку не попадают прилагательные, так как они не несут в русском языке смысловой нагрузки.

Далее каждый документ сопоставляется с выборкой и рассчитывается вектор, размерность которого равна количеству слов в выборке. Компоненты вектора могут принимать два значения – 0 или 1. 0 – если слова из выборки нет в документе, 1 – если слово встречается в документе. Далее документы проверяются на дублирование путем сопоставления их векторов.

По такому алгоритму Яндекс определяет нечеткие дубликаты.

c. Метод шинглов

Метод шинглов заключается в следующем. Для всех подцепочек анализируемого текста рассчитывается «контрольная сумма». Контрольная сумма (или "сигнатура") - это уникальное число, поставленное в соответствие некоторому тексту и/или функция его вычисления. Функция вычисления контрольных сумм может преследовать несколько целей: например "невзламываемость" (минимизируется вероятность того, что по значению контрольной суммы можно подобрать исходный текст) или "неповторяемость" (минимизируется вероятность того, что два разных текста могут иметь одну контрольную сумму) - Электронный журнал "Спамтест" No. 27.

Обычно используются следующие алгоритмы вычисления контрольных сумм: fnv, md5, crc. После вычисления контрольных сумм строится случайная выборка из полученного набора. По этой выборке документ можно сличать с другими документами, для которых также предварительно рассчитана выборка.

Данный метод расчета является достаточно ресурсоемким и его можно обойти, незначительно изменив текст, так как, прежде всего, шинглы зависят от расстояния между словами.

Сейчас метод шинглов эволюционировал до алгоритма «супершинглов», при котором стоится ограниченный набор контрольных сумм. Эксперименты на РОМИП привели к следующим результатам – 84 шингла, 6 супершинглов над 14 шинглами каждый. Тексты считаются совпавшими при совпадении хотя бы двух супершинглов из 6.

Официальными лицами неоднократно заявлялось, что Яндекс не рецензент и не будет бороться с проблемой воровства контента в сети .

Вот официальный ответ А. Садовского:

... поиск Яндекса при обнаружении дубликатов пытается определить оригинал документа. Существующие алгоритмы, конечно, несовершенны и мы работаем над их улучшением. Что касается юридического регулирования, поисковые системы пока не могут идентифицировать авторство текста. В случае удаления из сети «тыренного» контента (например, в результате действий правообладателя), Яндекс также удалит его из базы по мере обхода роботом. Этот процесс можно ускорить, воспользовавшись формой http://webmaster.yandex.ru/delurl.xml

Теперь рассмотрим, а что есть для Яндекса «дубликат документа»? Автор предлагает следующую трактовку. (Если ниже приведенный текст показался вам знакомым, то не думайте плохого, автор не так давно пытался активно обсуждать данную проблему на форумах)))

Существует два вида дубликатов: «нечеткие дубликаты» и «полные дубликаты».

«Нечеткие дубликаты» зависят от сниппета, т.е. определяются фактически запросом пользователя. Происходит это следующим образом.

1. Пользователь задает запрос.
2. Яндекс вычисляет релевантность сайтов запросу и ранжирует сайты, но пока еще не показывает пользователю.
3. Далее Яндекс сравнивает сниппеты отобранных документов на предмет определения дубликатов (возможно, сниппеты сравниваются методом шинглов).
4. И наконец, выдает отфильтрованную выдачу, удаляя некоторые дубликаты (по какому принципу оставляются те или иные документы – неясно; возможно, выбирается самый релевантный документ, и вместе с ним в выдачу попадают наименее похожие на него документы; возможно, играет роль только ссылочное окружение сайтов).

Существование фильтр такого типа косвенно доказывают слова Садовского (пост №9) и то, что выдача с различными настройками поиска (конкретно, количество отображаемых фрагментов со словами запроса) различная.

При настройках «отображать не более 5 фрагментов» в выдаче больше сайтов, чем при настройках «отображать не более 1 фрагмента». Попробуем запрос «Во & второй & главе & реферата & посвящена & практике & маркетинговой & деятельность & организации & на & примере & сервер & дукса» (запрос задается без кавычек!) - в первом случае (отображать 1 фрагмент в сниппете) в выдаче 21 сайт, во втором (5 фрагментов) – 27 сайтов.

Все здесь логично – при отображении одного пассажа в сниппете, сниппеты более похожи, чем когда отображается 5 пассажей в сниппете. Например, во втором случае у второго сайта сниппет отличается от сниппетов первого и третьего сайта.

Теперь разберемся с «полными дубликатами». Автор считает, что такие дубликаты определяются в момент индексации страницы. Это удобно, так как сразу позволяет отсечь мусор и не добавлять в базу данных поисковика дублированную информацию.

Метод определения дубликатов - «метод описательных слов» (о котором говорилось выше).

Страницы, выявленные как полные дубликаты – выкидываются из базы. Часто такое происходит со страницами одного сайта (например, каталог товаров, когда значимой информации гораздо меньше, чем слов в навигационной части). По какому принципу Яндекс выкидывает те или иные дубликаты – неизвестно, скорее всего, по совокупности признаков как то: временные факторы, «рейтинг ресурса», доверие к ресурсу и проч.

Как Яндекс определяет первоисточник в случае обнаружения «нечетких дублей» и определяет ли его? Давайте попробуем разобраться…

Сначала выделим факторы, которые могут указывать на первоисточник контента…

Дата создания документа
- релевантность документа запросу
- «доверие к ресурсу» (например, больше всего можно доверять ресурсам, имеющим хорошую позицию в Каталоге Яндекса, и высокую посещаемость)
- перелинковка между дубликатами (например, если все дубликаты ссылаются на один и тот же документ – он и есть первоисточник)

Попробуем осуществить небольшой эксперимент. Возьмем страницу href=http:// zoom.cnews.ru/ru/publication/index.php?art_id80=1523 и фразу "По дизайну Lumix FZ50 похожа на свою 8-мегапиксельную предшественницу FZ30". Явно это оригинал. Теперь посмотрим, кто еще использует текст статьи: зададим запрос с использованием параметра rd=0. Без rd в выдаче только сайт №1 и №5.

Характеристики сайтов следующие (заметим, что ссылаются только на первую страницу, у остальных бэклинков нет):

Станица	тИЦ	Рубрика каталога	PR	PR стр-цы
zoom.cnews.ru/ru/publication/index.php?art_id80=1523	3800	Да	6	4
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50	170	Да	5	0
www.apitcomp.ru/analytic/genre3/page637	700	Да	4	0
www.toplist.ru/card/35859	110	Нет	3	0
foto-focus.ru/forum/showthread.php?mode=hybrid&t=316	0	Нет	1	0
nmp4.ru/index.php?act=Print&client=printer&f=223&t=3323	0	Нет	0	0
www.media.nrd.ru/index.php?showtopic=3323&st=100	40	Нет	0	0
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d1523	0	Нет	0	0

Заметим, что сниппеты у всех сайтов одинаковые.

На первый взгляд совершенно неясно, почему Яндекс отфильтровал все сайты кроме пятого. Сайт явно не является авторитетным в глазах Яндекса. Логичнее было бы оставить в выдаче страницу с сайта www.apitcomp.ru – сайт является более авторитетным или оставить страницы с форумов (позиция 6 и 7).

Аналогично проверим для страницы http://www.3dnews.ru/digital/lumix_fz50/ и фразы "В наше время, когда покупателей, жаждущих хороших характеристик". Жирным выделены сайты, которые показываются без rd=0, красным – первоисточник, который, кстати, фильтруется!

Страница	тИЦ	YACA	LS	LP	PR	Page PR
saturn-plus.ru/	70	Да	54	20349	3	3
saturn.24online.ru/	0	Нет	1	1	0	0
www.3dnews.ru/digital/lumix_fz50/print	11000	Да	0	0	6	2
fotomag.com.ua/handbook14.html	400	Да	0	0	4	0
Deshevshe.net.ua/ua/review-73/4.html	80	Нет	0	0	4	0
Ephotolink.ru/?mod=articles&act=show&sort=date&page=9	1400	Да	0	0	4	1
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html	0	Нет	0	0	0	0
uaport.net/UAit/?CGIQUERY=0&lang=RUS&cli=1&dtb=146&…	4300	Да	0	0	6	0
www.velc.ru/podderjka/stati/lumix_fz50/	120	Да	0	0	3	0
Ephotolink.tkat.ru/?mod=articles&id_article=21007	10	Нет	0	0	3	0
www.ru-coding.com/rss.php?p=501	130	Да	0	0	3	0
www.toprunet.com/article.php?id=6388	200	Нет	0	0	3	0
www.dphotographer.com.ua/camera/from/2/	90	Нет	0	0	4	0
www.asmedia.ru/news/id8242.html	400	Нет	0	0	3	0
www.mega-bit.ru/obzor/read/?id=70	40	Нет	0	0	3	0
www.audiovideophoto.ru/panasonic1.html	0	Нет	0	0	0	0
www.foto-piter.ru/news/2006/12/01/127/	10	Нет	0	0	2	0
www.megastoke.ru/item951928/panasonic-lumix-dmc-fz50.html	20	Нет	0	0	1	0
www.novoe.nnov.ru/articles/?parent_id=33	0	Нет	0	0	0	0
iwy.com.ua/top.php?p=326	0	Нет	0	0	0	0
www.5-uglov.ru/articles_view.php?id_news=1222	90	Да	0	0	3	0
www.techhome.ru/catalog/photo/article_17112.html	950	Да	0	0	5	3
www.panasonic-spb.ru/articles_view.php?id_news=1222	0	Нет	0	0	1	0
new-articles.ru/page_215.html	40	Нет	0	0	3	0
www.ekvator-hifi.ru/articles_view.php?id_news=1222	10	Нет	0	0	1	0
shop.key.ru/shop/goods/36608/	230	Нет	3	18	4	0
www.pc-shop.kz/index.php?g_id=1711		Нет	0	0	3	0
Portalink.ru/portal/ecamera/infoat_15269.htm	110	Нет	0	0	3	3
www.rusdoc.ru/articles/13085/	1100	Да	3	13	5	1
www.docs.com.ru/articles.php?p=509	220	Нет	0	0	4	0
e-libed.ru/a31/	0	Нет	1	17	0	0
dvdlink.ru/portal/Ecamera/infoat_15269.htm	140	Нет	0	0	3	0
www.articlesearch.ru/a3b856d85.html	0	Нет	0	0	0	0
www.bestarticles.ru/a31/	0	Нет	1	5	2	0
www.temu.ru/a31/	0	Нет	0	0	2	0

LP – ссылающихся страниц, LS – ссылающихся сайтов, Page PR – PR страницы, PR – PR главной страницы сайта.

Аналогичная картина – критерии фильтрации совершено неясны. Однако, если посмотреть на сниппеты, то мы увидим, что у страниц на сайтах uaport.net, www.megastoke.ru , portalink.ru сниппеты несколько отличаются от сниппетов других сайтов и поэтому первый и третий сайт не фильтруется.

Что сказать в итоге? Прежде всего, конечно нужно еще много экспериментировать и анализировать, однако уже видно, что решение о фильтрации «нечетких дубликатов» основывается на анализе многих факторов, главным из которых является оригинальность сниппета.

4. Google и дублирование контента

Google стремится выдавать на запросы пользователя сайты только со свежим и уникальным контентом.

Google считает, что пользователи не хотят видеть дубликаты в результатах поиска, поэтому такие документы скрываются в suggestion results. Если пользователь все же захочет увидеть дубликаты (например, это веб-мастер, который хочет выяснить, кто ворует контент с его сайта), то он должен добавить параметр «&filter=0» в конец URL.

Google считает, что идентификация автора контента поможет улучшить поиск. Однако отмечает, что такие способы определения первоисточника как фиксация даты создания документа или регистрация контента авторами в специальных сервисах не эффективны. Пока Google ориентируется по большей части на авторитетность ресурса и количество входящих ссылок. Поэтому вполне возможна ситуация, когда какой-нибудь известный ресурс позаимствовал статью, например, у специализированного ресурса, далее большинство узнало о статье из известного ресурса и поставило на него ссылки; в итоге Google определит известный сайт как первоисточник…

В случае дублирования контента на одном сайте (например, страница-оригинал и страница для печати) Google предлагает веб-мастерам активно использовать robots.txt. Также предлагается отказаться от использования идентификаторов сессий, так как это тоже может привести к дублированию контента. Т.е. поисковик может проиндексировать одну и ту же страницу, но с разным url, отличающимся значением параметра sessid.

5. Над чем можно поэкспериментировать и как это лучше сделать

Итак, мы выяснили основные моменты по проблеме дублирования контента. Принципы работы фильтра (в частности Яндекса) достаточно просты, однако определить в точности, как учитываются различные факторы достаточно сложно.

Итого, что нужно проверить экспериментальным путем:

Как дубликаты фильтруются в момент выдачи? По какому принципу?
- Метод «описательных слов» - как формируется выборка слов и как сравниваются вектора?
- По какому принципу выкидываются «полные дубликаты»?

Можно предложить следующий вариант:

Создаем один сайт с оригинальным контентом. Немного спамим его, чтобы он проиндексировался. Создаем далее некоторое количество клонов (дубликатов). Клоны можно сделать различным образом: перемешать слова первоисточника, сделать рерайтинг, взять отдельные абзацы. Клоны можно разместить как на отдельных сайтах (на нормальных и обычных хостингах) так и на внутренних страницах сайтов. Можно частично проспамить клоны. Потом оцениваем результат умозрительно и делаем выводы.
- Определить принципы, по которым фильтруются «нечеткие дубликаты» можно по методике, описанной выше, т.е. просто путем анализа отфильтрованных сайтов.

6. Дополнительная литература