Как настроить смартфоны и ПК. Информационный портал

Дублированный контент: причины и решения. Дублирование контента

Дубликаты контента — одна из основных проблем низкого ранжирования сайта в поисковых системах. К данной проблеме приводит наличие на сайте страниц, которые полностью или частично идентичны друг другу. Естественно для поисковых систем наличие на сайте мусорных страниц представляет серьёзную проблему, так как приходится тратить на их обработку серверные мощности. Поисковым системам нет смысла тратить физические ресурсы на индексацию такого бесполезного контента. Поэтому они борются с такими сайтами, накладывая на них фильтр, либо занижает в ранжировании, что приводит к низким позициям по продвигаемым запросам.

Дубликаты и SEO

Наличие на сайте страниц дубликатов приводит к тому что:

  • Полезный ссылочный вес распыляется на эти бесполезные страницы.
  • Страница-дубликат после очередного апдейта вытесняет целевую страницу и та теряет позиции.
  • Дублированный контент снижает уникальность всех страниц на которых он размещён.
  • По мере того, как поисковая система борется с такими страницами, удаляя их из поиска — она может исключить и продвигаемую страницу.

Классификация дубликатов и решения по их устранению

Дубликаты бывают полными и частичными. Полные дубликаты — это когда страницы полностью идентичны. Соответственно, частичные дубли — это когда страницы совпадают не полностью. Полные дубликаты устраняют через robots.txt и настройку 301 редиректа. Частичные дубликаты устраняются путем проведения необходимых правок на сайте.

Привожу перечень чек-листов, которые нужно пройти, чтобы выявить и решить проблему дубликатов:

  • Поиск дубликатов главной страницы сайта. Например, могут быть следующие варианты главной страницы: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http://domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Как видите вариантов много, но оптимальным является вариант http://www.domen.com/. Для устранения остальных копий главной страницы используется 301 редирект и закрытие в robots.txt (в случае с конструкциями вида https://www.domen.com/.
  • Проверка фундаментального (золотого правила SEO) — каждая страница должна быть доступна только по одному адресу. Нельзя, чтобы адреса варьировались следующим образом: http://www.domen.com/stranica1/stranica2/ и http://www.domen.com/stranica2/stranica1/.
  • Проверка на наличие переменных в урле. Их, в адрессе страницы, быть не должно. Например, генерация урлов вида: http://www.domen.ru/index.php?dir=4567&id=515 — это ошибка. Правильным будет следующий вариант урла: http://www.domen.ru/dir/4567/id/515.
  • Проверка на наличие в урлах идентификаторов сессии. Например, урлы вида http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 — недопустимы. Такие урлы содержат бесконечное количество копий каждой страницы. Поэтому необходимо закрывать все идентификаторы сессий в robots.txt.

Дубли контента – это частично или полностью одинаковый текст, картинки и прочие элементы наполнения сайта, доступные по разным адресам страниц (URL). Наличие дублей может значительно затруднять поисковое продвижение сайта.

По оценке специалистов, дублированный контент – самая распространенная ошибка внутренней оптимизации, присутствующая на каждом втором веб-ресурсе.

Как проверить, есть ли дубли на вашем сайте, и каким образом от них избавиться? Об этом мы расскажем в новом выпуске нашей рассылки.

Какие бывают дубли

Дубли бывают четкие и нечеткие (или полные и неполные).

Четкие дубли – страницы-копии с абсолютно одинаковым контентом, содержимым мета-тега Description и заголовка Title, доступные по разным адресам. Например, у исходной страницы могут появиться следующие дубли:

  • зеркало с WWW или без;
  • страницы с разными расширениями (.html, .htm, index.php, GET-параметром «?a=b» и т. д.);
  • версия для печати;
  • версия для RSS;
  • прежняя форма URL после смены движка;
  • и так далее.

Нечеткие дубли – частично одинаковый контент на разных URL.

В качестве примеров таких дублей можно привести следующие варианты:

  • карточки однотипных товаров с повторяющимся или отсутствующим описанием;
  • анонсы статей, новостей, товаров в разных рубриках, на страницах тегов и постраничной разбивки;
  • архивы дат в блогах;
  • страницы, где сквозные блоки по объему превосходят основной контент;
  • страницы с разными текстами, но идентичными Title и Description.

Чем опасны дубли для продвижения

1. Затрудняется индексация сайта (и определение основной страницы)

Из-за дублей количество страниц в базе поисковых систем может увеличиться в несколько раз, некоторые страницы могут быть не проиндексированы, т. к. на обход сайта поисковому роботу выделяется фиксированная квота количества страниц.

Усложняется определение основной страницы, которая попадет в поисковую выдачу: выбор робота может не совпасть с выбором вебмастера.

2. Основная страница в выдаче может замениться дублем

Если дубль будет получать хороший трафик и поведенческие метрики, то при очередном апдейте он может заменять основную (продвигаемую) страницу в выдаче. При этом позиции в поиске «просядут», т.к. дубль не будет иметь ссылочной популярности.

3. Потеря внешних ссылок на основную страницу

4. Риск попадания под фильтр ПС

И Яндекс, и Google борются с неуникальным контентом, в связи с чем могут применить к «засоренному» сайту фильтры АГС и Panda.

5. Потеря значимых страниц в индексе

Неполные дубли (страницы категорий, новости, карточки товаров и т. д.) из-за малой уникальности имеют шанс не попасть в индекс поисковиков вообще. Например, это может случиться с частью товарных карточек, которые поисковый алгоритм сочтет дублями.

Как найти и устранить дубли на сайте

Будучи владельцем сайта, даже без специальных знаний и навыков вы сможете самостоятельно найти дубли на вашем ресурсе. Ниже дана инструкция по поиску и устранению дублированного контента.

Поиск полных дублей

Самый быстрый способ найти полные дубли на сайте – отследить совпадение тегов Title и Description. Для этого можно использовать панель вебмастера Google или популярный у оптимизаторов сервис Xenu. Поиск ведется среди проиндексированных страниц.

Минусы: не все дубли можно (и нужно) удалять (например версии страниц с рекламными метками); трудоемкая работа, занимающая при большом количестве страниц много времени. Не исключает появления новых дублей. Вес с дублей не передается основной странице.

  • Плюсы: не требует специальных навыков программирования.

6. Готовые решения для популярных CMS

Разработчики популярных CMS предусмотрели ряд решений, предотвращающих появление дублей. При этом вебмастерам при работе с движком необходимо внимательно выставлять настройки. Если вы что-то упустили из виду и дубли все же появились, никогда не поздно все исправить и устранить копии. Внятные инструкции по настройкам движка и использованию SEO-плагинов можно найти на профильных блогах и на форумах WordPress, Joomla, Drupal, Битрикс, а также других широко представленных CMS.

Полезные SEO-плагины для борьбы с дублями:

  • WordPress: All in One SEO Pack, Clearfy;
  • Drupal: Global Redirect, Page Title;
  • Joomla: Canonical Links All in One, JL No Dubles.

7. Борьба на уровне движка

Универсальное решение для самых разных CMS – предупредить появление новых дублей на уровне движка. Необходимо задать такое условие, при котором в процессе обработки адресных ссылок CMS будет отличать «хорошие» от «плохих» и отображать в строке браузера только те, которые разрешены правилом. Это позволит избежать формирования страниц-синонимов (со знаком «/» и без него, с ненужным окончанием.html, GET-параметрами и проч.), однако не защитит от возникновения дублей, если у страниц не будут уникализированы Title и Description.

Для реализации данного метода в файле.htaccess необходимо включить следующее правило:

RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !-f RewriteRule ^(.*)$ index.php

Кроме этого, следует реализовать необходимые проверки в самом движке.

Метод отличается высокой сложностью и требует обращения к специалистам по разработке.

  • Минусы: крайне высокая степень сложности.
  • Плюсы: предотвращает появление страниц-синонимов.

Поиск неполных дублей

1. Ищем при помощи вебмастера Google или сервиса Xenu

Алгоритм действий в этих сервисах абсолютно такой же, как и для поиска полных дублей. Единственное отличие заключается в том, что среди найденных дублей необходимо отобрать те страницы, которые имеют идентичные Title и/или Description, но совершенно разный контент.

В результате поиска в Google мы обнаружили группу неполных дублей (Рис. 2).

Рис. 2. Совершенно разные новости с дублированными мета-данными

2. Ищем в строке поиска Яндекса или Google

Страницы с частично похожим контентом, но разными мета-данными указанным выше способом выявить не удастся. В этом случае придется работать вручную.

Для начала условно выделите зоны риска:

  • скудный контент (сквозные блоки по объему превосходят основной текст страницы);
  • копированный контент (описание схожих товаров);
  • пересечение контента (анонсы, рубрики/подкаталоги, фильтры, сортировка).

Из каждой группы выберите несколько страниц.

Для наглядной иллюстрации примера мы воспользовались одной из карточек товаров на сайте мебельного магазина, проходившего аудит в нашей рубрике «Экспертиза». Вероятность появления дублей здесь достаточно высока, так как в карточках преобладают картинки и сквозные блоки, а уникальный контент сведен к минимуму.

Указываем в строке поиска Google фрагмент текста из описания товара, заключенный в кавычки, и домен сайта с оператором site: (Рис. 3).

Многие владельцы сайтов уделяют внимание главным образом тому, чтобы контент был уникален по сравнению с другими ресурсами. Однако не стоит упускать из виду наличие дублированного контента в пределах одного сайта. Это тоже оказывает сильное влияние на ранжирование.

Что такое дублированный контент

Повторяющийся, или дублированный, контент – это совпадающие в рамках сайта объемные блоки текста на разных страницах. Не обязательно такое делается со злым умыслом – чаще возникает по техническим причинам, подробно разобранные ниже.

Опасность состоит в том, что часто дублированный контент невозможно увидеть невооруженным глазом, однако поисковик его прекрасно видит и реагирует соответствующим образом.

Откуда берется дублированный контент и где он чаще встречается

Основные причины возникновения такого явления:

  • Изменение структуры сайта;
  • Намеренное использование в конкретных целях (скажем, версии для печати);
  • Ошибочные действия программистов и веб-мастеров;
  • Неувязки с CMS.

Например, часто встречается ситуация: replytocom (ответ на комментарий) в WordPress автоматически формирует и новые страницы с разными URL-адресами, но не содержимым.

Обычно дублированный контент замечается при создании анонсов статьи на других страницах сайта, размещении отзывов, а также при одинаковых описаниях товаров, категорий, рубрик.

Почему дублированный контент – это плохо

У повторяющегося содержимого есть аналог из области экономики – банковский овердрафт. Только здесь расходуется так называемый краулинговый бюджет. Это число страниц ресурса, которое за конкретный промежуток времени сможет просканировать поисковая машина. Ресурс очень ценный, и лучше потратить его на действительно важные и актуальные страницы, чем на десятки дублей идентичного текста.

Таким образом, дублированный контент ухудшает поисковое продвижение. Кроме того, теряются естественные ссылки и неверно распределяется ссылочный вес внутри сайта. А также подменяются по-настоящему релевантные страницы.

Как найти дублированный контент на сайте (вручную, программы и сервисы)

Существуют специальные программы для анализа ресурсов. Из них пользователи особенно выделяют Netpeak Spider. Она ищет полные копии страниц, совпадения по тайтлу или дескрипшену, заголовкам. Другой вариант — Screaming Frog, которая обладает схожим функционалом и по сути отличается только интерфейсом. Еще есть приложение Xenu`s Link Sleuth, работающее схожим с поисковиком образом и способное довольно качественно прочесать сайт на наличие дубликатов.

К сожалению, нет инструментов, способных полноценно отслеживать все дубли текста. Поэтому, скорее всего, придется производить ручную проверку. Вот список возможных факторов, повлекших за собой проблему:


Разобрались, как найти дублированный контент. А лучшие помощники в борьбе с ним – это переадресация 301, теги Canonical URL, указания в robots.txt и параметры Nofollow и Noindex в составе мета-тега «robots».

Одним из способов на скорую руку проверить, если ли на сайте дублированный контент, является расширенный поиск в Яндексе или Гугле. Необходимо ввести адрес сайта и кусок текста со страницы, которую решили проверить. Также можно использовать многочисленные программы для проверки уникальности текста:

  • Text.Ru;
  • eTXT Антиплагиат;
  • Advego Plagiatus;
  • Content-Watch.

Как бороться и чистить дублированный контент

Всё та же справочная система Гугл дает ряд советов по предотвращению появления данной проблемы.

  • 301. При структурных изменениях ресурса необходимо указывать редирект 301 в файле htaccess.
  • Используйте единый стандарт ссылок.
  • Контент для конкретного региона лучше размещать на доменах верхнего уровня, чем на поддоменах или в поддиректориях.
  • Устанавливайте предпочтительный способ индексирования с помощью Search Console.
  • Не используйте шаблоны. Вместо того, чтобы на каждой странице размещать текст о защите авторского права, лучше сделать ссылку, которая будет вести на отдельную страницу с этим текстом.
  • Разрабатывая новые страницы, следите, чтобы до полной готовности они были закрыты от индексации.
  • Разберитесь, как именно отображается ваш контент – могут быть отличия отображения в блогах и форумах.
  • Если на сайте много схожих статей, лучше или объединить их содержимое в одно целое, или уникализировать каждую.

Поисковиками не предусмотрено никаких санкций по отношению к сайтам, имеющим дублированный контент по техническим причинам (в отличие от тех, кто делает это намеренно с целью манипулировать результатами поиска или вводить в заблуждение посетителей).

После того, как дубли удалены, осталось убрать их из поисковой выдачи. Яндекс делает это самостоятельно, при условии, что файл robots.txt настроен должным образом. Что касается Google: там придется вручную прописать правила в Вебмастере, на вкладке «Параметры URL».

Заключение

Борьба с дублированным контентом на сайте – важный аспект деятельности владельца любого сайта. Причин его возникновения довольно много, и столь же много способов устранения.

Однако главным правилом остается: размещать исключительно оригинальный контент, независимо от типа сайта. Даже если это крупный сетевой магазин с тысячами страниц.

ПОЛУЧАЙТЕ АНОНСЫ ПОДОБНЫХ ПОСТОВ СЕБЕ НА ПОЧТУ

Подпишитесь и получайте не чаще, чем раз в неделю что-нибудь интересное из мира интернет-маркетинга, SEO, продвижения сайтов, интернет-магазинов, заработка на сайтах.

Дублированный контент ухудшает индексацию сайта

«Разные дороги ведут в разные места, и только одно из них — правильное»

Здравствуйте друзья! Эту тему я давно собирался раскрыть на страницах своего сайта, поэтому, изучив достаточно много материала по дублированию контента и его причинах, последствиях и способах устранения этого негативного явления, решил изложить свои мысли по данной проблеме на своем скромном ресурсе.

Запаситесь терпением и тщательно изучите все излагаемые рекомендации статьи, а затем проверьте состояние ваших ресурсов. Если хотите видеть отличное ранжирование страниц своих сайтов в поисковых системах — неукоснительно их выполняйте.

Не претендуя на все возможные способы устранения причин дублирования контента, я, тем не менее, предложу изучить наиболее важные моменты этого вопроса.

Если обычный пользователь (а иногда и сам вебмастер) может не заметить дублированный контент сайте, то поисковики это сразу определят. Их реакция будет однозначной: контент с этих страниц перестанет быть уникальным . А это уже есть нехорошо, так как негативно скажется на их ранжировании.

Кроме того, дублирование размывает ссылочный вес, на определенную запись, которую, оптимизируя, вы пытались продвинуть в ТОП, как целевую страницу. Дубли просто сгубят все попытки ее оптимизации, а эффект перелинковки будет минимальным.

Что такое дубликаты контента?

1.Контент, скопированный кем-то или лично вами и размещенный на сторонних ресурсах.

О том как бороться с ворованным контентом, можно прочитать множество статей в интернете, как один из вариантов — моя статья. Можно ли истребить — вопрос риторический и на сегодняшний день, на мой взгляд, кардинальных решений данной проблемы в интернете нет. Есть только несколько более-менее действенных приемов.

2. Контент -дубликат, который создает собственными руками вебмастер.

Полный (или неполный) дубликат при распространении информации(или как еще их называют — анонсов) на специальных сайтах и форумах. Желаете получить дубликат вашей записи в интернете — продублируйте его на каком-либо приличном ресурсе — результат, почти всегда, будет незамедлительным. Дубликат возможен непосредственно на страницах сайта. Случалось ли вам видеть две одинаковые страницы на своем ресурсе, когда вы создавали лишь одну? Почему так происходит? Причины в редактировании записей или сохранении неоконченных в черновиках, а затем, по неосторожности, создание дубликата. Вебмастер, сам того не замечая и в дальнейшем не просмотрев все свои записи, что бы не обнаружить дубликат, живет себе припеваючи, не подозревая, что у него появились «двойняшки», «тройняшки» и т.п.

3. Дублирование по техническим причинам — возникновение дублей, в которых виноваты CMS.

Эти ошибки появляются от того, что разработчики CMS думают не как браузеры или поисковые пауки, а думают как и подобает разработчикам движков к сайтам; грешат этим многие — Joomla, например.

Немного поясню. Предположим, что вас есть статья с ключевой фразой «дублирование контента» . Она должна располагаться на странице с таким адресом:, http://домен.ru/дублирование контента/ , но тот же контент может отображаться, например, вот так: http://домен.ru/article-category/дублирование контента/ . А если еще учесть другое дублирование, страницы , например: http://домен.ru/дублирование контента/?source=rss . Все эти урлы — разные адреса для любой , но один и тот же для пользователя(читателя). Эти различия позволяют вебмастеру проследить откуда пришел пользователь, но они могут и навредить, если не сделать нужных настроек индексирования.

Сайты, как известно, работают благодаря существующей системе базы данных. В базе существует единственная версия определенной статьи(ID), а вот скрипты сайта позволяют выводить эту статью из базы данных на разных страницах(URL) . Но для поисковиков нужен документ(URL) — только он является уникальным индефикатором и больше ничего!

4. Нечеткие дубли.

Особый вид дублирования, который встречается в основном на интернет-магазинах, где где страницы с карточками товаров отличаются лишь несколькими предложениями с описанием, а весь остальной контент, состоящий из сквозных блоков и прочих элементов, одинаковый. Трудно винить вебмастера, хотя и тут есть некоторые варианты их устранения.

Итак, мы разобрались с причинами и последствиями дублирования контента. Теперь перейдем к решению проблем. Прежде всего, выясним

Как обнаружить страницы-копии?

1. Ручной способ.

1) Если ваш контент не слишком велик, просто пролистайте в админпанели страничку «Все записи » и, при обнаружении дубликатов, удалите лишние.

2) Для выяснения наличия дублей, можно воспользоваться сервисами поисковых систем «Яндекс-вебмастер» или Google Webmaster Tools.

Например, в Webmaster Tools откройте страницу «Инструменты для вебмастеров» — «Оптимизация» — «Оптимизация HTML» : если есть ошибки и дубликаты, мастер все вам покажет. Разбирайтесь кликами, устраняйте ошибки и дубли, заодно.

3) Воспользуйтесь непосредственно окнами поиска систем (приблизительный метод). Введите для каждой из них запись вида site: домен.ru и сравните их результаты. Если они не очень сильно отличаются, значит с дублированием у вас не все так уж плохо.

4) Есть один эффективный способ нахождения дубликатов — поиск по фрагментам текста. Делается это просто: в поисковом окне любой ситемы, введите текстовой фрагмент вашей записи(статьи) в размере 10- 20 слов(лучше из середины) и проанализировать полученный результат. Наличие двух и более страниц в выдаче — значит дубли для этого опуса имеют место быть. Если нет — можете немного порадоваться:).

Сложно, если сайт накопил множество страниц. Вышеуказанная проверка может стать невыносимой рутинной работой. Желаете минимизировать временные затраты — воспользуйтесь программой Xenu`s Link Sleuth .

Чтобы проверить сайт, необходимо открыть новый проект, выбрав в меню «File» «Check URL», ввести адрес и нажать «OK». После этого программа начнет обработку всех URL сайта. По окончании проверки нужно экспортировать полученные данные в любой удобный редактор и приступить к поиску дублей.

Кому нужна ссылка на скачивание файла этой программы, отпишитесь в комментариях, пришлю на ваш e-mail.

Итак, мы выяснили, какие (основные) причины приводят к возникновению дублированного контента. Теперь определим способы его устранения.

Способы устранения дублированного контента

Канонические URL — концептуальное решение проблемы

Если у вас нет возможности () удалять дубликаты, проблему можно решить с помощью тега canonica l (применяется для нечетких копий). Тег canonical так же подойдет для версий страниц для печати и в других подобных случаях. Применяется он очень просто – для всех копий указывается атрибут rel=”canonical”, а для основной страницы, которая наиболее релевантна, – нет. Код должен выглядеть примерно так: link rel=»canonical» href=»http://домен.ru/страница-копия»/, и стоять в пределах тега head.

Для пользователей с движком WordPress имеется прекрасная возможность сделать все это автоматически, установив плагин all in one seo pack или ему подобный. В настройках эта операция устанавливается метками:

Настройка функций disallow в файле robots.txt вашего сайта

Хотя настройка запрещающих страниц для индексирования не всегда является эффективным способом от дублей, так как поисковики умудряются их иногда обходить, все же правильно настроенный robot.txt значительно облегчит задачу их недопущения.

С www или без www

Как будет выглядеть сраницы вашего сайта — только с использованием http или http.www? Неопределенность породит дублирование. Сразу, после создания сайта, определите, какой гипертекстовый транспортный протокол будете использовать. Для этого в панели вебмастеров Яндекса и Google проставьте ваш выбор (в Google это можно сделать для обоих версий, но нужно будет подтвердить права на оба адреса). Можно, оставить по умолчанию или на «выбор поискового робота», но лучше четко определится.

Настройка редиректа

Редирект 301 отлично подходит для склеивания страниц-копий, URL которых отличаются наличием и отсутствием www. Как вы уже поняли(смотри скрин выше), настройка редиректа на WordPress тоже упрощается с помощью плагина. В сущности, если вы и поисковой робот «определился» с вашим выбором — с www илии без него будет основной домен, настройка редиректа для всех страниц не нужна. Впрочем, тема настройки редиректа и его целесообразности — тема отдельной статьи.

Итоги и выводы

  • не допускайте дублирования страниц(контента) на ваших ресурсах, так как дубли приводят к серьезному понижению релевантности страниц что затрудняет их вывод на передовые позиции в в поисковой выдаче(ТОП);
  • проблемы с дублированием контента в своем большинстве имеют решение — для этого используйте все возможные средства;
  • постоянно следите за процессом индексации вашего контента и ни создания дублей на нем

Вот и все, дорогой читатель. Если есть что добавить или поправить меня, задать вопрос — рискните!

Не совсем в тему, но про близнецов.

(Visited 28 times, 1 visits today)

Наверняка, вам не раз приходилось слышать словосочетание “дублированный контент” и вы, как опытный владелец сайта, никогда не стали бы размещать один и тот же контент дважды, не так ли?

Дублированный контент можно сравнить с банковским овердрафтом. Только в этом случае вы расходуете свой ценный краулинговый бюджет.

Краулинговый бюджет - это количество страниц на сайте, которое поисковый робот может сканировать за определенной отрезок времени. Поэтому так важно расходовать его на нужные нам страницы.

Проявляя себя в различных формах, дублированный контент может стать одной из самых неуловимых и невидимых проблем, которая может негативно влиять на ранжирование и продвижение сайта. Его появление зачастую связано с особенностями архитектуры сайта или ограничениями CMS.

К сожалению, нет такого чекера в Google Вебмастере, который бы мог легко обнаружить дубли контента. Даже самые продвинутые сторонние инструменты не всегда хорошо справляются с этой задачей, особенно, когда источник проблемы находится внутри. Ручной проверки не избежать.

Перед вами - список с 8 потенциальными причинами появления дублей страниц на сайте:

HTTP и HTTPS страницы

Одна из самых быстрых проверок того, что у вас есть две доступные к индексированию версии сайта - это попробовать зайти на него, используя как HTTP, так и HTTPS-протокол. Если обе версии открываются, очевидно, что ваш разработчик перевел сайт на HTTPS и не настроил 301 редирект с HTTP-версии.

До того как Google стал активно призывать веб-мастеров переводить свои сайты полностью на HTTPS, многие подключили HTTPS только на отдельных страницах, которые нуждались в дополнительной безопасности, например, страницы авторизации или страницы с транзакциями. Если разработчик использовал относительные ссылки, то каждый раз, когда поисковый робот посещает защищенные страницы, он вынужден добавлять HTTPS ко всем URL, что, в конечном счете, приводит к появлению дублей страниц.

Таким же образом, нужно проверить нет ли у сайта двух версий страниц как с WWW, так и без WWW. Решить эту проблему можно настроив 301 редирект и указав предпочитаемый домен (главное зеркало) в Google Вебмастере.

Cайты, ворующие ваш контент

До тех пор пока не существует законодательства, позволяющего вернуть вам украденный контент, есть только способы, которые вы можете использовать в коде, чтобы усложнить задачу ворам, пытающимся выдать ваш контент за свой собственный. Для этого всегда используйте на сайте абсолютные ссылки вместо относительных:

Абсолютные ссылки: http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (начинается с указания протокола и содержит имя сайта).
Относительные ссылки: /wiki/dublirovannyi-kontent.html (берет начало от корня сайта или текущего документа).

Почему это важно? При использовании относительных URL-адресов, ваш браузер предполагает, что ссылка указывает на страницу, на которой вы уже находитесь. Некоторые разработчики предпочитают относительные URL-адреса, потому что они упрощают процесс написания кода.

Если разработчик не желает переписывать весь сайт, можно использовать ссылающиеся на себя канонические теги. Когда ваш контент будет размещен на другом сайте, канонические теги могут остаться, помогая Google определить, что ваш сайт является первоисточником контента.

Чтобы узнать, что ваш контент украли, можно использовать любой из бесплатных сервисов (например, Siteliner, Copyscape. Etxt, AdvegoPlagiatus и др.)

Заброшенные поддомены

Предположим, вы отказались от какого-либо поддомена и решили использовать вместо этого субдиректорию. Или, например, вы создали совершенно новый сайт. В любом случае, ваш старый контент может быть доступен и, более того, он может плохо повлиять на ранжирование новых страниц. Для решения проблемы лучше всего использовать 301 редирект с этого субдомена на новый сайт/каталог. Это особенно важно, если ваш старый ресурс имеет большую ссылочную массу.

Скрытые страницы в стадии разработки

Решили обновить дизайн? Готовите ваш сайт к большим переменам? Если перед этим вы не закрыли свои тестовые страницы (а тем более дев-версии сайта) от индексации, то вы не застрахованы от того, что робот их не обнаружит.

Существует распространенное заблуждение, что никто никогда не догадается ввести в браузерную строку какой-то выдуманный URL на вашем сайте http://razrabotka.sait.ru/, если нигде нет ссылки на нее в коде, кажется, что это просто нереально. Но это не так! Google постоянно ищет и индексирует новые веб-страницы, в том числе и находящиеся в разработке. Все это может повлиять на результаты ранжирования, а также ввести пользователей в заблуждение.

Это не только наносит огромный урон сайту с точки зрения конфиденциальности и безопасности, но также может нанести серьезный ущерб краулинговому бюджету. Избежать этого просто: используйте мета-тег robots c noindex на всех тестовых страницах или заблокируйте их в файле robots.txt.


или

Оба варианта обозначают запрет на индексацию текста и переход по ссылкам на странице.

Помните, что, перенося страницы из дев-режима на лив, необходимо удалить эти блокирующие директивы из кода.

Динамически генерируемые параметры в URL

Чаще всего динамические URL генерируются на основе используемых на сайте фильтров. Как же именно выглядят такие URL?

URL 1: www.shop.com/chocolate/cake/vanilla
URL 2: www.shop.com/chocolate/cake/vanilla%8in
URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble

Это простой пример, однако, ваша CMS может добавлять различные параметры фильтров и генерировать излишне длинные строки URL-адресов, которые могут участвовать в процессе сканирования поисковым роботом.

Таким образом, Google может создавать и индексировать бесконечные комбинации URL, которые пользователь даже не запрашивает.

В данном случае, примените канонический тег с указанием предпочитаемого URL и настройте параметры сканирования URL в Google Вебмастере.

Вы можете пропустить этот шаг и заблокировать определенные URL-адреса в файле robots.txt с использованием символа (*), чтобы запретить индексацию всего, что входит в указанный каталог. Например: Disallow:/chocolate/cake/*

Зеркальные подкаталоги

Ваш бизнес работает в нескольких регионах? Некоторые компании предпочитают создать основную целевую страницу, которая позволяет пользователям выбрать наиболее подходящий для них регион, а затем перенаправляет их в соответствующий подкаталог. Например:

URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de

Хоть это и может казаться логичным, подумайте, действительно ли существует необходимость в этой настройке. Ведь, в то время как вы нацелены на разную аудиторию, есть вероятность, что оба подкаталога будут полностью дублировать друг друга по содержанию. Чтобы решить эту проблему, используйте Google Вебмастер для настройки геотаргетинга.

Синдицикация контента

Синдицикация контента - повторное использование одного и того же контента на разных ресурсах с целью продвижения вашего сайта/бренда/контента и привлечения дополнительного трафика.

Синдикация является отличным способом ознакомить новую аудиторию с вашим сайтом, однако, стоит определить правила для тех, кто будет перепубликовать ваш контент.

В идеале, необходимо попросить издателей использовать атрибут “rel=canonical” на странице материала, чтобы указать поисковым системам, что ваш веб-сайт является первоисточником контента. Кроме этого, они также могут закрыть контент от индексации, что позволит решить потенциальные проблемы с дублированием в результатах поиска.

В конце концов, издатели могут ссылаться на первоначальную статью с указанием вас как первоисточника.

Схожий контент

Схожий контент может причинить не меньше вреда, чем дублированный. В определении Google про дублированный контент даже фигурирует фраза «существенно похожий». И пусть части материала могут быть разными по синтаксису, общее правило заключается в том, что, если вы можете почерпнуть из них одну и ту же информацию, то нет никакой причины для существования на веб-сайте их обеих. Здесь, отличным вариантом решения проблемы является использование канонического тега или рассмотрение вопроса об объединении этих частей контента в один.

Выводы

Очень важно следить за появлением дублей контента на сайте, чтобы избежать израсходования вашего краулингового бюджета, ведь это препятствует поиску и индексированию роботом новых и нужных вам страниц. В данном случае, лучшими инструментами в вашем арсенале могут послужить канонические теги, 301 редирект, атрибуты nofollow/noindex в мета-теге "robots" и директивы в файле robots.txt. Работайте над выявлением и удалением дублированного контента, добавив эти пункты проверки в свой seo-аудит.

Лучшие статьи по теме