Дубликаты контента — одна из основных проблем низкого ранжирования сайта в поисковых системах. К данной проблеме приводит наличие на сайте страниц, которые полностью или частично идентичны друг другу. Естественно для поисковых систем наличие на сайте мусорных страниц представляет серьёзную проблему, так как приходится тратить на их обработку серверные мощности. Поисковым системам нет смысла тратить физические ресурсы на индексацию такого бесполезного контента. Поэтому они борются с такими сайтами, накладывая на них фильтр, либо занижает в ранжировании, что приводит к низким позициям по продвигаемым запросам.
Наличие на сайте страниц дубликатов приводит к тому что:
Дубликаты бывают полными и частичными. Полные дубликаты — это когда страницы полностью идентичны. Соответственно, частичные дубли — это когда страницы совпадают не полностью. Полные дубликаты устраняют через robots.txt и настройку 301 редиректа. Частичные дубликаты устраняются путем проведения необходимых правок на сайте.
Привожу перечень чек-листов, которые нужно пройти, чтобы выявить и решить проблему дубликатов:
Дублированный контент ухудшает индексацию сайта
«Разные дороги ведут в разные места, и только одно из них — правильное»
Здравствуйте друзья! Эту тему я давно собирался раскрыть на страницах своего сайта, поэтому, изучив достаточно много материала по дублированию контента и его причинах, последствиях и способах устранения этого негативного явления, решил изложить свои мысли по данной проблеме на своем скромном ресурсе.
Запаситесь терпением и тщательно изучите все излагаемые рекомендации статьи, а затем проверьте состояние ваших ресурсов. Если хотите видеть отличное ранжирование страниц своих сайтов в поисковых системах — неукоснительно их выполняйте.
Не претендуя на все возможные способы устранения причин дублирования контента, я, тем не менее, предложу изучить наиболее важные моменты этого вопроса.
Если обычный пользователь (а иногда и сам вебмастер) может не заметить дублированный контент сайте, то поисковики это сразу определят. Их реакция будет однозначной: контент с этих страниц перестанет быть уникальным . А это уже есть нехорошо, так как негативно скажется на их ранжировании.
Кроме того, дублирование размывает ссылочный вес, на определенную запись, которую, оптимизируя, вы пытались продвинуть в ТОП, как целевую страницу. Дубли просто сгубят все попытки ее оптимизации, а эффект перелинковки будет минимальным.
О том как бороться с ворованным контентом, можно прочитать множество статей в интернете, как один из вариантов — моя статья. Можно ли истребить — вопрос риторический и на сегодняшний день, на мой взгляд, кардинальных решений данной проблемы в интернете нет. Есть только несколько более-менее действенных приемов.
Полный (или неполный) дубликат при распространении информации(или как еще их называют — анонсов) на специальных сайтах и форумах. Желаете получить дубликат вашей записи в интернете — продублируйте его на каком-либо приличном ресурсе — результат, почти всегда, будет незамедлительным. Дубликат возможен непосредственно на страницах сайта. Случалось ли вам видеть две одинаковые страницы на своем ресурсе, когда вы создавали лишь одну? Почему так происходит? Причины в редактировании записей или сохранении неоконченных в черновиках, а затем, по неосторожности, создание дубликата. Вебмастер, сам того не замечая и в дальнейшем не просмотрев все свои записи, что бы не обнаружить дубликат, живет себе припеваючи, не подозревая, что у него появились «двойняшки», «тройняшки» и т.п.
Эти ошибки появляются от того, что разработчики CMS думают не как браузеры или поисковые пауки, а думают как и подобает разработчикам движков к сайтам; грешат этим многие — Joomla, например.
Немного поясню. Предположим, что вас есть статья с ключевой фразой «дублирование контента» . Она должна располагаться на странице с таким адресом:, http://домен.ru/дублирование контента/ , но тот же контент может отображаться, например, вот так: http://домен.ru/article-category/дублирование контента/ . А если еще учесть другое дублирование, страницы , например: http://домен.ru/дублирование контента/?source=rss . Все эти урлы — разные адреса для любой , но один и тот же для пользователя(читателя). Эти различия позволяют вебмастеру проследить откуда пришел пользователь, но они могут и навредить, если не сделать нужных настроек индексирования.
Сайты, как известно, работают благодаря существующей системе базы данных. В базе существует единственная версия определенной статьи(ID), а вот скрипты сайта позволяют выводить эту статью из базы данных на разных страницах(URL) . Но для поисковиков нужен документ(URL) — только он является уникальным индефикатором и больше ничего!
Особый вид дублирования, который встречается в основном на интернет-магазинах, где где страницы с карточками товаров отличаются лишь несколькими предложениями с описанием, а весь остальной контент, состоящий из сквозных блоков и прочих элементов, одинаковый. Трудно винить вебмастера, хотя и тут есть некоторые варианты их устранения.
Итак, мы разобрались с причинами и последствиями дублирования контента. Теперь перейдем к решению проблем. Прежде всего, выясним
1) Если ваш контент не слишком велик, просто пролистайте в админпанели страничку «Все записи » и, при обнаружении дубликатов, удалите лишние.
2) Для выяснения наличия дублей, можно воспользоваться сервисами поисковых систем «Яндекс-вебмастер» или Google Webmaster Tools.
Например, в Webmaster Tools откройте страницу «Инструменты для вебмастеров» — «Оптимизация» — «Оптимизация HTML» : если есть ошибки и дубликаты, мастер все вам покажет. Разбирайтесь кликами, устраняйте ошибки и дубли, заодно.
3) Воспользуйтесь непосредственно окнами поиска систем (приблизительный метод). Введите для каждой из них запись вида site: домен.ru и сравните их результаты. Если они не очень сильно отличаются, значит с дублированием у вас не все так уж плохо.
4) Есть один эффективный способ нахождения дубликатов — поиск по фрагментам текста. Делается это просто: в поисковом окне любой ситемы, введите текстовой фрагмент вашей записи(статьи) в размере 10- 20 слов(лучше из середины) и проанализировать полученный результат. Наличие двух и более страниц в выдаче — значит дубли для этого опуса имеют место быть. Если нет — можете немного порадоваться:).
Сложно, если сайт накопил множество страниц. Вышеуказанная проверка может стать невыносимой рутинной работой. Желаете минимизировать временные затраты — воспользуйтесь программой Xenu`s Link Sleuth
.
Кому нужна ссылка на скачивание файла этой программы, отпишитесь в комментариях, пришлю на ваш e-mail.Чтобы проверить сайт, необходимо открыть новый проект, выбрав в меню «File» «Check URL», ввести адрес и нажать «OK». После этого программа начнет обработку всех URL сайта. По окончании проверки нужно экспортировать полученные данные в любой удобный редактор и приступить к поиску дублей.
Итак, мы выяснили, какие (основные) причины приводят к возникновению дублированного контента. Теперь определим способы его устранения.
Если у вас нет возможности () удалять дубликаты, проблему можно решить с помощью тега canonica l (применяется для нечетких копий). Тег canonical так же подойдет для версий страниц для печати и в других подобных случаях. Применяется он очень просто – для всех копий указывается атрибут rel=”canonical”, а для основной страницы, которая наиболее релевантна, – нет. Код должен выглядеть примерно так: link rel=»canonical» href=»http://домен.ru/страница-копия»/, и стоять в пределах тега head.
Для пользователей с движком WordPress имеется прекрасная возможность сделать все это автоматически, установив плагин all in one seo pack или ему подобный. В настройках эта операция устанавливается метками:
Хотя настройка запрещающих страниц для индексирования не всегда является эффективным способом от дублей, так как поисковики умудряются их иногда обходить, все же правильно настроенный robot.txt значительно облегчит задачу их недопущения.
Как будет выглядеть сраницы вашего сайта — только с использованием http или http.www? Неопределенность породит дублирование. Сразу, после создания сайта, определите, какой гипертекстовый транспортный протокол будете использовать. Для этого в панели вебмастеров Яндекса и Google проставьте ваш выбор (в Google это можно сделать для обоих версий, но нужно будет подтвердить права на оба адреса). Можно, оставить по умолчанию или на «выбор поискового робота», но лучше четко определится.
Редирект 301 отлично подходит для склеивания страниц-копий, URL которых отличаются наличием и отсутствием www. Как вы уже поняли(смотри скрин выше), настройка редиректа на WordPress тоже упрощается с помощью плагина. В сущности, если вы и поисковой робот «определился» с вашим выбором — с www илии без него будет основной домен, настройка редиректа для всех страниц не нужна. Впрочем, тема настройки редиректа и его целесообразности — тема отдельной статьи.
Вот и все, дорогой читатель. Если есть что добавить или поправить меня, задать вопрос — рискните!
Не совсем в тему, но про близнецов.
(Visited 28 times, 1 visits today)
Наверняка, вам не раз приходилось слышать словосочетание “дублированный контент” и вы, как опытный владелец сайта, никогда не стали бы размещать один и тот же контент дважды, не так ли?
Дублированный контент можно сравнить с банковским овердрафтом. Только в этом случае вы расходуете свой ценный краулинговый бюджет.
Краулинговый бюджет - это количество страниц на сайте, которое поисковый робот может сканировать за определенной отрезок времени. Поэтому так важно расходовать его на нужные нам страницы.
Проявляя себя в различных формах, дублированный контент может стать одной из самых неуловимых и невидимых проблем, которая может негативно влиять на ранжирование и продвижение сайта. Его появление зачастую связано с особенностями архитектуры сайта или ограничениями CMS.
К сожалению, нет такого чекера в Google Вебмастере, который бы мог легко обнаружить дубли контента. Даже самые продвинутые сторонние инструменты не всегда хорошо справляются с этой задачей, особенно, когда источник проблемы находится внутри. Ручной проверки не избежать.
Перед вами - список с 8 потенциальными причинами появления дублей страниц на сайте:
Одна из самых быстрых проверок того, что у вас есть две доступные к индексированию версии сайта - это попробовать зайти на него, используя как HTTP, так и HTTPS-протокол. Если обе версии открываются, очевидно, что ваш разработчик перевел сайт на HTTPS и не настроил 301 редирект с HTTP-версии.
До того как Google стал активно призывать веб-мастеров переводить свои сайты полностью на HTTPS, многие подключили HTTPS только на отдельных страницах, которые нуждались в дополнительной безопасности, например, страницы авторизации или страницы с транзакциями. Если разработчик использовал относительные ссылки, то каждый раз, когда поисковый робот посещает защищенные страницы, он вынужден добавлять HTTPS ко всем URL, что, в конечном счете, приводит к появлению дублей страниц.
Таким же образом, нужно проверить нет ли у сайта двух версий страниц как с WWW, так и без WWW. Решить эту проблему можно настроив 301 редирект и указав предпочитаемый домен (главное зеркало) в Google Вебмастере.
До тех пор пока не существует законодательства, позволяющего вернуть вам украденный контент, есть только способы, которые вы можете использовать в коде, чтобы усложнить задачу ворам, пытающимся выдать ваш контент за свой собственный. Для этого всегда используйте на сайте абсолютные ссылки вместо относительных:
Абсолютные ссылки:
http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (начинается с указания протокола и содержит имя сайта).
Относительные ссылки:
/wiki/dublirovannyi-kontent.html (берет начало от корня сайта или текущего документа).
Почему это важно? При использовании относительных URL-адресов, ваш браузер предполагает, что ссылка указывает на страницу, на которой вы уже находитесь. Некоторые разработчики предпочитают относительные URL-адреса, потому что они упрощают процесс написания кода.
Если разработчик не желает переписывать весь сайт, можно использовать ссылающиеся на себя канонические теги. Когда ваш контент будет размещен на другом сайте, канонические теги могут остаться, помогая Google определить, что ваш сайт является первоисточником контента.
Чтобы узнать, что ваш контент украли, можно использовать любой из бесплатных сервисов (например, Siteliner, Copyscape. Etxt, AdvegoPlagiatus и др.)
Предположим, вы отказались от какого-либо поддомена и решили использовать вместо этого субдиректорию. Или, например, вы создали совершенно новый сайт. В любом случае, ваш старый контент может быть доступен и, более того, он может плохо повлиять на ранжирование новых страниц. Для решения проблемы лучше всего использовать 301 редирект с этого субдомена на новый сайт/каталог. Это особенно важно, если ваш старый ресурс имеет большую ссылочную массу.
Решили обновить дизайн? Готовите ваш сайт к большим переменам? Если перед этим вы не закрыли свои тестовые страницы (а тем более дев-версии сайта) от индексации, то вы не застрахованы от того, что робот их не обнаружит.
Существует распространенное заблуждение, что никто никогда не догадается ввести в браузерную строку какой-то выдуманный URL на вашем сайте http://razrabotka.sait.ru/, если нигде нет ссылки на нее в коде, кажется, что это просто нереально. Но это не так! Google постоянно ищет и индексирует новые веб-страницы, в том числе и находящиеся в разработке. Все это может повлиять на результаты ранжирования, а также ввести пользователей в заблуждение.
Это не только наносит огромный урон сайту с точки зрения конфиденциальности и безопасности, но также может нанести серьезный ущерб краулинговому бюджету. Избежать этого просто: используйте мета-тег robots c noindex на всех тестовых страницах или заблокируйте их в файле robots.txt.
или
Оба варианта обозначают запрет на индексацию текста и переход по ссылкам на странице.
Помните, что, перенося страницы из дев-режима на лив, необходимо удалить эти блокирующие директивы из кода.
Чаще всего динамические URL генерируются на основе используемых на сайте фильтров. Как же именно выглядят такие URL?
URL 1: www.shop.com/chocolate/cake/vanilla
URL 2: www.shop.com/chocolate/cake/vanilla%8in
URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble
Это простой пример, однако, ваша CMS может добавлять различные параметры фильтров и генерировать излишне длинные строки URL-адресов, которые могут участвовать в процессе сканирования поисковым роботом.
Таким образом, Google может создавать и индексировать бесконечные комбинации URL, которые пользователь даже не запрашивает.
В данном случае, примените канонический тег с указанием предпочитаемого URL и настройте параметры сканирования URL в Google Вебмастере.
Вы можете пропустить этот шаг и заблокировать определенные URL-адреса в файле robots.txt с использованием символа (*), чтобы запретить индексацию всего, что входит в указанный каталог. Например: Disallow:/chocolate/cake/*
Ваш бизнес работает в нескольких регионах? Некоторые компании предпочитают создать основную целевую страницу, которая позволяет пользователям выбрать наиболее подходящий для них регион, а затем перенаправляет их в соответствующий подкаталог. Например:
URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de
Хоть это и может казаться логичным, подумайте, действительно ли существует необходимость в этой настройке. Ведь, в то время как вы нацелены на разную аудиторию, есть вероятность, что оба подкаталога будут полностью дублировать друг друга по содержанию. Чтобы решить эту проблему, используйте Google Вебмастер для настройки геотаргетинга.
Синдицикация контента - повторное использование одного и того же контента на разных ресурсах с целью продвижения вашего сайта/бренда/контента и привлечения дополнительного трафика.
Синдикация является отличным способом ознакомить новую аудиторию с вашим сайтом, однако, стоит определить правила для тех, кто будет перепубликовать ваш контент.
В идеале, необходимо попросить издателей использовать атрибут “rel=canonical” на странице материала, чтобы указать поисковым системам, что ваш веб-сайт является первоисточником контента. Кроме этого, они также могут закрыть контент от индексации, что позволит решить потенциальные проблемы с дублированием в результатах поиска.
В конце концов, издатели могут ссылаться на первоначальную статью с указанием вас как первоисточника.
Схожий контент может причинить не меньше вреда, чем дублированный. В определении Google про дублированный контент даже фигурирует фраза «существенно похожий». И пусть части материала могут быть разными по синтаксису, общее правило заключается в том, что, если вы можете почерпнуть из них одну и ту же информацию, то нет никакой причины для существования на веб-сайте их обеих. Здесь, отличным вариантом решения проблемы является использование канонического тега или рассмотрение вопроса об объединении этих частей контента в один.
Очень важно следить за появлением дублей контента на сайте, чтобы избежать израсходования вашего краулингового бюджета, ведь это препятствует поиску и индексированию роботом новых и нужных вам страниц. В данном случае, лучшими инструментами в вашем арсенале могут послужить канонические теги, 301 редирект, атрибуты nofollow/noindex в мета-теге "robots" и директивы в файле robots.txt. Работайте над выявлением и удалением дублированного контента, добавив эти пункты проверки в свой seo-аудит.
Дубли контента – это частично или полностью одинаковый текст, картинки и прочие элементы наполнения сайта, доступные по разным адресам страниц (URL). Наличие дублей может значительно затруднять поисковое продвижение сайта.
По оценке специалистов, дублированный контент – самая распространенная ошибка внутренней оптимизации, присутствующая на каждом втором веб-ресурсе.
Как проверить, есть ли дубли на вашем сайте, и каким образом от них избавиться? Об этом мы расскажем в новом выпуске нашей рассылки.
Дубли бывают четкие и нечеткие (или полные и неполные).
Четкие дубли – страницы-копии с абсолютно одинаковым контентом, содержимым мета-тега Description и заголовка Title, доступные по разным адресам. Например, у исходной страницы могут появиться следующие дубли:
Нечеткие дубли – частично одинаковый контент на разных URL.
В качестве примеров таких дублей можно привести следующие варианты:
Из-за дублей количество страниц в базе поисковых систем может увеличиться в несколько раз, некоторые страницы могут быть не проиндексированы, т. к. на обход сайта поисковому роботу выделяется фиксированная квота количества страниц.
Усложняется определение основной страницы, которая попадет в поисковую выдачу: выбор робота может не совпасть с выбором вебмастера.
Если дубль будет получать хороший трафик и поведенческие метрики, то при очередном апдейте он может заменять основную (продвигаемую) страницу в выдаче. При этом позиции в поиске «просядут», т.к. дубль не будет иметь ссылочной популярности.
И Яндекс, и Google борются с неуникальным контентом, в связи с чем могут применить к «засоренному» сайту фильтры АГС и Panda.
Неполные дубли (страницы категорий, новости, карточки товаров и т. д.) из-за малой уникальности имеют шанс не попасть в индекс поисковиков вообще. Например, это может случиться с частью товарных карточек, которые поисковый алгоритм сочтет дублями.
Будучи владельцем сайта, даже без специальных знаний и навыков вы сможете самостоятельно найти дубли на вашем ресурсе. Ниже дана инструкция по поиску и устранению дублированного контента.
Самый быстрый способ найти полные дубли на сайте – отследить совпадение тегов Title и Description. Для этого можно использовать панель вебмастера Google или популярный у оптимизаторов сервис Xenu. Поиск ведется среди проиндексированных страниц.
Минусы: не все дубли можно (и нужно) удалять (например версии страниц с рекламными метками); трудоемкая работа, занимающая при большом количестве страниц много времени. Не исключает появления новых дублей. Вес с дублей не передается основной странице.
Разработчики популярных CMS предусмотрели ряд решений, предотвращающих появление дублей. При этом вебмастерам при работе с движком необходимо внимательно выставлять настройки. Если вы что-то упустили из виду и дубли все же появились, никогда не поздно все исправить и устранить копии. Внятные инструкции по настройкам движка и использованию SEO-плагинов можно найти на профильных блогах и на форумах WordPress, Joomla, Drupal, Битрикс, а также других широко представленных CMS.
Полезные SEO-плагины для борьбы с дублями:
Универсальное решение для самых разных CMS – предупредить появление новых дублей на уровне движка. Необходимо задать такое условие, при котором в процессе обработки адресных ссылок CMS будет отличать «хорошие» от «плохих» и отображать в строке браузера только те, которые разрешены правилом. Это позволит избежать формирования страниц-синонимов (со знаком «/» и без него, с ненужным окончанием.html, GET-параметрами и проч.), однако не защитит от возникновения дублей, если у страниц не будут уникализированы Title и Description.
Для реализации данного метода в файле.htaccess необходимо включить следующее правило:
RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !-f RewriteRule ^(.*)$ index.php
Кроме этого, следует реализовать необходимые проверки в самом движке.
Метод отличается высокой сложностью и требует обращения к специалистам по разработке.
Алгоритм действий в этих сервисах абсолютно такой же, как и для поиска полных дублей. Единственное отличие заключается в том, что среди найденных дублей необходимо отобрать те страницы, которые имеют идентичные Title и/или Description, но совершенно разный контент.
В результате поиска в Google мы обнаружили группу неполных дублей (Рис. 2).
Рис. 2. Совершенно разные новости с дублированными мета-даннымиСтраницы с частично похожим контентом, но разными мета-данными указанным выше способом выявить не удастся. В этом случае придется работать вручную.
Для начала условно выделите зоны риска:
Из каждой группы выберите несколько страниц.
Для наглядной иллюстрации примера мы воспользовались одной из карточек товаров на сайте мебельного магазина, проходившего аудит в нашей рубрике «Экспертиза». Вероятность появления дублей здесь достаточно высока, так как в карточках преобладают картинки и сквозные блоки, а уникальный контент сведен к минимуму.
Указываем в строке поиска Google фрагмент текста из описания товара, заключенный в кавычки, и домен сайта с оператором site: (Рис. 3).
Поисковые системы типа Google столкнулись с проблемой – и имя ей «дублированный контент». Контент называют дублирующим, если он в похожем виде появляется в разных местах глобальной сети Интернет (по разным URL-адресам), в следствие чего поисковые системы не знают, какой URL отображать в результатах поиска. Это может отрицательно сказываться на ранжировании веб-страницы, а когда люди начинают ссылаться на разные версии одного и того же контента, проблема только усугубляется.
Данная статья поможет понять причины возникновения дублирующего контента, и даст понимание того, что нужно делать в каждом конкретном случае.
Дублированный контент можно сравнить с перекрестком, на котором дорожные знаки указывают разные направления для одного и того же населенного пункта: какой путь вам выбрать? Что ещё хуже, конечное место назначения тоже отличается, совсем чуть-чуть. Как читателю вам все равно, главное получить то, за чем пришли, но поисковая система должна выбрать какую страницу отображать в результатах поиска, поскольку, естественно, не хочет повторно отображать один и тот же контент.
Допустим ваша статья о «ключевом слове x» появляется в неизменном виде по адресам и http://www.example.com/article-category/keyword-x/ . Ситуация не надуманная: подобное происходит во многих современных системах управления контентом. Затем, скажем, вашу статью взяли на вооружение несколько блогеров, причем одни сослались на первый URL адрес, а другие на второй. Вот он, тот самый момент, когда проблема поисковых систем показывает свою истинную природу – вас она тоже касается. дублированный контент является вашими трудностями, поскольку те ссылки продвигают разные URL. Если бы они ссылались на один URL-адрес, шансы ранжирования «ключевого слова x» были бы выше.
Существуют десятки причин, по которым, появляется дублированный контент. Большинство из них носят технический характер: не так уж и часто человек решается на размещение одинакового контента в двух разных местах, не дав при этом понять какой из них является оригинальным – для большинства из нас это кажется неестественным. Однако имеется большое количество технических причин, и возникают они главным образом потому, что разработчики мыслят по-своему – не так как браузеры, и даже не так как пользователи, не говоря уже о поисковых пауках – они размышляют, как программисты. Возьмем, к примеру, упомянутую ранее статью, находящуюся по адресам http://www.example.com/keyword-x/ и http://www.example.com/article-category/keyword-x/. Если вы поинтересуетесь мнением разработчиков, они заверят вас, что статья здесь одна.
Нет, разработчики не сошли с ума, они просто говорят на другом языке. Вероятнее всего сайт будет подкреплен системой управления содержимым CMS, и в её базе данных будет содержаться лишь одна статья, однако программное обеспечение веб-сайта позволит получить доступ к этой статье посредством нескольких URL-адресов. Недопонимание происходит потому, что с точки зрения разработчиков, уникальным идентификатором для статьи служит ID присвоенный ей в базе данных, а не какой-то там URL. Но для поисковой системы URL является уникальным идентификатором контента. Если объяснить ситуацию разработчикам, они начнут понимать суть проблемы, а прочитав статью, вы даже сможете обеспечить их готовым решением.
Зачастую вам хочется отслеживать действия посетителей и позволять им, к примеру, сохранять желаемые товары в корзине покупок. Чтобы этого добиться вам нужно предоставить им «сеанс». Сеанс – это краткая история активности посетителя на вашем сайте, которая может включать в себя упомянутые ранее товары в корзине покупок и тому подобное. Для сохранения сеанса активности пользователя (пока он продолжает листать страницы сайта), нужно где-нибудь сохранить уникальный идентификатор сеанса, его еще называют ID сеанса. Наиболее распространенным решением является использование файлов cookie, но правда поисковые системы обычно их не сохраняют.
В таком случае, некоторые системы останавливаются на использовании идентификаторов сеанса в URL. Это означает, что URL-адресу каждой внутренней ссылки веб-сайта присваивается ID сеанса, а так как этот идентификатор является для сеанса уникальным, это приводит к созданию новых URL-адресов и соответственно дублирующего контента.
Еще одной причиной возникновения дублирующего контента является использование URL параметров, не меняющих содержимое самой страницы, как например, в трекинговых ссылках. Видите ли, для поисковой системы URL-адреса http://www.example.com/keyword–x/ и http://www.example.com/keyword-x/? source=rss различны. Это может позволить отследить какой ресурс привел посетителей, но вместе с тем и усложнить для вас ранжирование – очень нежелательное последствие!
Это, конечно, относится не к одним лишь параметрам трекинга, а ко всем параметрам, которые можно добавить к URL-адресу и которые не меняют принципиально важную часть контента. И не важно для чего служит этот параметр, будь то «изменения в сортировке у категории товаров» или «отображение очередной боковой панели» — любой из них становится причиной возникновения дублирующего контента.
По большей части в возникновении дублирующего контента виноваты ваш сайт либо вы сами. Однако, иногда вашим контентом, с вашего согласия или без него, пользуются и другие веб-сайты. Они не всегда ссылаются на оригинальный источник, в следствие чего поисковой системе приходится иметь дело с еще одной версией той же самой статьи. Чем популярнее становится ваш сайт, тем больше он привлекает скраперов, усугубляя проблему все больше и больше.
Еще одной распространенной причиной является то, что CMS использует не красивые чистые URL, а скорее URL типа /?id=1&cat=2 , в которых «ID» относится к статье, а «cat» к категории. URL /?cat=2&id=1 будет представлять собой один и тот же результат для большинства систем веб-сайтов, но для поисковой системы результаты будут совершенно разными.
В моем излюбленном WordPress, а также в некоторых других системах управления содержимым, существует возможность пагинации комментариев. Это приводит к появлению дублирующего контента по URL-адресу статьи, так как к URL статьи приплюсовываются /comment-page-1/, /comment-page-2/ и т.д.
Если система управления контентом создаcт версию страниц для печати, и вы сошлетесь на них со своей статьи, Google скорее всего найдет их (если конечно они не были намеренно заблокированы). А теперь ответьте себе честно: какую версию вы предпочли бы видеть в результатах поиска Google? Версию с вашей рекламой и вспомогательным контентом или ту, в которой имеется только статья?
Эта причина стара как мир, но в случае доступности обеих версий WWW и без WWW, поисковые системы то и дело (правда не часто) продолжают воспринимать соответствующий контент, как дублированный. Еще одна причина (не такая популярная, но с которой мне также приходилось сталкиваться) – это HTTP и дублированный контент.
Как мы уже поняли, когда к одному и тому же контенту ведут несколько URL-адресов, возникает проблема, но, впрочем, ее можно решить. У одного человека, работающего над публикацией, не должно возникнуть сложности в том, чтобы объяснить каким должен быть «правильный» URL для определенной статьи, но если поинтересуетесь у трёх человек из одной компании – ответы можете получить совершенно разные…
Решить данную проблему можно лишь с помощью адресации, поскольку, как бы там ни было, URL может быть только один. Такой «правильный» для определенного контента URL-адрес, рассматривается поисковыми системами, как канонический.
Ироническое замечание
Канонический» — это термин, проистекающий из римско-католической традиции, согласно которой был создан и принят в качестве подлинного, список священных книг. Они стали известны, как канонический Евангелие Нового Завета. По иронии судьбы, чтобы утвердить этот канонический список, Римско-католическая церковь потратила около 300 лет и приняла участие во множестве боев. В конечном счете сошлись на четырех версиях одной и той же истории…
Вы можете не знать, что повлекло за собой появление у вас дублированного контента, всему виной сайт или сам контент? Есть несколько способов узнать.
Google Search Console – замечательный инструмент для выявления дублирующего контента. Перейдите в консоль поиска (Search Console) для своего сайта, затем во вкладку Вид в поиске ->Оптимизация HTML Improvements, и вы увидите следующее:
Наличие у страниц повторяющихся заголовков или дескрипторов – это почти всегда плохо. После нажатия обнаружатся URL с повторяющимися заголовками или дескрипторами, что поможет вам идентифицировать проблему. В случае, если у вас есть статья, подобная той, о которой мы упоминали ранее (keyword X) и она отображается в двух категориях, у нее могут быть разные заголовки. Например, «Keyword X – Category X – Example Site» и «Keyword X – Category Y – Example Site». Google не будет расценивать данные заголовки, как повторяющиеся, но их можно будет найти осуществив поиск.
Существует несколько операторов поиска, очень полезных в случаях вроде описанного выше. Если хотите найти все URL своего сайта, содержащие статью «keyword X» вам нужно вбить в поиск Google следующую фразу:
site:example.com intitle:»Keyword X»
После чего Google отобразит вам все страницы, выявленные на сайте example.com и содержащие указанное ключевое слово. Чем конкретнее будет intitle, тем легче будет отсеять дублированный контент. Можно воспользоваться данным методом для идентификации дублирующего контента в Интернете. Если, к примеру, полный заголовок вашей статьи «Keyword X – почему это клёво», вам нужно использовать фразу:
intitle:»Keyword X – почему это клёво»
И Google выдаст вам все сайты, подпадающие под этот заголовок. Иногда имеет смысл осуществлять поиск даже по одному-двум полным предложениям из вашей статьи, поскольку некоторые скраперы могут изменить заголовок. В некоторых случаях, подобный поиск может привести к отображению следующего уведомления на последних страницах поиска Google:
Это признак того, что Google уже занят удалением дублирующего контента. Но этого по-прежнему недостаточно, поэтому стоит перейти по ссылке и посмотреть на все остальные результаты, чтобы понять можно ли исправить хотя бы некоторые из них.
Определившись с тем, какой адрес является каноническим для определенной части вашего контента, нужно перейти к процессу канонизации («да, я знаю» попробуйте три раза сказать это быстро и вслух). Это значит, что нам необходимо сообщить поисковым системам о канонической версии страницы и позволить им найти ее как можно скорее. Существует четыре возможных решения, в порядке предпочтительности они располагаются так:
Часть из вышеуказанных причин возникновения дублирующего контента легко устранимы:
Даже если решить вашу проблему не просто, усилия вполне могут быть оправданы. Цель должна сводиться к предотвращению появления дублирующего контента, поскольку это, безусловно, самое лучшее решение.
Бывают случаи, когда полностью избежать использования системой неправильных URL-адресов (для контента) попросту невозможно, но это могут быть те случаи, когда можно воспользоваться переадресацией. Если вы думаете, что в этом нет логики (понять я вас могу), просто не забудьте вспомнить об этом во время разговора с разработчиками. Работая над устранением проблем с дублирующим контентом, убедитесь, что вы перенаправляете весь дублированный контент со старых URL-адресов на канонические.
4.3 Использование ссылок
Иногда, даже зная, что URL неправильный, вы не хотите или не можете избавиться от дублирующей версии статьи. Для решения такой проблемы поисковыми системами представлен элемент канонической ссылки, размещающийся в заголовочной части вашего сайта и имеющий следующий вид:
link rel=»canonical» href=»http://example.com/wordpress/seo-plugin/
Атрибуту href канонической ссылки вы присваиваете правильный канонический URL-адрес вашей статьи. Когда поисковой системе, поддерживающей канонические ссылки, попадается такой элемент, она выполняет 301 редирект, отдавая таким образом практически всю ценность, заработанную страницей ее канонической версии.
Правда быстрее будет пользоваться 301 редиректом непосредственно и поэтому, при наличии выбора, нужно отдавать ему предпочтение.