Канонические ссылки. Могу ли я приготовить омлет, не разбив яиц? Разные канонические URL

11.07.2019

Канонический тег (rel=»canonical») является довольно важным инструментом поисковой оптимизации. Зачастую он даже лучше, чем 301 редирект при работе с дублированным контентом.

Разберём более подробно этот тег.

Что плохого в дублированном контенте

Дублированный контент — это два одинаковых по своему содержанию документа. Когда Google видит дубль, он старается исключить его из индекса, т.к. по идее пользователь не захочет видеть один и тот же документ в поисковой выдаче несколько раз. Да и к тому же самому поисковику не хочется постоянно обрабатывать тысячи и даже миллионы дублированных страниц, тратя на это свои производственные мощности.

Проблема для веб-мастера состоит в том, что если одна и та же информация находится на разных страницах, то в выдаче будет только одна из этих страниц. Но url, который выберет Гугл, не всегда является наиболее оптимальным для пользователя, и не всегда является первоисточником.

Пока поисковик не определит первоисточник, результаты выдачи не будут удовлетворять целям первоначального автора контента. В данном случае канонический тег имеет ограниченную пользу, поскольку те, кто крадут ваш контент, скорее всего, не будут ставить теги.

С другой стороны, если дублирование происходит на вашем сайте, то тег будет как нельзя кстати. Даже если на вашем сайте будут ссылки на дублированный контент, ценность для выдачи будет составлять только страница-первоисточник. Таким образом, даже при наличии ссылок на несколько дублей, значимой для Google будет считаться только одна из этих страниц. И не пострадает.

Естественно, это не лучшее решение с точки зрения SEO. Но это не приведёт к каким-либо санкциям со стороны Гугла.

Что такое тег rel=»canonical»

Тег имеет следующий синтаксис: Таким образом Google и Bing поймут, что все дубли ссылаются на канонический адрес, указанный в теге. Гугл имеет чёткое представление по поводу использования данного тега:

Да, rel=»canonical» должен использоваться только для выбора предпочитаемой страницы при дублировании (незначительные различия в содержании допустимы).

Другими словами, используйте его только для борьбы с дублированным контентом. При использовании его для других целей вы можете быть уличены в поисковом спаме.

Проблемы дублированного контента

Реализуйте теги надлежащим образом на вашем сайте. Это убережёт вас от проблем дублированного контента, некоторые из которых связаны с системами управления сайтами (CMS):

  1. Tracking Codes . Некоторые системы требуют добавления переменных в конце url-адреса для обратных ссылок на ваш сайт. Формат может быть такой: www.example.com?tracking-variable или такой: www.example.com/example.htm?tracking-code. Проблема заключается в том, что поисковые системы разделяют адреса, даже если те различаются всего одним символом. Хотя Google и Bing и имеют в своём распоряжении технологии, которые помогают определять такие адреса, до сих пор возникает множество ошибок при их обработке. Интересно будет отметить, что некоторые ссылаются на ваш сайт, дабы получить взаимную обратную ссылку, используя данный метод. Канонический тег защитит вас от этого.
  2. Приставки к url . Как мы уже уяснили, любые два адреса, отличающиеся хотя бы одним символом, рассматриваются как отдельные страницы. И есть несколько случаев, когда приставки к адресам могут привести к дублированию контента. К ним относятся, например, дополнительный язык сайта (русская и английская версии страницы) или создание движком дополнительных страниц (ярко выражено в WordPress).
  3. Разбивка на страницы . Это когда сайт разбивается автоматически на несколько страниц с одинаковым контентом. Например, если у вас интернет-магазин и продукцию можно отсортировать по цвету товара или по его цене (при этом для результата сортировки генерируется отдельная страница с одинаковыми описаниями товаров).
  4. WWW . По большей части это не проблема, т.к. Google обычно правильно определяет адреса с www и без. Но до сих пор бывает такое, что поисковик индексирует как бы две версии сайта (example.com и www.example.com). В результате половина вашего контента проиндексирована с www, а другая половина — без www. Обычно это дело прописывается в robot.txt, но и канонический тег тут тоже может помочь.
  5. Если невозможно реализовать 301 редирект . Как ни странно, но в некоторых случаях у веб-мастера нет возможности реализовать 301 редирект, например, из-за ограниченного доступа к серверу. Канонический тег в данном случае является альтернативой, с той лишь разницей, что исходная страница будет продолжать существовать.

Но всё-таки, в соответствии с политикой Google, канонический тег это рекомендация, а не обязательное для исполнение правило. Эта опция поможет владельцам сайтов самостоятельно указывать, какую страницу Гугл должен считать канонической. Таким образом, для Google будет проще определить, какую страницу необходимо включить в индекс при дублировании контента.

Link rel=canonical - атрибут тега , который используется для обозначения канонических страниц на сайте. Что такое канонические страницы? Каноническая страница - это страница сайта адрес которого является каноническим (предпочитаемым), в группе схожих по содержимому страниц. Проще говоря канонический URL страницы - это адрес, который будет индексироваться при наличии .

Когда нужно использовать канонические ссылки

  1. Для предупреждения появления различных дублей. Например:
    • страниц сортировок: /*sort, asc, desc, list=*;
    • дублей из-за UTM-меток: *utm_source=, /*utm_campaign=, /*utm_content=, /*utm_term=, /*utm_medium=;
    • других страниц c GET-параметрами в URL;
    • дублей в результате особенностей работы CMS (движка).

    В этом случае нужно добавить атрибут rel=“canonical” на все статические страницы сайта. Например, для страницы https://site.ru/category-1/page-2, rel=“canonical” будет выглядеть следующим образом: href=“https://site.ru/category-1/page-2” />

  2. Для доступных по разным URL страниц с очень похожим контентом. Например, это могут быть страницы одной серии товара, который отличается только расцветкой или страницы товара, который расположен сразу в нескольких категориях.В этом случае нужно указать со всех страниц rel=“canonical” на основную, приоритетную страницу.
  3. На страницах пагинации, если в категориях сайта есть страницы «Показать всё». В таком случае на каждой из страниц пагинации нужно указать канонической страницу «Показать всё».Например, для страницы https://site.ru/category-1/page-2 нужно прописать канонический URL:ru /category-1/show-all” />

Как настроить канонические адреса rel=“canonical”?

Прописать между тегами любой HTML-страницы

Это основной способ. Чтобы указать каноническую ссылку, пропишите между тегами на странице полный URL страницы, которая должна быть в индексе.

Например, для страницы https://site.ru/*utm_content= канонической будет https://site.ru/.

Для получения такого результата, на странице https://site.ru/*utm_content= мы указали тег:

ru /” />

Чтобы снизить вероятность ошибки в элементах link, после атрибута rel=“canonical” используйте абсолютные, а не относительные ссылки.

В файле Sitemap

В XML-карте сайта вы можете прописать канонический (основной) URL для любой страницы.

В заголовке HTTP

Лучше всего использовать для документов не HTML-формата. Например, для файлов формата PDF.

В таком случае сервер, при запросе дублирующего файла, должен отдавать ссылку на файл-оригинал:

Link: ; rel=“canonical”

Этот способ подойдёт, если у вас есть доступ к настройкам сервера. Не рекомендуется использовать для HTML-документов.

С помощью плагина

Для CMS существуют различные плагины, которые позволяют настроить канонический URL. Например:

  • для WordPress можно настроить canonical с помощью Yoast SEO ;
  • в OpenCart - реализовано в настройках CMS (нужно зайти в настройки товара и задать параметр SEO URL);
  • для настройки атрибута canonical в Joomla (версии 3.х и выше) нужно включить в настройках CMS функцию SEF. После включения для технических страниц вида /index.php?option будет добавлен атрибут rel=“canonical” (с указанием URL на страницу с настроенным ЧПУ).

301 редирект или rel=canonical

Если нет факторов, мешающих внедрить , то используйте этот вариант . Помните, что указание канонической ссылки является рекомендательным для поисковых систем. Нередко в выдаче Google можно встретить ранжирующиеся неканонические страницы, при этом в коде страницы будет указана ссылка на первоисточник.
Алгоритм поисковика строится не только на поиске канонической ссылки в коде страницы, но и на массе других факторов - наличии внешних и внутренних ссылок, релевантности для пользователя и т.д. Поэтому у Google может быть другое мнение на счет того, какую же из страниц-дублей необходимо считать оригинальной.
Если же необходимо оставить страницы доступными для пользователей либо существуют технические сложности в реализации 301 редиректа на сайте - используйте rel=canonical.

Основные ошибки использования rel=canonical

Канонические URL поддерживают большинство популярных поисковых систем: Google, Яндекс, Yahoo, Bing. Но вы все равно продолжаете видеть в индексе неканонические страницы вашего сайта? Первое что нужно сделать - проверить не была ли допущена ошибка при настройке rel=canonical. Ниже перечень наиболее распространенных ошибок:

Не индексируемая каноническая страница

Проверьте может ли робот поисковой системы проиндексировать страницу, на которую вы ссылаетесь как на каноническую. Удостоверьтесь, что:

  • страница отдает ответ сервера 200;
  • на странице не установлен мета-тег robots со значением noindex;
  • страница не закрыта от индексирования в файле robots.txt.

Разные канонические URL для одной страницы

Довольно часто устанавливаемые на сайт модули добавляют в код канонические ссылки. Это может привести в появлению нескольких rel=canonical на странице. Если ссылки в тегах указаны на разные URL, то, вероятнее всего, Google и другие поисковики просто проигнорируют ваши рекомендации.
Таким образом, все усилия по установке канонических страниц могут быть сведены на нет. Почаще проверяйте исходный код ваших страниц, чтобы убедиться в наличии только одной канонической ссылки.

Неправильное использование абсолютных ссылок

Распространенной ошибкой является указание канонической ссылки без протокола http:// или https:// , как показано на примере ниже:

< link rel = «canonical» href = «ururu.com/ololo.html» / >

< link rel = «canonical» href = «/ololo.html» / >

либо полный абсолютный путь с протоколом:

< link rel = «canonical» href = «http://ururu.com/ololo.html» / >

Использование тега вне блока head

Для корректного восприятия поисковыми системами, особенно это касается Google, тег rel=canonical должен находиться в рамках области head кода вашей страницы. Кроме того, данный тег стоит размещать настолько близко к началу HTML кода, насколько это возможно.

Канонические ссылки со страниц пагинации на первую страницу

Такое решение вполне дееспособно для борьбы с дублями. Однако, может негативно повлиять на индексацию страниц, ссылки на которые как раз и расположены на страницах пагинации. Например на странице http://example.com/dresses.html?page=3 расположены ссылки на 20 товаров - они не будут проиндексированы поисковым роботом непосредственно по ссылкам с этой страницы.

Тег canonical при использовании hreflang

Если вы внедряете hreflang на своем проекте, то обязательно убедитесь, что все канонические ссылки указывают на страницы этой же языковой версии. Несоответствие этому правилу может привести как к проблемам с ранжированием языковых версий, так и к неправильному пониманию поисковиками приоритетных для ранжирования дублирующихся страниц.

Неканонические ссылки в sitemap.xml

Помогает поисковому роботу понять какие страницы вашего сайта нужно индексировать и ранжировать в поисковой выдаче. Именно поэтому не стоит добавлять в карту сайта закрытые любым способом от индексирования либо неканонические страницы.

Использование rel=canonical для неидентичных страниц

Данный атрибут был разработан специально для указания приоритетной страницы среди страниц-дублей. Судя по всему, поисковики допускают определенную степень расхождения в контенте страницы. Но это абсолютно не значит, что можно ставить каноническую ссылку на просто схожую по тематике страницу.
Если Google заметит вас в неправильном использовании канонических ссылок, это может повлиять на его отношение к rel=canonical для всего вашего домена и тогда пострадают даже верно настроенные страницы.

Канонические ссылки (атрибут тега link rel canonical) позволяет указать какую именно страницу из группы похожих или одинаковых страниц нужно индексировать. Полезность данного инструмента сложно переоценить и глупо игнорировать. Ведь именно к правильному толкованию страниц сайта поисковыми системами, в значительной степени и сводится SEO сайта. Тем более, что канонические ссылки поддерживаются практически любой современной CMS вроде Joomla или WordPress.

Не дублируйте контент и ставьте правильные ссылки!

Сейчас в интернете довольно популярны email рассылки (email маркетинг) . Особенно это актуально в сфере SEO новостей. Просматривая одну из очередных рассылок, посвященных устранению дублей страниц, я заметил следующее:

Вроде мелочь, но заставляет засомневаться. Исходя из этих слов, тег rel="canonical" , а вернее атрибут, должен прописываться на странице дубле и указывать ссылкой на саму себя!

Как правильно прописать и использовать rel canonical

Внесем ясность в этот неоднозначный вопрос. Почему атрибут, а не тег? Потому, что rel="canonical" это именно атрибут (часть) ссылки, а не самостоятельный тег. Итак, вот ПРАВИЛЬНЫЙ вариант использования атрибута rel="canonical" : каноническая ссылка ставится со страницы дубля на страницу оригинал. Выглядит это примерно так: на странице дубле, которая находится по адресу http://yoursite.com/dubl, создайте элемент следующего вида:

Ну и на десерт – мнение Мэтта Каттса насчет rel="canonical" и его применения:

Здравствуйте, уважаемые читатели блога сайт! В лице canonical, который является атрибутом тега link, отвечающего за формирование служебных ссылок, вебмастера получили отличный инструмент для создания канонических страниц сайта. Но для чего это нужно?

С появлением систем управления контентом () создание сайтов стало доступно практически всем, поскольку данное ПО берет на себя значительную часть обеспечения функционирования ресурса и одновременно расширяет возможность реализации самых различных опций.

Но ЦМС (движки по-простому) имеют некоторые недостатки (по закону недостижимости абсолютного идеала), которые, впрочем, легко устранимы при помощи разнообразных средств. Минусом, например, является генерация дублей, одним из инструментов борьбы с которыми как раз и служит упомянутый выше canonical.

Что такое канонические страницы и как их настроить?

Итак, термин «canonical» в общем смысле означает «принятый за образец», «соответствующий канонам». В нашем случае каноническими можно считать базовые странички в ряду других с похожим содержанием, но с разными адресами (URL).

Канонические страницы в пределах сайта призваны выявлять дублированный контент, который в этом случае просто не будет учитываться поисковиками. Поначалу rel canonical признавался только Гуглом и крупными "буржуйскими" поисковиками Bing и Yahoo, но на данном этапе и лидер рунета Яндекс сподобился обратить на него свое внимание, так что вебмастерам это упрощает задачу.

Поясню на примере применение каноникал. В процессе работы тот же Вордпресс может генерировать веб-страницы с отчасти или полностью идентичным контентом. Возьмем главную страницу, на которую выводятся анонсы (начальные фрагменты текста постов). По мере наполнения блога статьями число таких анонсов будет, естественно, постоянно увеличиваться.

В какой-то момент их количество будет таким, что они уже не будут умещаться на одной веб-странице. Ведь абсолютно непродуктивно впихивать их все в одно место, тем более, что ресурс будет развиваться и насыщаться новыми материалами.

Для этого в Вордпрессе предусмотрено разбиение главной на несколько частей, каждая из которых будет по сути самостоятельной страничкой с указанием, в том числе в составе URL, ее номера в текущей пагинации.

Это не что иное как нумерация этих самых страничек в составе главной. Кстати, вы можете по своему желанию на пример такой:

Вот, например, какие пронумерованные страницы с анонсами постов присутствуют на этом блоге:

//goldbusinessnet..com/page/3/ - третья и т.д.

Какие же это дубли, спросите вы? Ведь содержание всех анонсов коренным образом отличается, поскольку они являются фрагментами разных статей. Так-то оно так, но ведь название и описание этих страниц будет идентичным (для главной или категорий, например).

Несмотря на то, что это неполные дубли по своей сути, ввиду вырисовывается серьезная проблема, которую необходимо устранить.

Rel canonical, как я отмечал в начале статьи, указывается в блоке служебных элементов , которые находятся в составе тега head , являясь атрибутом служебной ссылки link. Открыть исходный код можно с помощью сочетания , действующего для всех популярных браузеров (Хром, Мазила, Опера и Интернет Эксплорер).


На скриншоте выше отображен HTML код первой страницы пагинации главной, для которой прописан каноникал, содержание которого указывает, что именно она сама является канонической:

Если откроем код второй странички, то там будет указан точно такой же тег каноникал (для простоты его часто называют так, хотя по сути это параметр атрибута rel, как вы знаете):


Аналогично каноническая страница определяется для каждой из рубрик, а также для разделенных на несколько страничек объемных статей, где также будет присутствовать постраничная навигация.

Именно в таком виде должен присутствовать rel canonical для каждой страницы блога WordPress. Любой другой вариант будет неверным. Проверьте исходный код для всех основных страниц своего блога, включая записи (статьи). Вполне может оказаться, что вы увидите вот такой каноникал:


То есть для второй страницы пагинации в качестве атрибута href прописан URL этой же странички, хотя должен присутствовать адрес первой. Если внимательно посмотрите на исходный код, то для вас станет очевидным, что виноват во всем плагин All in One SEO Pack.

Без этого расширения, конечно, никуда, но иногда при его работе приходится следить за ситуацией. В данном случае, ежели вы увидели такую же картину, как на предоставленном выше скриншоте, либо у вас установлена совсем старая версия AiOSP, либо не правильно выставлены его настройки. Значит, время бить тревогу и исправлять ситуацию, о чем мы и поговорим ниже.

Настройка тега каноникал для страниц блога WordPress

Итак, как должен выглядеть адрес канонической странички в качестве параметра атрибута href, мы выяснили. Если у вас пока это дело не настроено и канонические страницы вовсе отсутствуют как класс, срочно засучите рукава и за работу, тем более, что привести все в надлежащий вид не составит труда.

Самым простым и продуктивным способом не только прописать canonical, но и корректно его настроить, является применение главного , который вы можете установить , а затем а админ-панели.

После этого в левом меню появится отдельный раздел, где можно настроить нужные опции. Переходите во вкладку «All in One SEO» - «Основные настройки» и в самом верху отметьте галочками две опции:


Первая опция позволит активировать канонические URL для всего ресурса, а вторая скорректирует их настройку для всех страниц пагинации. Как раз активация опции «Запретить пагинацию для канонических URL» исключит появление неправильных ссылок с canonical (см. последний скриншот).

Каноническими везде будут назначены первые страницы, что вполне логично. В завершение не забудьте нажать кнопочку обновления. После этого все необходимые каноникал на вашем сайте будут корректно расставлены.

Применение каноникал лишь один из методов борьбы с дублированным контентом. Вы можете , где описаны практически все виды дублей, которые могут генерироваться на WordPress, а также полная инструкция по их нивелированию. В заключение посмотрите, что думает по этому поводу гуру CEO Мэтт Каттс:

Если ваш сайт имеет идентичный или очень похожий контент, доступный по разным URL , тогда новый формат позволит указать тот URL , который должен возвращаться в поисковой системе. Также можно быть уверенным, что все характеристики, такие как ссылочный вес и т.д. передадутся на нужную версию адреса.

Теперь вы можете добавить этот тег, для указания вашей версии адреса, внутри тега на страницах с дублированным контентом:

Таким образом, Google поймет, что все дубликаты ссылаются на канонический адрес, указанный в теге. Дополнительные свойства адреса, такие как PageRank и связанные сигналы также перенесутся с дублированных страниц на указанную.

Подобный тег будет полезным в основном при использовании различных движков (phpBB, IPB , WordPress, и т.д., напр. сайту ipbskins.ru – разработка дизайна сайта на IPB , приходится использовать длинный robots.txt в целях избежания дублированного контента), создающих множество похожих страниц, например, это могут быть страницы:

печатной версии статьи:
http://site.ru/article01.html?print=true
текстовой версии статей для моб. телефонов:
http://site.ru/lofiversion/article01.html
дублированные из-за недостатка движка:
http://site.ru/articles/?id=1&category=new
http://site.ru/articles/?id=1&tag=keyword
и ряд других…

Этот стандарт может быть адаптирован любой поисковой машиной при индексации сайта.

Для популярного блог-движка WordPress уже разработан плагин canonical , вставляющий тег на нужные страницы. Другие популярные движки для блогов, форумов, интернет-магазинов и т.д. также в ближайшем будущем расширят свою функциональность (следите за обновлениями).

Ответы на некоторые популярные вопросы по тегу:

Является ли rel=“canonical” подсказкой или директивой?
Это подсказка, которую мы берем во внимание и во взаимодействии с другими сигналами вычисляем наиболее релевантную страницу для отображения в поисковых результатах.

Могу ли я использовать относительный путь для указания canonical, например так: ?
Да, относительные пути распознаются также, как и в обычном теге . Даже если вы введете тег с ссылкой на документ, тогда относительные пути будут считаться в соответствии с базовым URL .

Это нормально, если канонические адреса содержат не полностью дублированный контент?
Мы позволяем небольшие различия, такие как порядок сортировки в таблице продуктов. Также мы понимаем, что канонические адреса могут парситься роботом в разное время, поэтому все это нормально.

Что если rel=“canonical” возвращает 404 ошибку?
Мы продолжим индексировать ваш контент и использовать эвристический подход, для определения канонического адреса, однако, мы рекомендуем, чтобы вы использовали существующие URL в качестве канонических.

Что если rel=“canonical” ещё не проиндексирован?
Мы стараемся достучаться до канонического URL быстро. Как только мы его проиндексируем, тогда сразу же перерассмотрим подсказку rel=“canonical”.

Может ли канонический урл содержать редирект?
Да, вы можете указать редирект, в этом случае поисковая машина обработает просесс перенаправления как обычно и попытается проиндексировать новый адрес.

Что если я имею противоречивые сигналы для rel=“canonical”?
Наши алгоритмы мягкие: мы можем следовать по каноническим цепям, однако, мы настоятельно рекомендуем, чтобы вы на страницах указывали единственный канонический адрес, чтобы быть уверенным в оптимальном результате канонизации.

Может ли этот тег для ссылки предложить канонический адрес на совершенно другом домене?
Нет. Чтобы мигрировать на другой домен, более подходящ. В настоящее время Google поддерживает канонизацию внутри поддоменов или внутри одного домена. Таким образом, владельцы сайтов могут указать www.example.com вместо example.com или help.example.com , однако, не могут указать example.com вместо example-widgets.com .

Звучит интересно, но могу ли я увидеть пример?
Да, wikia.com помогла нам, как трастовый тестер. Например, вы замтетите, что исходный код по адресу http://starwars.wikia.com/wiki/Nelvana_Limited содержит rel=canonical http://starwars.wikia.com/wiki/Nelvana .

Два адреса почти идентичны, исключая то, что Nelvana_Limited, первый URL , содержит короткое сообщение возле заголовка. Это хороший пример использования тега в будущем. С rel=canonical, свойства двух адресов обьединяются и поисковые результаты отображают нужную версию.

Если у вас есть какие-либо вопросы по использованию нового тега, вы можете их задать в комментариях на официальном блоге Google для вебмастеров .

1. Помимо избавления от естественного дублированного контента (из-за недостатка движка), мы также избавляемся от дублированного контента искусственного, когда конкуренты нам пытаются насолить, добавляя в страницы с произвольными параметрами в URL .

2. Теперь нет надобности использовать robots.txt для запрета индексации таких страниц, как “печатная версия” и других дубликатов (напр. в WordPress нужно было закрывать путь /teg/) и угождать каждому поисковику отдельно (есть общие стандарты для robots.txt, но есть также и ряд особенностей работы каждого поисковика с этим файлом, поэтому мы раньше не могли предусмотреть запрет индексации некоторых страниц сразу для всех ботов).

3. Мы теперь имеем хороший инструмент для ускорения индексации сайта 🙂