Как вычисляется Google PageRank - реальная формула. Что такое PageRank? Откуда берется PageRank

27.06.2020

Все его используют, но мало кто знает, как он работает. Google PageRank, это один из важнейших для веб-разработчиков параметров.

Поиск среди миллиардов существующих и миллионов создаваемых каждый день страниц, задача более сложная, чем вы можете сразу представить. PageRank, только один из сотен факторов, используемых Google для улучшения качества поиска. Но как он работает, и какие факторы на него влияют, а какие нет, и, что мы знаем о PageRank?

В этой статье мы излагаем только факты.

Последнюю неделю мы рассмотрели множество фактов и предположений, которые показались нам реалистичными. Кроме того, мы собрали некоторые академические материалы по поиску и 16 полезных инструментов для работы с PageRank.

Наиболее важные факты кратко описаны в начале статьи.

Как работает PageRank?

  1. PageRank один из многочисленных методов используемых Google для определения релевантности и важности страницы.
  2. Google интерпретирует ссылку со страницы A на страницу B как голос A в пользу B, конечно учитывается не только количество голосов, но и качество голосующих страниц.
  3. PageRank основан на количестве входящих ссылок , но не только на нем, релевантность и качество тоже важны.
  4. Не все ссылки одинаково влияют на PageRank.
  5. Если на странице с PR8 есть только одна ссылка, то сайт, на который она ссылается, получит весь PR который она может передать, если же ссылок 100 то каждая ссылка будет передавать только часть этого PR.
  6. Плохие входящие ссылки не влияют на PR.
  7. В PR учитывается время существования сайта, релевантность входящих ссылок и время их существования.
  8. При расчете PR контент не учитывается.
  9. PR рассчитывается не для сайта в целом, а для каждой страницы в отдельности.
  10. Важна каждая входящая ссылка, за исключением ссылок с забаненых сайтов.
  11. PR это не только целые значения от 0 до 10, это вещественное число.
  12. Достичь каждого следующего уровня PR все сложнее, предположительно используется логарифмическая шкала.
  13. PR пересчитывается постоянно, но данные для тулбара обновляются раз в несколько месяцев.
  14. Google старается найти страницы солидные и релевантные одновременно.

Факторы, влияющие на PageRank

  1. Частые обновления сайта не увеличивают PR автоматически.
  2. Высокий PR не гарантирует высокие позиции в результатах поиска.
  3. Каталоги DMOZ и Yahoo! не увеличивают PR автоматически.
  4. .edu и.gov сайты не увеличивают PR автоматически.
  5. Внутренние страницы не обязательно имеют меньший PR чем главная.
  6. Ссылки с сайта Wikipedia не увеличивают PR автоматически.
  7. Ссылки с атрибутом nofollow не влияют на PR.
  8. Эффективные внутренние ссылки влияют на PR.
  9. Ссылки с тематических сайтов влияют сильнее.
  10. Текст, используемый в ссылке, часто может быть важнее, чем PR ссылающейся страницы.
  11. Исходящие и входящие ссылки на качественные тематические сайты положительно влияют на PR.
  12. Несколько одинаковых ссылок с одной страницы считаются за одну.
  13. Сайт может быть забанен за ссылки на забаненные сайты.

1.1 Что такое PageRank?

  • PR это только один из методов используемых Google для определения релевантности и важности страницы. [PageRank Explained Correctly 6 ]
  • Google использует множество факторов для ранжирования страниц, PageRank один из лучших . PR отражает два важных момента, как много страниц ссылаются на данную и какого уровня страницы на нее ссылаются. Пять шесть ссылок с таких сайтов как www.cnn.com 7 или www.nytimes.com 8 , могут быть более полезны, чем гораздо большее количество ссылок с менее солидных сайтов. [Google Librarian Central 9 ]
  • PR может отражать только приблизительное качество страницы , но никак не связан с ее тематической релевантностью, которую можно определить только учитывая контекст ссылок, и такие факторы как плотность ключевых слов, заголовок страницы и т.п. [PageRank: An Essay 10 ]

1.2 Как работает PageRank?

  • Никто точно не знает, как Google рассчитывает PR. [Google PageRank Explained 11 ]
  • PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)). Так выглядит примерная формула расчета PR, где t1-tn страницы, ссылающиеся на A, С(tn) количество исходящих ссылок на соответствующий странице, d коэффициент обычно равный 0.85.
  • Можно предположить, что PR вычисляется по формуле PR = 0.15 + 0.85 * (часть PR каждой ссылающейся страницы передаваемая нашей). Количество PR, которое страница может использовать, чтобы голосовать за другие, чуть меньше чем ее собственный PR, а точнее 0.85 * PR, это количество и делиться между страницами, на которые она ссылается. [Google’s Page Rank 12 ]
  • Алгоритм вычисления PR, основан на распределении собственного PR страницы, между страницами на которые она ссылается. К примеру, если на странице с PR8 есть только одна ссылка, то страница, на которую она ссылается, получит весь доступный PR, но если на этой странице 100 ссылок, то каждая из них получит только сотую часть доступного PR. [The Importance of PageRank 13 ]
  • Вследствие, такого алгоритма вычисления PR, ссылка со страницы с PR4 и 5 внешними ссылками, эффективнее ссылки со страницы с PR8 и 100 внешних ссылок. PR ссылающихся страниц важен, но не менее важно и количество исходящих ссылок, которое они содержат, чем больше исходящих ссылок тем меньше PR перейдет каждой. [Google’s Page Rank 12 ]
  • PR использует входящие ссылки как индикатор важности страницы. Google интерпретирует ссылку со страницы A на страницу B как голос страницы A в пользу страницы B. Учитывается не только количество голосов, но и качество голосующих страниц. Чем выше PR страницы, тем большее значение имеет ее голос. [Google: Technology 14 ]
  • Не все ссылки одинаково полезны. Чем выше PR ссылающейся страницы, тем больший PR она передает, но нужно учитывать и то, что этот PR делиться в равной степени между всеми страницами на которые она ссылается. Поэтому ссылка со страницы с PR4 и единственной исходящей ссылкой, может дать больше чем ссылка со страницы с PR5 и 100 исходящих ссылок. Типичный пример всем известные миллионодоларовые главные страницы, такая страница с PR7 и сотнями исходящих ссылок, несмотря на свою важность, передает другим страницам незначительный PR. [Google PageRank Explained 11 ]
  • Каждый следующий уровень PR достигается значительно сложнее предыдущего. При вычислении PR используется логарифмическая шкала, это значит, что для перехода с PR0 к PR1 требуется один шаг, несколько труднее набрать PR3, еще труднее PR4, и значительно труднее PR5. [Google Page Rank FAQ 15 ]
  • PR вычисляется не для сайта в целом, а для каждой отдельной страницы и рекурсивно связан с PR страниц которые на нее ссылаются. [The Page Rank algorithm 17 ]
  • Google комбинирует PR со сложными техниками текстового поиска , анализируются многие аспекты содержимого страницы и ссылающихся на нее страниц, чтобы найти страницы лучше других, соответствующие запросу пользователя. [What Is Google PageRank? 18 ]
  • PR пересчитывается постоянно, но данные для тулбара обновляются раз в несколько месяцев , новым сайтам присваивается PR0. [Google PageRank Explained 11 ]
  • PR это не только целые значения от 0 до 10, PR вещественное число. Правильно думать о PR как о вещественном числе, потому что при внутренних вычислениях мы используем множество градаций, а не только значения от 0 до 10 отображаемые в тулбаре. [Matt Cutts 19 ]
  • Робот не анализирует сайты мгновенно. Часто необходимо два полных апдейта чтобы все входящие ссылки были обнаружены, засчитаны и отображены как входящие ссылки. [Google FAQ 20 ]

1.3 Факторы, влияющие на PageRank

  • Важна каждая входящая ссылка, за исключение ссылок с забаненных сайтов. PR это своеобразная система голосования, каждая ссылка на страницу это голос в ее пользу. Страницы с высоким PR считаются более важными, и их голоса в некоторых случаях имеют большее значение, но в основном, чем больше входящих ссылок, тем лучше. [Google PageRank FAQ 21 ]
  • Добавление новых страниц может уменьшить PR. Этот эффект заключается в том, что суммарный PR сайта возрастает, но одна или нескольких старых страниц теряют часть PR, за счет чего новые его получают, чем больше добавлено страниц тем больше PR теряют существующие. На крупных сайтах этот эффект незаметен, но на малых его иногда можно наблюдать. [PageRank Explained 12 ]
  • Уменьшение PR. PR страницы может уменьшиться из-за исчезновения некоторых важных ссылок, которые передавали ей PR, или падения PR ссылающихся на нее страниц. [Google PageRank FAQ 22 ]
  • Заголовки (h1, … , h6) и теги strong важны, но не влияют на PR. Используйте мета-теги, заголовки и теги b, strong, но так чтобы контент оставался читабельным и полезным. Обращайте внимание на текст окружающий ключевые слова, поисковики все лучше работают с семантикой, поэтому контекст ключевых слов очень важен.
  • Большое значение имеет эффективность внутренней структуры сайта. Страницы на сайте должны быть связаны как можно более простым способом, в идеале не должно быть страниц в более чем трех кликах от главной. [ 23 ]
  • Ссылки с и на тематические сайты с высоким PR очень важны. Чем ближе тематика страниц, тем больше PR передает ссылка. Ссылки на уважаемые сайты с близкой тематикой показывают поисковым машинам, что сайт полезен для посетителей, это не всегда верно для сайтов, которые существуют уже несколько лет и имеют высокий рейтинг в Google. Ссылаясь только на качественные сайты, можно получить некоторое преимущество перед конкурентами. [Let Google’s Algorithm Show You The Traffic 23 , FAQ 15 ]
  • Важен текст ссылки. Чем более специфичен текст ссылки тем лучше Google может связать ее с запросами пользователей.
  • Ссылочные фермы (линкопомойки) пенализируются. Google заинтересован в страницах содержащий менее 100 исходящих ссылок, страницы с большим количеством ссылок считаются ссылочными фермами и пенализируются. [Google FAQ 24 ]
  • Очень важны входящие ссылки с популярных сайтов. Если на страницу ссылаются страницы с высоким PR она получает часть их репутации.
  • Сайт может быть забанен, если ссылается на забаненные сайты. Будьте очень осторожны с исходящими ссылками, не ссылайтесь на подозрительные сайты (линкопомойки, забаненные сайты и т.д.), Google может пенализировать ваш сайт за такие ссылки, всегда проверяйте PR сайтов на которые ссылаетесь. [SiteProNews 25 ]
  • Мошенничество наказывается пенализацией PR и может привести к бану. Скрытый текст, редиректы, клоакинг, автоматизированный обмен ссылками и другие действия, противоречащие Google’s quality guidelines 26 , могут привести к бану сайта в Google.
  • Google учитывает время существования сайта, релевантность входящих ссылок, и время их существования , если входящая ссылка не релевантна она не будет давать много PR.
  • Миф: чем выше PR тем выше позиция в результатах поиска. Конечно, страницы с высоким PR в результатах поиска расположены выше, чем конкуренты с меньшим PR, но нельзя забывать, что Google учитывает контекст входящих ссылок, и только те ссылки, которые связаны со словами в запросе позволяют занять высокое место в результатах поиска по этому запросу. [

Чтобы вычислить PageRank для страницы, необходимо учесть все внутренние и внешние ссылки на эту страницу. Ниже приведено уравнение для расчета значения PageRank страницы А.

PR(A)=(1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn))

PR(t1…tn) - вес страницы, ссылающейся на страницу A

C - количество исходящих ссылок со страницы А

d - коэффициент затухания, обычно принимаемый 0.85.

Страница «голосует» своим значением PageRank на каждую страницу, на которую она ссылается. Голосующее значение для страницы складывается из собственной величины PageRank этой страницы * 0.85. Эта величина распределяется равномерно между всеми страницами, на которые ведут исходящие ссылки.

Из уравнения следует, что одна ссылка со страницы с PR4 и пятью исходящими ссылками передаст больший вес, чем ссылка со страницы с PR8 и сотней исходящих ссылок. Чем больше исходящих ссылок на странице, тем меньший PageRank будет передан по такой ссылке.

Заметьте, что когда страница голосует своим значением PageRank за другие страницы, собственный PageRank этой страницы не уменьшается. Голосующая страница не отдает свое значение PageRank. Это похоже на собрание акционеров, где каждый акционер голосует согласно количеству имеющихся у него акций, но сами не отдает. Далее мы увидим, что все-таки страницы косвенно теряют некоторый PageRank.

Уравнение ясно показывает, откуда берется значение PageRank для любой страницы. Предположим, что у нас есть 2 страницы, A и B, какая ссылается друг на друга, никаких других ссылок на этих страницах нет. Вот что случается:

Вычисление Google PageRank для страницы А

Шаг 1 : Вычислим значение PageRank для страницы A

Страница теперь имеет новое значение PageRank. Для вычисления использован вес исходящей ссылки со страницы B. Но страница B также имеет исходящую ссылку на страницу A и полученное значение PageRank не может быть точным, пока не известно значение PageRank для страницы В.

Вычисление Google PageRank для страницы B

Шаг 2 : Вычислим значение PageRank для страницы B

Страница B теперь имеет новое значение PageRank, которое не может быть точным, поскольку для вычисления использовано неточное значение PageRank со страницы A.

Мы не можем вычислить точное значение PageRank для страницы A, пока мы не узнаем значение PageRank для страницы B, и мы не можем вычислить точное значение PageRank для страницы B, пока не узнаем значение PageRank для страницы A.

Можно снова и снова пересчитывать значение PageRank для страниц А и В, и каждый раз результат будет отличаться от предыдущего и будет неточным. Мы можем повторять вычисления снова, используя полученные на предыдущем этапе величины. Но мы всегда используем неточные значения для вычислений, так что результаты всегда будут неточными.

Преодолеть проблему можно, повторяя вычисления многократно. Всякий раз мы будем получать чуть более точные результаты. Фактически, точность не может быть достигнута никогда, поскольку вычисления всегда основаны на неточных исходных данных.

Рано или поздно мы достигнем точки, где дальнейшая итерация практически не будет влиять на результаты вычислений. Этим объясняется то, почему пересчет значений PageRank для всех страниц в у компании Google занимает так много времени и вычислительных ресурсов.

Мы можем четко быть уверены только в одном: ссылка из любого источника увеличивает показатели PageRank для нашего сайта.

Рассчитываемая от количества и качества ссылок на эту страницу - как внешних, так и внутренних.

Расчет PageRank

С достаточно большой точностью PageRank страницы можно рассчитать по формуле, обобщенной из алгоритмов и формул, представленных в основополагающей статье основателей Google, Сергея Брина и Ларри Пейджа:

PR(A) = (1 – d) + {PR(T1)/C(T1) + + PR(Tn)/C(Tn)}d (Назовем ее "формула №1")

Чтобы дать необходимые пояснения по приведенным в формуле символам, следует принять, что многие величины и обозначения, которые использует Google для расчета PR, являются его коммерческим, запатентованным секретом. Поэтому ниже будут даны предположительные пояснения, выведенные сообществом оптимизаторов экспериментальным путем.

  • d - так называемый демпфирующий коэффициент, отображающий «количество авторитетности», передаваемое страницей-донором (источником ссылки) странице-акцептору (для которой рассчитывается PR). Величина коэффициента засекречена поисковиком, но наблюдения показывают, что с определенной точностью ее можно принять равной 0,85 (то есть 85% передаваемой авторитетности). По другим сведениям, демпфирующий коэффициент показывает вероятность перехода с донорской страницы на акцептор по установленной ссылке. Несмотря на отличие определений, d в этом случае также считают равным 0,85.
  • n - количество страниц, на которых установлены ссылки на ту, для которой рассчитывается PR.
  • С - общее количество внешних ссылок, установленных на донорской странице.
  • Т (от 1 до n) - номера ссылающихся страниц.

ToolBar PageRank

В силу огромного количества страниц, размещенных в сети интернет, числовые значения PR, выраженные в абсолютных величинах, не являются удобным инструментом для быстрой оценки важности (такая оценка необходима, к примеру, при принятии решения об установке гиперссылки на определенной площадке). Гораздо удобнее в этом случае использовать предлагаемый Google ToolBar PageRank . Это специальная надстройка для браузеров , показывающая важность сайта в виде числа из интервала от 1 до 10. Рассчитывается TLPR по формуле:

TLPR = log base (PR) a

Точного значения основания логарифма base , зависящего от количества страниц в интернете, не существует, а формула его вычисления также является секретом поисковика. Однако, благодаря наблюдениям, его можно считать близким к числу 7. Точно так же значение коэффициента a из промежутка (0;1] берут 1. Таким образом, с достаточно большой точностью, «тулбарную» важность страницы, которая будет отображаться в браузерах пользователей, можно рассчитать как:

TLPRlog 7 (PR)

Важно заметить, что сам поисковый алгоритм Google при ранжировании страниц, использует реальный PageRank. TLPR предназначен исключительно для удобства оптимизаторов.

Наращивание PageRank посредством внутренней перелинковки

Формула расчета PageRank

Исходя из формулы ранжирования (формула №1) , можно утверждать, что минимальный PR любой страницы не может быть равным нулю, или же отрицательным. Если принять, что d = 0,85 , то 1 – d = 0,15 . Отсюда вывод: PR min = 0,15 (сумма в фигурных скобках в формуле №1 = 0).

Таким образом, даже для совершенно нового сайта со значительным количеством страниц и без внешних ссылок, благодаря грамотной

В поисковой системе.

Одним из первых показателей , основанным на передаче так называемого веса ссылки, стал алгоритм PageRank. Со временем этот алгоритм совершенствовался создателями каждой из , усложнялся и все меньше влиял на общую документа. Однако во все ссылочные алгоритмы поисковиков заложена идея PageRank, созданная в 1996 году Сергеем Брином и Ларри Пейджем, усовершенствованная и усложненная.

PageRank (PR) — это вероятность перехода пользователя на страницу, которая рассчитывается из анализа ссылочного графа. Она складывается из вероятностей перехода по всем ссылкам, ведущим на указанную страницу. В свою очередь, каждая такая вероятность рассчитывается исходя из вероятности получения посетителей на страницу-донор и т.д. Таким образом, чем выше вероятность перехода на страницу, тем выше авторитет данной страницы.

Ранее можно было утверждать, что PageRank может «перетекать» с одной страницы на другую по четко установленным формулам, сейчас же вес ссылки зависит от кликабельности, ее характеристик, качества донора.

Классическая формула расчета PageRank:

, где

PR - PageRank рассматриваемой страницы,

d - коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети), в классической формуле обычно он равен 0,85.

PRi - PageRank i-й страницы, ссылающейся на рассматриваемую страницу,

Ci - общее число ссылок на i-й странице.

Основная идея работы с PR заключается в том, что страница передает свой вес, распределяя его на все исходящие ссылки. Чем больше ссылок на странице-доноре, тем меньший вес достанется каждой странице-акцептору.

Сложность прогнозирования PR состоит в том, что в реальности, как правило, нельзя рассматривать определенную страницу и определенный сайт отдельно от других ресурсов. Тем не менее, моделирование может быть полезно для понимания примерной картины. Неплохой сервис для этого - PageRank Decoder .

PageRank также связан с оценкой цитируемости, т.е. с оценкой вероятности перехода посетителя по одной из ссылок. Чем выше цитируемость, тем более популярна страница сайта, на которую ставятся ссылки, и, соответственно, чем больше качественных ссылок, тем вероятность авторитетности ресурса выше.

Коллеги, наконец мы готовы представить вашему вниманию революционную функцию Netpeak Spider – расчёт внутреннего PageRank! От старого механизма расчёта ничего не осталось, а для внедрения нового мы были вынуждены провести предыдущий релиз, который в корне поменял алгоритм сканирования внутри программы. Мы подготовили для вас этот пост-инструкцию, к которому вы сможете вернуться прямо из интерфейса нового инструмента расчёта внутреннего PageRank.

Что такое PageRank

PageRank – это относительный вес страницы, рассчитанный по формуле:

PR (A) = (1 - d) / N + d * (PR(B) / L(B) + PR(C) / L(C) + ...)

  • N – общее количество активных узлов (страниц), участвующих в расчёте;
  • d – коэффициент затухания (обычно используется значение 0,85);
  • L – количество исходящих ссылок.

Принято считать, что на нулевой (0) итерации PageRank каждой страницы одинаковый и равен 1 / N. На следующих итерациях используется вес всех входящих ссылок, который представляет собой вес с предыдущей итерации делённый на количество исходящих ссылок (в формуле – L).

Специально для вас мы подготовили несколько таблиц, которые наглядно показывают работу алгоритма:

Google рассчитывает этот параметр для каждой страницы в сети Интернет, а Netpeak Spider позволяет посчитать внутренний PageRank , который ограничивается данными просканированного сайта или списка URL.

Зачем считать внутренний PageRank

Данная функция является революционной как минимум потому, что позволяет узнать настоящие инсайты о вашем проекте:

1. Понимайте, как именно распределяется ссылочный вес по сайту и где он концентрируется.

2. Определяйте, какие неважные для поискового продвижения страницы получают избыточный вес.

3. Знайте, какие страницы являются «висячими узлами» и просто-напросто «сжигают» входящий ссылочный вес.

Если предположить, что на ваш сайт ведут внешние ссылки, то только представьте себе, сколько бюджета на SEO-продвижение можно сэкономить, внедрив более эффективную схему внутренней перелинковки.

Как рассчитать внутренний PageRank

В Netpeak Spider предусмотрено 2 способа расчёта внутреннего PageRank:

1. Автоматический

Просто выберите специальный параметр «Внутренний PageRank» в настройках сканирования на вкладке «Параметры» и он будет рассчитываться автоматически во время приостановки процесса сканирования или после его успешного завершения.

Обратите внимание, что для расчёта этого показателя обязательно необходимо включить параметр «Исходящие ссылки», так как именно исходящие ссылки являются основой для получения ссылочных связей, без которых посчитать внутренний PageRank не получится.

2. Ручной (с помощью отдельного инструмента)

Для вызова специального инструмента перейдите в меню «Инструменты» → «Расчёт внутреннего PageRank».

Здесь вы увидите следующие блоки:

2.1. Настройки, которые также используются и для автоматического способа расчёта:

  • количество итераций [от 5 до 50] → большее количество итераций обеспечивает более высокую точность расчётов, однако по нашим наблюдениям около 15 итераций является наиболее подходящим значением, позволяя быстро получить необходимый результат, поэтому в Netpeak Spider установлено 15 итераций по умолчанию;
  • только внутренние ссылки → настройка, позволяющая отключить влияние всех внешних исходящих ссылок на расчёты;
  • только ссылки на вкладке [Все результаты] / [Фильтры] → настройка, позволяющая ограничить расчёты только теми ссылками, которые находятся на соответствующих вкладках: используйте [Фильтры] в тех случаях, когда вам необходимо рассчитать PageRank только внутри определённой категории анализируемого сайта;
  • режим отображения результатов → «Реальный» показывает точные значения PageRank, но может быть неудобным для сайтов с большим количеством страниц; «Адаптивный» режим даёт возможность увидеть те же данные, но умноженные на специальный коэффициент, позволяя удобно работать с большими сайтами.

Обратите внимание, что если вы одновременно отключите галочки «только внутренние ссылки» и «только ссылки на вкладке [Все результаты] / [Фильтры]», то Netpeak Spider при расчётах начнёт загружать и анализировать все исходящие ссылки со всех просканированных страниц. В этом случае в отчёте могут появиться ссылки со статус-кодом «Not Crawled» (не просканированы) – это необходимо для того, чтобы максимально правильно рассчитать внутренний PageRank, основываясь на актуальных исходящих ссылках.

2.2. Формула, по которой считается внутренний PageRank, а также вышеуказанные параметры N, d и ссылка на эту статью.

2.3. Список игнорируемых URL: вы можете добавить ссылку в этот список, что позволит полностью исключить её из анализа PageRank. Данная функция позволяет очень гибко работать с расчётами, меняя внутреннюю перелинковку прямо в программе.

Обратите внимание, что исключается не отдельная ссылка на определённой странице, а весь узел: представьте себе, что нет ни одной ссылки на эту страницу со всего сайта (входящие ссылки) и ни одной ссылки с этой страницы на другие страницы сайта (исходящие ссылки).

2.4. Экспорт данных из таблицы в файл в формате CSV / Excel.

2.5. Результирующая таблица, которая содержит следующие столбцы:

  • блок «Страницы» → порядковый номер (#) и ссылка на страницу;
  • блок «Итерации» → после запуска расчётов здесь будут появляться соответствующие столбцы с данными по каждой итерации;
  • блок «Взаимосвязи» → здесь показывается количество исходящих и входящих ссылок, которые можно открыть двойным нажатием левой кнопки мыши или вызвав контекстное меню: специально для вас был разработан удобный просмотр этих отчётов с возможностью переходить вглубь и возвращаться с помощью привычных кнопок «Назад» / «Вперёд», получая полный доступ к графу связей;
  • блок «Алгоритмический анализ» → здесь собраны параметры, которые определяются именно с помощью алгоритма PageRank, а именно «Статус ссылки» (подробнее об этом параметре читайте ниже) и «Конечная ссылка» – показывается в тех случаях, если в результате работы алгоритма было найдено перенаправление;
  • блок «Основные параметры» → позволяет увидеть код ответа сервера и тип контента соответствующих страниц;
  • блок «Параметры индексации» → объединяет параметры, которые критично влияют на распределение ссылочного веса на сайте: инструкции из Robots.txt, Canonical, X-Robots-Tag, Meta Robots, а также конечный URL редиректа и тег Refresh, если они присутствуют на странице.

В нижней части таблицы подсчитывается «Сумма всех PageRank» → на каждой итерации сумма должна быть равна 1 (в «Реальном» режиме) или 10 в соответствующей степени (в «Адаптивном» режиме). Если сумма отличается от указанных значений, значит на анализируемом сайте есть висячие узлы, на которых вы теряете ссылочный вес.

2.6. Статус-панель, которая в паре с результирующей таблицей показывает все шаги работы алгоритма, позволяя пользователям увидеть динамику расчётов.

При выходе из инструмента «Расчёт внутреннего PageRank» данные последней итерации будут автоматически помещены в главную таблицу программы в соответствующую колонку. Если до этого в главной таблице уже были какие-то данные, то более свежие затрут их.

Алгоритм расчёта

Ещё раз напомним, что для расчёта внутреннего PageRank необходимо включить параметр «Исходящие ссылки», который покрывает все взаимосвязи между страницами, позволяя учитывать основные инструкции по индексации, атрибуты ссылок и варианты перенаправления ссылочного веса.

Весь процесс состоит из 2 последовательных этапов:

1. Построение графа связей → целью данного этапа является построение взаимосвязи ссылок и установка их статуса:

1.2. Начальный анализ → разбиение ссылок по статусам «OK», «Висячий узел» и «Перенаправление» (подробнее о статусах ссылок читайте ниже).

1.4. Подсчёт входящих ссылок.

1.5. Финальный анализ → детальный анализ исходящих и входящих ссылок, а также определение «Конечных ссылок» и ссылок в статусе «Несвязанный узел».

2. Расчёт внутреннего PageRank → начиная с 0 итерации и до указанной в настройках.

Статусы ссылок

Самая интересная часть алгоритма PageRank – логически все ссылки делятся по 4 статусам:

1. OK

Это HTML-страницы c кодом ответа сервера «200 OK», которые содержат исходящие ссылки и могут быть:

  • noindex, то есть неиндексируемыми → да, вам не показалось: неиндексируемые страницы тоже проводят ссылочный вес
  • с тегом Canonical, указанным на себя
  • с тегом Refresh, указанным на себя

2. Висячий узел

Страницы, у которых количество исходящих ссылок равно 0, то есть эти страницы не передают ссылочный вес, полностью его теряя.

К этому типу относятся:

  • 2xx страницы, которые просто не содержат исходящих ссылок
  • 2xx страницы, закрытые в Robots.txt
  • 2xx страницы с nofollow в инструкциях X-Robots-Tag или Meta Robots
  • 2xx страницы, но не HTML и, соответственно, не имеющие исходящих ссылок
  • 3xx ссылки, закрытые в Robots.txt
  • 3xx ссылки с бесконечным редиректом (статус-код «3xx Redirect Loop»)
  • 4xx страницы
  • 5xx страницы
  • страницы, возвращающие любой другой код ответа сервера
  • перенаправляющие страницы (Canonical или Refresh), которые не достигли целевой страницы: в этом случае будет отображаться статус-код «Endless Redirected», то есть бесконечный редирект
  • исходящие ссылки, которых нет в таблице «Все результаты» → обратите внимание, что по умолчанию при отключённых галочках «только внутренние ссылки» и «только ссылки на вкладке [Все результаты] / [Фильтры]» Netpeak Spider будет пытаться найти все ссылки, которые есть на сайте независимо от настроек сканирования – это необходимо для того, чтобы составить полную и точную картину передачи ссылочного веса

3. Перенаправление

К этому типу относятся:

  • 3xx страницы
  • 2xx страницы с тегом Canonical, указанным на другую страницу
  • 2xx страницы с тегом Refresh, указанным на другую страницу

4. Несвязанный узел

Сcылки, которые не имеют входящих ссылок.

  • сканировании сайта с выключенным учётом инструкций по индексации (Robots.txt, Canonical, Refresh, X-Robots-Tag, Meta Robots и атрибут nofollow у ссылок) → обратите внимание, что при выключении учёта данных инструкций Netpeak Spider сканирует сайт уже не так, как это делают роботы поисковых систем, однако алгоритм PageRank всегда работает с учётом данных инструкций, потому некоторые ссылки, полученные в результате сканирования, могут оказаться недостижимыми для алгоритма PageRank.
  • сканировании собственного списка URL → ссылки, которые никак не связаны между собой.

3 новые ошибки

Сразу после автоматического или ручного расчёта внутреннего PageRank в главный интерфейс программы попадут 3 типа ошибок, если они присутствуют на сайте:

  • PageRank: висячий узел → как было указано выше, это страницы без исходящих ссылок, которые не пропускают ссылочный вес, нарушая тем самым естественное распределение ссылочного веса по сайту;
  • PageRank: перенаправление → страницы, перенаправляющие ссылочный вес – это могут быть страницы, возвращающие 3xx редирект или содержащие теги Canonical / Refresh, указывающие на другой URL.
  • PageRank: отсутствуют связи → это недостижимые страницы, на которые не было найдено ни одной входящей ссылки.

Коротко о главном

Коллеги, нам удалось реализовать наиболее точный алгоритм расчёта внутреннего PageRank, который позволяет вам узнать ряд инсайтов об анализируемом сайте: как именно распределяется по страницам ссылочный вес, какие ненужные для SEO страницы получают избыточный вес, какие присутствуют на сайте «висячие узлы» и, наконец, как можно исправить эти ошибки.

Пробуйте новую уникальную функцию, экспериментируйте с различными настройками и внедряйте новые более эффективные схемы внутренней перелинковки! :)