Как узнать какие страницы проиндексированы в яндекс. Проблема индексирования, или что такое индексы

20.05.2019

Индексация сайта в поисковых системах важна для каждого вебмастера. Ведь для качественного продвижения проекта следует следить за его индексацией. Я опишу процесс проверки индексации в Яндексе.

Индексация в Яндекс

Робот Яндекса день за днем просматривает сайты в поисках чего-нибудь «вкусненького». Собирает в топ выдачи те сайты и страницы, которые, по его мнению, наиболее этого заслуживают. Ну или просто Яндекс так захотел, кто его знает

Мы, как настоящие вебмастера, будем придерживаться теории, что чем качественнее сделан сайт, тем выше его позиции и больше трафик.

Проверить индексацию сайта в Яндексе можно несколькими способами:

  • с помощью Яндекс Вебмастера;
  • с использованием операторов поисковой системы;
  • с помощью расширений и плагинов;
  • с помощью онлайн-сервисов.

Индексация страниц сайта в Яндекс Вебмастер

Чтобы понять, что же там поисковик накопал на наш сайт, нужно зайти в наш любимый Яндекс Вебмастер в раздел «Индексирование».

Статистика обхода в Яндекс Вебмастер

Для начала зайдем в пункт «Статистика обхода». Раздел позволяет узнать, какие страницы вашего сайта обходит робот. Вы можете выявить адреса, которые робот не смог загрузить из-за недоступности сервера, на котором находится сайт, или из-за ошибок в содержимом самих страниц.

Раздел содержит информацию о страницах:

  • новые — страницы, которые недавно появились на сайте либо робот их только что обошел;
  • изменившиеся — страницы, который поисковик Яндекса раньше видел, но они изменились;
  • история обхода — количество страниц, которые обошел Яндекс с учетом кода ответа сервера (200, 301, 404 и прочие).

На графике отражены новые (зеленый цвет) и изменившиеся (синий цвет) страницы.

А это график истории обхода.

В этом пункте отображены страницы, которые Яндекс нашел.

N/a — URL не известен роботу, т.е. робот её раньше не встречал.

Какие выводы из скрина можно сделать:

  1. Яндекс не нашел адрес /xenforo/xenforostyles/, что, собственно, логично, т.к. этой страницы больше нет.
  2. Яндекс нашел адрес /bystrye-ssylki-v-yandex-webmaster/, что тоже вполне логично, т.к. страница новая.

Итак, в моем случае в Яндекс Вебмастере отражено то, что я и ожидал увидеть: что не надо — Яндекс удалил, а что надо — Яндекс добавил. Значит с обходом все у меня хорошо, блокировок никаких нет.

Страницы в поиске

Поисковая выдача постоянно меняется — добавляются новые сайты, удаляются старые, корректируются места в выдаче и так далее.

Информацию в разделе «Страницы в поиске» вы можете использовать:

  • для отслеживания изменений количества страниц в Яндексе;
  • для слежения за добавленными и исключенными страницами;
  • для выяснения причин исключения сайта из поисковой выдачи;
  • для получения информации о дате посещения сайта поисковиком;
  • для получения информации об изменении поисковой выдачи.

Чтобы проверить индексацию страниц и нужен этот раздел. Здесь Яндекс Вебмастер показывает страницы, добавленные в поисковую выдачу. Если все ваши страницы добавлены в раздел (новый добавятся в течение недели), то значит со страницами все в порядке.

Проверка количества страниц в индексе Яндекса с помощью операторов

Помимо Яндекс Вебмастера проверить индексацию страницы можно с помощью операторов непосредственно в самом поиске.

Будем использовать два оператора:

  • «site» — поиск по всем поддоменам и страницам указанного сайта;
  • «host» — поиск по страницам, размещенным на данном хосте.

Воспользуемся оператором «site». Заметьте, между оператором и сайтом нет пробела. 18 страниц находится в поиске Яндекса.

Воспользуемся оператором «host». 19 страниц проиндексировано Яндексом.

Проверка индексации с помощью плагинов и расширений

Проверить индексацию сайта с помощью сервисов

Таких сервисов очень много. Я покажу вам два.

Serphunt

Serphunt — онлайн-сервис для анализа сайта. У них есть полезный инструмент для проверки индексации страниц.

Одновременно можно проверить до 100 страниц сайта по двум поисковикам — Яндекс и Google.

Нажимаем «Начать проверку» и через несколько секунд получаем результат:


всего

От автора

Цель теории и практики SEO, это попадание страниц сайта в поисковую выдачу (индексация) и подъём в выдаче по продвигаемому ключевому запросу. Занимаясь продвижением сайта, нужно иметь под рукой, простые и доступные инструменты проверки, какие страницы сайта проиндексированы, а какие нет. В этой статье я покажу, как посмотреть количество проиндексированных страниц в Яндексе. Как проверить индексацию страниц в Google .

Общий объем проиндексированных страниц

Ситуацию с индексацией можно назвать идеальной, если количество открытых для поисковиков страниц сайта совпадает с количеством страниц в индексе.

Это значит, что все создаваемые страницы сайта имеют достаточную информативность и заинтересовали поисковиков своей полезностью.

Нужно понимать, что индексация страницы это лишь первый шаг, за которым нужно заниматься её продвижением в выдаче. Однако при удачном выборе частотности ключа и его конкуренции страница сразу попадет в ТОП и остается её там только поддерживать.

Как я сказал, идеальный вариант, если все значимые страницы сайта попали в индекс. При этом количество проиндексированных страниц должно точно совпадать с продвигаемыми страницами. Ситуации, когда страниц в индексе значительно меньше или больше, чем страниц на сайте, требует срочного исправления.

1. Если страниц в индексе значительно, меньше, чем страниц на сайте, очевидно, что вы теряет трафик и делаете что-то не так. Либо страницы не информативны, либо контент не уникален, либо страницы у вас просто воруют и быстрее индексирую на другом веб-майте. 2. Ситуация, когда страниц в индексе больше, чем страниц на сайте, ничуть не лучше. Это значит, что поисковики индексируют дубли страниц или на сайте не закрыты от поисковиков малоинформативные и технические страницы.

Обе ситуации, недостаточной и избыточной индексации, мешают продвижению сайта, требуют изучения и исправления.

Чтобы сравнить количество страниц сайта и количество страниц в индексе, нужно эти количества знать и уметь быстро посмотреть количество проиндексированных страниц в Яндексе.

Сколько страниц на вашем сайте

На этапе создания сайта вы должны были решить, какой материал сайта показывать поисковикам, а какой закрыть от сканирования и индексации.

Для управления индексацией страниц в Яндекс отлично работают директивы файла robots.txt. Именно правильное заполнение секции для основного бота Яндекс, User-agent: Yandex , должно стать основой управления Яндекс индексацией.

Узнать общее количество страниц сайта, которое «видит» Яндекс, на любом генераторе Sitemap (карты сайта), отметив настройку «учитывать директивы robots.txt». Рекомендую или .

Количество созданных страниц сайта можно посмотреть в административной панели сайта на странице материалов или товаров.

Остается сравнить два полученных значения с количеством проиндексированных страниц Яндекс. Сделать это можно несколькими способами.

Как посмотреть количество проиндексированных страниц в Яндексе

Способ 1. Яндекс веб-мастер

  • Зайдите (заведите) в свой аккаунт на Яндекс Веб-мастере. https://webmaster.yandex.ru/
  • Посмотрите сколько страниц у вас в поиске .

Способ 2. Расширения браузеров

В любом браузере есть расширения, показывающие основные или расширенные SEO данные по сайту, в том числе количество проиндексированных страниц в Яндексе. Вот одно из них, под названием «RDS bar» .

  • для Google ()
  • для Mozilla ()
  • для Opera ()

Способ 3. Синтаксис поисковых запросов Яндекс

  • Войдите в поиск Яндекс (https://ya.ru/ );
  • В адресную строку впишите строку поиска: host: www.domen.ru | host:domen.ru ;
  • Посмотри результат поиска.

Весь Язык запросов Яндекс

Поисковая оптимизация - большая работа над множеством различных факторов. Дизайн, техническая составляющая, контент. Даже незначительные на первый взгляд детали очень важны для продвижения. О самых частых ошибках в дизайне сайта мы уже говорили. Сегодня разберем 9 фатальных SEO ошибок, способных «угробить» любой сайт.

  1. Фильтры и санкции поисковых систем

    Как минимум, раз в неделю рекомендую заглядывать в вебмастера Яндекс и Google для проверки наличия санкций. В Яндексе это можно сделать в разделе Диагностика → Безопасность и нарушения . В Google - Поисковый трафик → Меры, принятые вручную .

    Как показывает наша практика, чаще всего владельцы сайтов даже не догадываются о наложенных ограничениях. Недавний пример из нашей работы:

    Большое количество чужих текстов на сайте и открытые исходящие ссылки. Результат на скриншоте.

    До снятия всех ограничений дальнейшего смысла заниматься продвижением нет. Исправляем все ошибки, сообщаем поисковой системе и ждем снятия санкций.

  2. Контент

    Мы постоянно говорим о том, как важны тексты. Контент - это то, зачем пользователи заходят на сайты. Неуникальный и неинтересный контент никому не нужен. Поисковые системы занижают подобные ресурсы в выдаче, а клиенты устали читать одни и те же шаблонные тексты на сотне сайтов. Пруф того, что за контент можно вылететь с хороших позиций, .

    Проверяйте уникальность текстов перед размещением на text.ru .

    Как писать тексты, на какие страницы и в целом, о контенте, много написано в нашем блоге. Вот хорошая подборка статей от нашего копирайтера Дарьи.

  3. Теги Title и Description, заголовки H1-H3

    Основа SEO-продвижения - правильно подобранные ключевые слова. Это очень важный фактор в оценке релевантности вашего сайта поисковому запросу.

    Чаще всего мы сталкиваемся с двумя ошибками. Полное отсутствие ключевых слов в тегах:

    Тег Title должен быть заполнен в виде связного предложения с включением ключевых слов.

    Либо переспам ключами в заголовках:

    Важно найти золотую середину. Теги должны быть полезными не только для поисковых роботов, но и для обычных людей. Не забывайте об информативности. Как правильно писать теги title, description и заголовки H1, хорошо рассказывает наш копирайтер Екатерина в своей статье .

  4. Переезд на https

    C января 2017 года браузер Google Chrome (начиная с 56 версии) начал помечать все HTTP-сайты, содержащие любые формы, передающие личные данные пользователей (email, пароли, данные кредитных карт и т.п.) как «небезопасные». Также наличие SSL сертификата является небольшим импульсом в ранжировании в Google.

    Всем интернет-магазинам в первую очередь следует перейти на протокол https. При этом очень важно соблюсти правильный алгоритм действий.

    Самая частая ошибка - просто настроить 301-редирект со старой версии http на https после покупки SSL-сертификата. Владельцы сайтов забывают о файле robots.txt, директиве Host, настройке вебмастеров. Сайт с http выпадает из индекса, новый сайт на https еще не проиндексирован. Все позиции моментально улетают в трубу.

    В нашем Блоге есть подробная инструкция , как правильно перенести сайт с http на https. Если останутся вопросы, пишите нам , обязательно поможем.

  5. Файл robots.txt

    Текстовый файл, размещенный на сайте и предназначенный для роботов поисковых систем. В этом файле следует указать параметры индексирования своего сайта для поисковых роботов.

    Иногда файл robots.txt отсутствует вовсе.

    Свежий пример из нашей работы. Интернет-магазин станков, работы проводились в рамках услуги поисковое продвижение сайта . Сайт был полностью открыт для индексации поисковым роботам и вовсе не имел файл robots.txt.

    Настроили ему robots, теперь все в порядке:

    Что конкретно мы сделали?

    Закрыли от индексации админ панель сайта, служебные страницы 404 и 403, страницу поиска, корзину. Указали адрес карты сайта, настроили директиву Host.

    Вместе с остальными работами по оптимизации это помогло достичь следующих результатов:

    Еще одна серьезная ошибка - сайт полностью закрыт от индексации. За это отвечают директивы Disallow и Allow, которые запрещают или разрешают индексирование разделов, отдельных страниц сайта или файлов соответственно. Для проверки файла у поисковых систем есть специальные инструменты: Яндекс и Google .

    Проверьте, что у вашего сайта имеется файл robots.txt и заполнен он корректно. От индексации следует закрывать все служебные страницы, страницы поиска и фильтров. Страницы дублей, регистрации, авторизации. Корзину и страницу оформления заказа для интернет-магазинов. .

  6. Дублирование контента (дубли страниц)

    Дублированный контент или просто дубли - это страницы на вашем сайте, которые полностью (четкие дубли) или частично (нечеткие дубли) совпадают друг с другом, но каждая из них имеет свой URL.

    Одна страница может иметь как один, так и несколько дублей:

    Поисковые роботы отрицательно относятся к дублированному контенту и могут понизить позиции в выдаче из-за отсутствия уникальности, а следовательно, и полезности для клиента. Нет смысла читать одно и то же на разных страницах сайта.

    Может измениться релевантная страница. Робот может выбрать для выдачи дублированную страницу, если посчитает ее содержание более релевантным запросу. Сайт потеряет позиции и просядет в выдаче. В 90% случаев дубли мешают продвижению, и после их устранения позиции сайта улучшаются.

    Как найти и убрать дубли на сайте, рассказываем в данной статье .

  7. Зеркала сайта

    Зеркалами считаются сайты, являющиеся полными копиями друг друга, доступные по разным адресам. Все зеркала сайта важно склеить через 301 редирект.

    Показатели тИЦ, вес внешних ссылок не должны растекаться, а они будут, т.к. поисковики считают разными ресурсами сайты, расположенные по разным адресам. Возможна подмена релевантной страницы в поисковой выдаче, дублирование контента. 100% мешает росту сайта в выдаче.

    Сайт не должен открываться по разным адресам, с www и без www, просто site.ru и site.ru/index.php, по http и https и т.д.:

    Чек-лист для проверки:

    • Сайт должен быть доступен только по одному протоколу http или https.
    • Выбрано главное зеркало сайта, с www или без www, указано в Вебмастере.
    • Настроен 301 редирект со всех зеркал.
    • Главная страница сайта доступна по одному адресу, без /index.php, /index.html и т.п.
  8. Адаптивная верстка (версия сайта для мобильных устройств)

    100% Must-have для всех сайтов в 2017 году. Сегодня рост мобильного трафика опережает компьютерный. Число пользователей, использующих смартфоны для совершения покупок, в мире растет с каждым днем. Алгоритмы поисковых систем учитывают адаптивность при ранжировании сайта в мобильной выдаче.

    Google уже с 2015 года использует алгоритм Google mobile-friendly .

  9. Скорость загрузки сайта

    Тут все просто. Пользователям не нравятся медленные сайты. Поисковые системы так же отдают предпочтение быстрым, оптимизированным сайтам. Проверить скорость загрузки своего сайта можно с помощью инструмента Google . Красный - медленно, важно срочно увеличивать скорость, желтый - нормально, но можно оптимизировать, зеленый - отлично.

    Разберем на конкретном примере

    Помните, в начале статьи мы упоминали интернет-магазин станков. Что мы исправили из фатальных ошибок:

    • Неуникальный контент

    Написали хороший продающий, уникальный текст на главную страницу сайта.

    • Ошибки оптимизации

    Скорректировали теги title и description, заголовки H1.

    • Отсутствие файла robots.txt

    Создали и настроили файл robots.txt. Сейчас сайт правильно индексируется поисковыми системами. До этого, как писали выше, данного файла не было на сайте вовсе.

    • Наличие не склеенных зеркал

    Склеили зеркала сайта. Сайт был доступен по двум адресам с www и без.

    • Некорректный ответ сервера для несуществующих страниц

    Создали отдельную страницу 404 и настроили правильный ответ сервера для несуществующих страниц.

    До выполнения работ несуществующие страницы через 302 редирект перенаправляли пользователя на главную страницу сайта.

    Результаты:

    Положительная динамика роста посещаемости из поисковых систем:

    Трафик из Google вырос в два раза:

    Результат за 3 месяца:

    +8 запросов у Яндекса, +6 у Google в топ-5

    +19 запросов у Яндекса, +9 у Google в топ-10

    +25 запросов у Яндекса, +11 у Google в топ-20

    +14 запросов у Яндекса, +4 у Google в топ-50

    Хотите так же? Проверьте, может данные ошибки есть и на вашем сайте. Если нет времени и желания разбираться, заказывайте поисковое продвижение у нас, с радостью поможем.

Все мы знаем, что Яндекс.Вебмастер показывает какие страницы проиндексированы, но к сожалению не показывает, какие из них не попали в поиск.

Лично у меня уже много месяцев, сервис Яндекс.Вебмастер показывает мне очень непонятную картину:

Загружено роботом 93694
Страниц в поиске 3215
Исключено роботом 178

Делаем подсчет: 93694 - 3215 - 178 = 90301 интересно, что с этими страницами не так, про них забыли?

С этим вопросом я решил разобраться и побеседовал с представителем яндекса (далее Яндекс).

Конечно я прочитал страницу и возможно их не видно по одной из описанных причин.

Однако, если это так, то хотелось бы узнать, собирается ли Яндекс сделать полную раскладку по страницам, которые не попадают в поиск?

А именно, мне бы хотелось видеть в Яндекс.Вебмастер такую картинку:

дубликаты уже показанных страниц: 111
содержат поисковый спам: 222
содержат ненужный пользователям контент: 333

Яндекс: (ответил к сожалению сухо) приведите, пожалуйста, несколько примеров страниц, которые отсутствуют в поиске, чтобы я мог прокомментировать, с чем это может быть связано.

Я: подскажите, а как я могу узнать эти несколько страниц? Дело в том, что Яндекс.Вебмастер не показывает эти данные. Я даже залез в раздел Индексирование сайта - Страницы в поиске, и , которые есть в поиске, но на 40 странице все заканчивается и внизу страницы написано: Показаны первые 1000 из 3202 страниц. Вот и получается, что этот раздел недоработан. Может быть Вы знаете другой способ узнать страницы сайта, которые не попали в Поиск яндекса?

Яндекс: в Вебмастере, как и в поиске, предоставляется информация о 1 000 страниц в поиске. Это не ошибка.

Чтобы проверить наличие в поиске страницы или раздела сайта, рекомендую Вам использовать оператор поисковых запросов (http://help.yandex.ru/search/?id=1111369) url.

К примеру, так Вы сможете определить, присутствует ли главная страница Вашего сайта в поиске: http://yandex.ru/yandsearch?text=url%3Aсайт
Таким образом можно найти и любую другую страницу.

А так: http://yandex.ru/yandsearch?text=url%3Aсайт %2Fweb-master * - можно просмотреть страницы раздела web-master , добавив на конце запроса символ *

Я: т.е. Вы предлагаете мне вручную перебирать все 93782 страницы сайта? И всё это ради того, чтобы найти хотя бы 1 страницу, которая проиндексирована, но которой нет в поиске? Вы представляете сколько у меня времени уйдет на это? Или может быть я что-то не понял?

Яндекс: рекомендуем Вам для начала проверить, есть ли в поиске, самые Важные страницы Вашего сайта, которые, к примеру, ранее хорошо находились в поиске. К сожалению, мы не сможем Вам помочь в поисках страниц, которые отсутствуют, так как это выходит за рамки наших задач.

Вывод: Яндекс может, но не хочет реализовывать данную возможность, скорее всего преследуя свои возможно коммерческие цели.

p.s. написал свою идею сюда в , посмотрим, может что-нибудь ответят.

Логические рассуждения на тему: «Как проверить, сколько страниц в индексе поисковых систем».

И числовые расчеты, которые показывают, как я сводила баланс, изучая, что проиндексировано, а что нет и почему.

Я решила разобраться с этим более пристально и разложить все по полочкам.

Рассмотрим на примере Яндекса и Google.

Проблема индексирования, или что такое индексы.

Проблема индексирования постоянно волнуетвладельца любого сайта. Когда страницы сайта попадают в индексы поисковых систем, это обеспечивает стабильный и, что самое главное, бесплатный трафик. Страницы участвуют в поисковой выдаче, а посетители сами ищут информацию и попадают на Ваш сайт. Это же здорово!

Ну, вот, наконец, сайт начинает стабильно индексироваться.

Теперь владельцев волнует уже то, чтобы каждая новая статья попадала в поиск как можно быстрее, и они мечтают, чтобы сайт посещал, так называемый «быстроробот».

Для этого советуют добавлять информацию на свой сайт регулярно и размещать ссылки на новые статьи в социальных сетях, особенно и .

Это можно легко сделать, использую .

Но жизнь идет, алгоритмы меняются. Если сайт раньше посещал быстроробот, и статья попадала в поиск Яндекса в течение нескольких часов, то последнее время (ноябрь 2014) многие вебмастера жалуются, что на это уходит несколько дней.

Я тоже заметила, что после того, как я стала добавлять информацию на страницу в сервисе вебмастеров Яндекса перед публикацией (что мне настоятельно посоветовали делать специалисты этого поисковика), новая статья попадает в поиск только при очередной поисковой выдаче Яндекса. Как раз несколько дней и проходит.

Получается что-то типа того: ваш текст уже у нас в кармане, вы и так от нас никуда не денетесь, и спешить нам не обязательно.

А как же можно в таком случае определить, что статья уже проиндексирована?

Я делаю это с помощью расширения браузера Google Chrome .

Такое же расширение установлено у меня и на браузере Opera. Оно позволяет для любой открытой страницы определить, проиндексирована она или нет.

Как самостоятельно добавить страницу в индекс Google.

Google в этом вопросе более оперативен. Он позволяет каждому принудительно добавлять новую страницу в индекс. Это можно сделать . Там нужно сначала выбрать вкладку «Посмотреть, как Googlebot», где затем появляется возможность самостоятельно добавить страницу в индекс, если указать ее Url.

Как говорится: и вам хорошо, и нам не плохо.

Таким способом можно добавлять до 500 страниц в месяц.

А как обстоят дела с количественными показателями индексации для сайта?

Сколько страниц в индексе поисковых систем?

Это проще всего посмотреть в сервисах для вебмастеров поисковых систем.

Допустим, у меня на сайте 106 статей и 10 страниц (это видно в административной панели сайта) плюс Главная страница, или лента новостей. Дальше легко подсчитать (106+10+1=117). Значит, всего будет 117 Url на sitemap.

Кстати там же можно посмотреть показатели дополнительного и основного индекса Google для его сайта. У него они оказались значительно ближе друг к другу.

Увы, на моем Вордпресс блоге соплей предостаточно.

Эх, надо учиться создавать сайты на более профессиональном уровне. А не использовать готовые шаблоны…

Получается, что сайты нужно строить так, чтобы дублированного контента на них не было и все имеющиеся там ссылки на страницы сразу шли в дело, т.е. в основной индекс.

Может, и WordPress когда-нибудь до такого дорастет.

А пока получается, что, если использовать короткие ссылки на страницы, то это не способствует SEO (оптимизации). А если применять ЧПУ ссылки, то получается дублированный контент.

С нетерпением жду ваших комментариев.

Какие мысли по этому поводу Вас посетили?