Агентство
интернет-маркетинга

 

8 главных вопросов про индексацию сайта. Часть 1

29.01.2019

3 957

Про индексацию слышали все, кто хотя бы что-то слышал про SEO. Мы расскажем о ней много полезного в простом и понятном формате “вопрос-ответ”. Информации будет достаточно, поэтому сегодня разберем только первые четыре вопроса: 1) Как поисковые системы (ПС) узнают о существовании сайта и его страниц? 2) Что такое индексация сайта? 3) Что такое файлы индексации и какими они должны быть? 4) Как узнать скорость обхода роботами страниц сайта? Начнем с простого.

Вопрос 1. Как поисковые системы (ПС) узнают о существовании сайта и его страниц?

Простой вопрос, на который многие из вас уже знают ответ. Например, индекс Яндекса узнает о вашем сайте двумя способами: - Увидев ссылку на ваш сайт в просторах Интернета (т.е. автоматически). - Узнав о вашем сайте по вашей инициативе. Для этого вам нужно “Добавить сайт” и подтвердить свои права на сайт в сервисе Яндекс.Вебмастер:Пример добавления сайта в сервисе Яндекс.Вебмастер У Google все немного иначе: он также автоматически может обнаружить ваш сайт в ссылках на страницах из своего индекса. Но чтобы настроить это вручную, вам придется воспользоваться сервисом Google Search Console. Там перейти во вкладку “Сканирование” и выбрать “Посмотреть как Googlebot”, далее вводите URL-адрес страницы и нажимаете “Запросить индексирование”: Проверить страницу через gsc Проаверка в GSC Следующий этап - непосредственно индексирование сайта.

Вопрос 2. Что такое индексация?

Нет, ну мало ли. Вопрос тоже простой, поэтому и ответим просто. Вот что говорит Википедия: Индексирование в поисковых системах (веб-индексирование) — процесс добавления сведений (о сайте) роботом поисковой машины в базу данных, впоследствии использующуюся для (полнотекстового) поиска информации на проиндексированных сайтах. Т.е. по сути индексация представляет собой сканирование вашего сайта и внесение информации о нем в базу данных поисковой системы. Именно проиндексированные сайты отображаются в поисковой органической выдаче.

Вопрос 3. Что такое файлы индексации и какими они должны быть?

В первую очередь, речь пойдет о файле robots.txt. Это специальный текстовый файл, содержащий параметры индексирования для поисковых систем. При обходе сайтов поисковик загружает этот файл и ориентируется на данные, прописанные в нем. Таким образом, с помощью robots.txt вы можете влиять на индексацию. А точнее, сообщить системе, какие страницы вы хотите закрыть от индексации. Такой файл должен быть размещен в корневой папке сайта. Прежде чем загрузить файл, нужно знать, как правильно его создать. Каким должен быть robots.txt, чтобы поисковая система считала его:
  • вес файла не должен быть больше 32 КБ;
  • файл должен быть текстовым;
  • все параметры (директивы) должны быть оформлены правильно (не на кириллице* и без использования регистра в названии самих директив).
* Если все же домен или его часть пишется на кириллице - используйте Punycode. Яндекс поддерживает следующие типы директив: - User agent (обязательная): указывает на робота, для которого действуют перечисленные в robots.txt правила. - Disallow: используется для запрета индексации отдельных страниц или разделов сайта; - Sitemap: указывает путь к файлу sitemap, который размещен на сайте (об этом чуть позже); - Clean-param: указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании; - Allow: разрешает индексирование разделов или отдельных страниц сайта. Раньше также поддерживалась директива Craw-Delay: она задавала роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Однако в феврале 2018-го Яндекс официально отказался от ее поддержки (почему - расскажем во второй части). Пример формирования robots.txt для робота Яндекс В случае с Google правила примерно такие же. Только в своей справке о правилах создания robots.txt поисковик еще отмечает, что это должен быть текстовый файл именно в кодировке ASCII или UTF-8. Кроме того, в списке директив в справке не указан тип Clean-param (в отличие от Яндекса). Кстати, полную информацию вы можете прочитать в самой справке - вот здесь. Пример формирования файла индексации robots.txt для Googlebot Главное - не забудьте проверить файл на правильность, прежде чем загружать его в корневую папку сайта. Проверка в Яндекс.Вебмастере: https://webmaster.yandex.ru/tools/robotstxt/ Проверка в Google Search Console: https://www.google.com/webmasters/tools/robots-testing-tool Все, хватит про robots! Двигаемся дальше. Теперь - о sitemap. Файл sitemap предназначен для сообщения поисковой системе об актуальной на текущий момент структуре сайта. Поисковики просматривают этот файл с целью максимально точной индексации страниц вашего сайта. В файле sitemap можно указать наиболее важные данные и сообщить системе ценную информацию (например, при наличии видеоконтента можно сообщить о длине ролика, его категории, с тем же изображением - тип картинки, авторская лицензия и т.д.). Именно поэтому с помощью такого файла можно оптимизировать индексацию вашего сайта поисковыми роботами. Особенно важно наличие sitemap в следующих случаях:
  • Если сайт достаточно большой с большим количеством страниц. Роботы могут просто пропустить новые страницы или страницы с недавними изменениями.
  • Если на сайте много страниц, не связанных друг с другом. Их можно просто перечислить в файле (но не более 50 000 в одном).
  • У вашего сайта мало внешних ссылок. Роботы при автоматическом сканировании ориентируются на ссылки на ваш ресурс.
  • Если на сайте есть мультимедийный контент. Как мы уже писали ранее, из файла Sitemap система может узнать различную информацию для отображения в поиске.
В целом, создание файла Sitemap - это обширная тема для отдельной статьи (и она скоро появится в нашем блоге!). Из существующих источников информации советуем также изучить справки Яндекса и Google.

Вопрос 4. Как узнать скорость обхода роботами страниц сайта?

Прежде всего, нужно понимать, зачем вообще это знать. Дело в том, что скорость обхода страниц сайта роботами напрямую влияет на скорость индексации. Чем чаще система индексирует ваш сайт, тем лучше это повлияет на выдачу. Иначе говоря, обход всех страниц сайта по несколько раз в день - это хороший плюс в карму вашего сайта у поисковой системы. Теперь конкретнее. Узнать скорость обхода можно двумя способами: 1) С помощью статистики в Яндекс.Вебмастере (только в Яндексе). 2) С помощью сторонних сервисов (тоже только в Яндексе). Яндекс.Вебмастер дает возможность отследить, какие страницы были проиндексированы, а какие нет вследствие ошибок либо из-за недоступности сервера. Увидеть статистику можно на странице Индексирование  → Статистика обхода. Здесь же есть вкладка “Последние изменения”, где вы можете увидеть дату последнего посещения страницы роботом и, соответственно, понять, насколько часто Яндекс сканирует сайт. Что касается сторонних ресурсов: мы рекомендуем tools.promosite.ru. Достаточно просто зарегистрироваться и ввести нужный домен, сервис рассчитает среднюю скорость индексации. С Google, как всегда, все сложно. Сторонних сервисов, позволяющих выявить скорость сканирования мы не знаем. Можно, конечно, использовать GSC для отслеживания общей динамики, но это недостаточно показательная информация. Тем не менее, здесь вы можете обнаружить общую статистику проиндексированных страниц и проконтролировать, чтобы в такой динамике не было слишком резких скачков и падений.   На сегодня - информации хватит. В следующей части вы узнаете ответы на не менее важные вопросы:
  1. Сколько страниц уже в индексе поисковой системы?
  2. Как ускорить процесс индексации?
  3. Какими должны быть ссылки и размер страниц?
  4. Краулинговый спрос и бюджет: что об этом нужно знать?
А пока уже можно начать..

с SEO-аудита вашего сайта

Получить предложение! Подпишись и следи за выходом новых статей в нашем монстрограмме Остались вопросы? Не нашли ответ на интересующий Вас вопрос? Или не нашли интересующую Вас статью?  Задавайте вопросы и темы статей которые Вас интересуют в комментариях.  
Готовы пообщаться?Готовы пообщаться?Готовы пообщаться?

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кейсы