Вопрос 1. Как поисковые системы (ПС) узнают о существовании сайта и его страниц?
Простой вопрос, на который многие из вас уже знают ответ. Например, индекс Яндекса узнает о вашем сайте двумя способами:- Увидев ссылку на ваш сайт в просторах Интернета (т.е. автоматически).- Узнав о вашем сайте по вашей инициативе. Для этого вам нужно “Добавить сайт” и подтвердить свои права на сайт в сервисе Яндекс.Вебмастер:У Google все немного иначе: он также автоматически может обнаружить ваш сайт в ссылках на страницах из своего индекса. Но чтобы настроить это вручную, вам придется воспользоваться сервисом Google Search Console. Там перейти во вкладку “Сканирование” и выбрать “Посмотреть как Googlebot”, далее вводите URL-адрес страницы и нажимаете “Запросить индексирование”:Следующий этап - непосредственно индексирование сайта.
Вопрос 2. Что такое индексация?
Нет, ну мало ли. Вопрос тоже простой, поэтому и ответим просто. Вот что говорит Википедия:Индексирование в поисковых системах (веб-индексирование) — процесс добавления сведений (о сайте) роботом поисковой машины в базу данных, впоследствии использующуюся для (полнотекстового) поиска информации на проиндексированных сайтах.Т.е. по сути индексация представляет собой сканирование вашего сайта и внесение информации о нем в базу данных поисковой системы. Именно проиндексированные сайты отображаются в поисковой органической выдаче.
Вопрос 3. Что такое файлы индексации и какими они должны быть?
В первую очередь, речь пойдет о файле robots.txt. Это специальный текстовый файл, содержащий параметры индексирования для поисковых систем. При обходе сайтов поисковик загружает этот файл и ориентируется на данные, прописанные в нем. Таким образом, с помощью robots.txt вы можете влиять на индексацию. А точнее, сообщить системе, какие страницы вы хотите закрыть от индексации.Такой файл должен быть размещен в корневой папке сайта. Прежде чем загрузить файл, нужно знать, как правильно его создать. Каким должен быть robots.txt, чтобы поисковая система считала его:
вес файла не должен быть больше 32 КБ;
файл должен быть текстовым;
все параметры (директивы) должны быть оформлены правильно (не на кириллице* и без использования регистра в названии самих директив).
* Если все же домен или его часть пишется на кириллице - используйте Punycode.Яндекс поддерживает следующие типы директив:- User agent (обязательная): указывает на робота, для которого действуют перечисленные в robots.txt правила.- Disallow: используется для запрета индексации отдельных страниц или разделов сайта;- Sitemap: указывает путь к файлу sitemap, который размещен на сайте (об этом чуть позже);- Clean-param: указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании;- Allow: разрешает индексирование разделов или отдельных страниц сайта.Раньше также поддерживалась директива Craw-Delay: она задавала роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. Однако в феврале 2018-го Яндекс официально отказался от ее поддержки (почему - расскажем во второй части).В случае с Google правила примерно такие же. Только в своей справке о правилах создания robots.txt поисковик еще отмечает, что это должен быть текстовый файл именно в кодировке ASCII или UTF-8. Кроме того, в списке директив в справке не указан тип Clean-param (в отличие от Яндекса). Кстати, полную информацию вы можете прочитать в самой справке - вот здесь.Главное - не забудьте проверить файл на правильность, прежде чем загружать его в корневую папку сайта.Проверка в Яндекс.Вебмастере: https://webmaster.yandex.ru/tools/robotstxt/Проверка в Google Search Console: https://www.google.com/webmasters/tools/robots-testing-toolВсе, хватит про robots! Двигаемся дальше. Теперь - о sitemap.Файл sitemap предназначен для сообщения поисковой системе об актуальной на текущий момент структуре сайта. Поисковики просматривают этот файл с целью максимально точной индексации страниц вашего сайта. В файле sitemap можно указать наиболее важные данные и сообщить системе ценную информацию (например, при наличии видеоконтента можно сообщить о длине ролика, его категории, с тем же изображением - тип картинки, авторская лицензия и т.д.).Именно поэтому с помощью такого файла можно оптимизировать индексацию вашего сайта поисковыми роботами. Особенно важно наличие sitemap в следующих случаях:
Если сайт достаточно большой с большим количеством страниц. Роботы могут просто пропустить новые страницы или страницы с недавними изменениями.
Если на сайте много страниц, не связанных друг с другом. Их можно просто перечислить в файле (но не более 50 000 в одном).
У вашего сайта мало внешних ссылок. Роботы при автоматическом сканировании ориентируются на ссылки на ваш ресурс.
Если на сайте есть мультимедийный контент. Как мы уже писали ранее, из файла Sitemap система может узнать различную информацию для отображения в поиске.
В целом, создание файла Sitemap - это обширная тема для отдельной статьи (и она скоро появится в нашем блоге!). Из существующих источников информации советуем также изучить справки Яндекса и Google.
Вопрос 4. Как узнать скорость обхода роботами страниц сайта?
Прежде всего, нужно понимать, зачем вообще это знать. Дело в том, что скорость обхода страниц сайта роботами напрямую влияет на скорость индексации. Чем чаще система индексирует ваш сайт, тем лучше это повлияет на выдачу. Иначе говоря, обход всех страниц сайта по несколько раз в день - это хороший плюс в карму вашего сайта у поисковой системы.Теперь конкретнее. Узнать скорость обхода можно двумя способами:1) С помощью статистики в Яндекс.Вебмастере (только в Яндексе).2) С помощью сторонних сервисов (тоже только в Яндексе).Яндекс.Вебмастер дает возможность отследить, какие страницы были проиндексированы, а какие нет вследствие ошибок либо из-за недоступности сервера. Увидеть статистику можно на странице Индексирование → Статистика обхода. Здесь же есть вкладка “Последние изменения”, где вы можете увидеть дату последнего посещения страницы роботом и, соответственно, понять, насколько часто Яндекс сканирует сайт.Что касается сторонних ресурсов: мы рекомендуем tools.promosite.ru. Достаточно просто зарегистрироваться и ввести нужный домен, сервис рассчитает среднюю скорость индексации.С Google, как всегда, все сложно. Сторонних сервисов, позволяющих выявить скорость сканирования мы не знаем. Можно, конечно, использовать GSC для отслеживания общей динамики, но это недостаточно показательная информация. Тем не менее, здесь вы можете обнаружить общую статистику проиндексированных страниц и проконтролировать, чтобы в такой динамике не было слишком резких скачков и падений. На сегодня - информации хватит. В следующей части вы узнаете ответы на не менее важные вопросы:
Сколько страниц уже в индексе поисковой системы?
Как ускорить процесс индексации?
Какими должны быть ссылки и размер страниц?
Краулинговый спрос и бюджет: что об этом нужно знать?
А пока уже можно начать..
с SEO-аудита вашего сайта
Получить предложение!
Подпишись и следи за выходом новых статей в нашем монстрограммеОстались вопросы?
Не нашли ответ на интересующий Вас вопрос? Или не нашли интересующую Вас статью? Задавайте вопросы и темы статей которые Вас интересуют в комментариях.
Этот веб-сайт использует файлы cookie, чтобы улучшить вашу работу во время навигации по веб-сайту. Из них файлы cookie, которые классифицируются как необходимые, хранятся в вашем браузере, поскольку они необходимы для работы основных функций веб-сайта. Мы также используем сторонние файлы cookie, которые помогают нам анализировать и понимать, как вы используете этот веб-сайт. Эти файлы cookie будут храниться в вашем браузере только с вашего согласия. У вас также есть возможность отказаться от этих файлов cookie. Но отказ от некоторых из этих файлов cookie может повлиять на ваш опыт просмотра.
Необходимые файлы cookie абсолютно необходимы для правильной работы веб-сайта. Эти файлы cookie анонимно обеспечивают основные функции и функции безопасности веб-сайта.
Cookie
Duration
Description
cookielawinfo-checkbox-analytics
11 months
Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Аналитика».
cookielawinfo-checkbox-functional
11 months
Cookie-файл устанавливается в соответствии с GDPR, чтобы записать согласие пользователя на использование cookie-файлов в категории «Функциональные».
cookielawinfo-checkbox-necessary
11 months
Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файлы cookie используются для хранения согласия пользователя на файлы cookie в категории «Необходимые».
cookielawinfo-checkbox-others
11 months
Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Другое».
cookielawinfo-checkbox-performance
11 months
Этот файл cookie устанавливается подключаемым модулем GDPR Cookie Consent. Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Производительность».
viewed_cookie_policy
11 months
Файл cookie устанавливается подключаемым модулем GDPR Cookie Consent и используется для хранения информации о том, согласился ли пользователь на использование файлов cookie. Он не хранит никаких личных данных.
Функциональные файлы cookie помогают выполнять определенные функции, такие как совместное использование содержимого веб-сайта в социальных сетях, сбор отзывов и другие сторонние функции.
Файлы cookie производительности используются для понимания и анализа ключевых показателей производительности веб-сайта, что помогает улучшить пользовательский интерфейс для посетителей.
Аналитические файлы cookie используются для понимания того, как посетители взаимодействуют с веб-сайтом. Эти файлы cookie помогают предоставить информацию о таких показателях, как количество посетителей, показатель отказов, источник трафика и т.д.
Рекламные файлы cookie используются для предоставления посетителям релевантной рекламы и маркетинговых кампаний. Эти файлы cookie отслеживают посетителей на веб-сайтах и собирают информацию для предоставления персонализированной рекламы.
Комментарии