Основные веб-краулеры «Яндекса»
У «Яндекса» более сорока роботов-пауков — систем, выполняющих обход страницы сайтов с целью загрузки данных о них в базу, на основе которой впоследствии формируется результат поиска. Полный список веб-краулеров можно посмотреть в
официальных справочных материалах по «Вебмастеру».
К наиболее важным с точки зрения индексации страниц относятся:
- основной индексирующий робот;
- Быстробот;
- Турбо-бот.
У каждого из этих поисковых роботов своя задача и свой подход к оценке сайтов. Но выдача — одна на всех.
Базовый принцип работы поиска
Основной робот-паук совершает обход сайтов по автоматически составляемому расписанию. Он самостоятельно определяет:
- какие сайты нужно посетить;
- как часто выполнять обход конкретного интернет-ресурса;
- сколько страниц нужно обойти на выбранном сайте.
Попав на страницу, робот анализирует её содержание, выделяя контент различных типов. После этого с использованием специальных алгоритмов, учитывающих множество факторов, создаётся база страниц, из которых будет формироваться поисковая выдача.
Не все обойдённые краулером страницы окажутся в поиске. Например, в их список не попадут дубли и закрытые от индексирования страницы. «За бортом» могут оказаться и страницы, у которых, по расчётам алгоритма, очень низкие шансы на попадание в топ выдачи. Например, из-за невостребованности релевантных им запросов или, наоборот, высокой конкуренции в соответствующей нише.
При необходимости дать ответ на запрос пользователя поисковому алгоритму остаётся только выгрузить из подготовленной базы наиболее подходящие страницы.
Быстробот и Турбо-бот
Основной индексирующий робот обходит сайты относительно редко: с периодичностью от нескольких дней до двух недель. В некоторых случаях, например, для интернет-СМИ, такая скорость обновления информации явно неудовлетворительна. Да и для любых других сайтов быстрое индексирование никогда не будет лишним. И сейчас существуют решения, обеспечивающие актуализацию сведений о сайтах в режиме реального времени. К ним относятся Быстробот и Турбо-бот.
Быстробот — это поисковый робот «Яндекса», разработанный специально для скоростного индексирования интернет-ресурсов с часто обновляемым контентом. К таким сайтам относятся в том числе:
- новостные порталы;
- блоги;
- веб-ресурсы информационных агентств;
- сайты с онлайн-трансляциями.
Турбо-бот создан для формирования Турбо-страниц. Его задача — обход RSS-каналов, по данным из которых формируются лёгкие версии страниц сайта.
Эти роботы обходят не все подряд сайты. Быстробот интересуют в первую очередь сайты с часто обновляемым контентом. Турбо-бот посещает сайты, на которых подключены турбо-страницы.
Особенности скоростного поиска
Индексирование Быстробот и Турбо-бот выполняют практически мгновенно: страница попадает в выдачу буквально через несколько минут после добавления на сайт. Причем собранная этими роботами информация подмешивается в общий индекс. Причем, как правило, такие страницы сразу занимают позиции как минимум в пределах топ-20. Спустя какое-то время эти позиции обычно становятся не такими красивыми. А все потому, что страницы посещает злобный основной индексирующий робот.
Точнее, дело заключается в алгоритмах ранжирования, используемых различными поисковыми роботами. Быстробот и Турбо-бот рассчитывают позиции в выдаче на основе только внутренних факторов. Поэтому правильного оформления мета-тегов и наличия ключевых запросов на странице достаточно для попадания в топ.
А основной индексирующий робот, которому нет нужды спешить, анализирует и внутренние, и внешние, и, что наиболее важно — поведенческие факторы. Именно поэтому в первой десятке задерживаются (или возвращаются) в нее только действительно качественные страницы, востребованность которых подтверждается поведением пользователей.
Наглядный пример
Как меняются позиции в выдаче после индексирования различными роботами хорошо демонстрирует этот скриншот:
Нет комментариев