Поисковые роботы и их поведение на сайте



Поисковые роботы или как их еще называют боты поисковых систем — это специальные программы, которые мониторят сайты в сети, обновляют свою базы сайтов и информацию о них.


В целом, главная работа роботов поисковых систем своевременно обходить и при хорошем качестве страницы добавлять ее в индекс.


Какую работу выполняют роботы поисковых систем
Получается что роботы поисковых машин следят на нашими сайтами практически постоянно, но как же нам следить за их поведением. Я больше года назад задавался таким вопросом и поставил на свой сайт специальный скрипт, который отслеживает активность роботов нескольких поисковых, а также боты социальных сетей.


Помимо просмотра новых страниц или страниц что были изменены, боты сканируют ссылки с данной страницы и после переходят по ним, чтобы проверить актуальность информации и качество страницы.


К слову говоря, если роботы не получили сигнал обойти страницы извне, то в первую очередь они смотрят на файл robots.txt, а следом за ним на xml карту сайта — это дает им полную картину по сайту.


Скрипт мониторинга активности роботов поисковых систем




function robot ($bot)
{
if(strpos($_SERVER[‘HTTP_USER_AGENT’], $bot)!==false)
{
$text = date(«Y-m-d H:i») . » $bot посетил страницу: «. $_SERVER[‘REQUEST_URI’].»\r\n»;
// запись в файл
$file = fopen(«bot.txt»,»a»);
fwrite($file, $text);
fclose ($file);
// отправка на почту
mail(‘…@…ru’, «$bot посетил страницу», $text);
}
}

// отслеживаем роботов
robot(‘Googlebot’);
robot(‘Yandex’);
robot(‘Slurp’);
robot(‘Yahoo’);
robot(‘MSNBot’);
robot(‘Teoma’);
robot(‘Scooter’);
robot(‘ia_archiver’);
robot(‘Lycos’);
robot(‘StackRambler’);
robot(‘Mail.Ru’);
robot(‘Aport’);
robot(‘WebAlta’);
robot(‘Twitterbot’);
robot(‘Crowsnest’);
robot(‘facebook’);
robot(‘vkShare’);
robot(‘MailRuConnect’);

?>




Код лучше всего вставить в подвал сайта, куда обычно помещают код от Яндекс метрики и другие скрипты для сайта.


Кавычки в скрипте замените на вертикальные двойные и одинарнае — у меня на блоге шрифт отображает кавычки не так как требует систаксис скрипта.


Роботы есть у всех поисковых систем т.к. это их одна из основных функций — мониторить сеть и индексировать или удалять из индекса страницы сайтов.


Меня в первую очередь конечно интересовали поисковые роботы Яндекса и Google, а все остальное уже второстепенно.


Чтобы поисковой робот google поскорее обратив внимание на Ваш новый материал на сайта нужно в панели Search Console перейти в раздел посмотреть как GoogleBot и отправить новую страницу на индексацию. Это поможет ускорить процесс прихода бота google на сайт.


А для того чтобы поисковой робот Яндекса проделал тоже самое, нужно сделать переобход страниц.


Наблюдать за активностью поисковых роботов можно будет по такому пути http://вашсайт/bot.txt


Я бы посоветовал поэкспериментировать. Например, когда вы делитель новой статьей или товаров только сто добавленным на сайт поделитесь этим в социальных сетях. С точки зрения SEO это называется социальные сигналы.


Спустя несколько минут посмотрите в файл bot.txt по ссылке как я указал выше и Вы заметите интересную картину — сразу после прихода на сайт ботов социальных сетей, следом за ними прибегают и роботы поисковых систем. А если в Вашей статье есть ссылка на другой материал, то с большой вероятность бот поисковой системы перейдет и посмотри снова и эту страницу.


Вообщем следить за роботами это интересное занятие, по крайней мере для SEO-шников.