Перейти к содержимому

Petalbot что за бот

  • автор:

PetalBot

PetalBot — это робот поисковой системы «Petal Search» от компании Huawei (первый выпуск которой был объявлен 19 июня 2020 года). Подробнее о поисковой системы «Petal Search» можно узнать из официального источника. Информация о боте, способы блокировки в robots.txt и как определить подлинность, описаны на официальной странице.

О боте

PetalBot является также «вежливым ботом» и периодически запрашивает файл «/robots.txt» для того, чтобы следовать указаниям вебмастера сайта. Это бот, как и многие другие индексирующие роботы поисковых систем, запрашивает страницы сайта и изображения. Не замечено, чтобы бот запрашивал JS и CSS файлы, следовательно визуальная составляющая его не интересует, только контент.

По IP адресу можно увидеть прозрачную информацию о его происхождении и инициаторе:

информация об одном из IP адресов бота PetalBot

Например по примеру выше можно понять, что запросы с IP 114.119.167.227 выполнялись подлинным ботом: сервер находится в Сингапуре, провайдер Huawei International Pte Ltd и хост aspiegel.com. Для валидации советую использовать валидатор ботов.

Поведение бота

Этот бот был замечен в логах сервера, в моем случае, с 20 мая 2020:

активность PetalBot в логах

В 99,9% случаев бот делал запросы с User-Agent:

Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)

Все запросы производятся по методу GET и, как оказалось, все они были от PetalBot (mobile), а «PC» так и не пришёл. Исходя из данных в логах заметно равномерное распределение запросов между IP адресами. В среднем кол-во запросов каждого IP адреса бота составляет 2,4% от общего кол-ва запросов.

Также стоит отметить что запросы PetalBot производятся с большого кол-ва IP адресов. В моем случае с 20 мая по 26 июля бот делал запросы к серверу с 451 различного IP адреса (скачать список). За июнь бот сделал 166К запросов к серверу (около 4 запросов в минуту), но уже в июле число запросов превышает 204К (на 26 июля, аппетит растет). В моем случае на проекте более 20М страниц, следовательно еще и поэтому такое кол-во запросов. Исходя из такой интенсивности бота нагрузку на сервер он не должен создать.

Выводы

Исходя из наблюдений делаю краткие выводы:

  • бот поисковой системы;
  • слушает robots.txt;
  • запрашивает только контент и изображения;
  • не создает нагрузку на сервер (около 4 запросов в минуту);
  • большое кол-во IP адресов.

Есть толк от Applebot, PetalBot?

semenov #:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36 На русскоязычных сайтах есть с него трафик вообще?

мелочь с него идет 0-2 уника)
На сайте с 09.12.2014
8 декабря 2023, 12:54

sergey384 #:
вы про амазон? зачем тратить время, что то выбирать? баните все подсети и спите спокойно.

и про амазон в том числе, я иногда амазон оставляю где-то на треть, это имеет смысл если на сайте висит стата от поисковиков (но это не точно), просто чисто приятней кода трафа больше и коллеги говорят что ПФ и в всё такое в общем.
всё забанить чревато потерями трафика, тут надо избирательно — делал тесты гда 3 назад), тут только статистика в помощь, на мой взгяд статистика полезная штука. Если мешает — убрал. всё.

На сайте с 09.09.2007
8 декабря 2023, 12:57

LEOnidUKG #:
Ну да, в ноябре прошлого года всё случилось. Чего они своих ботов не выключают, не понятно. Возможно богом забытые сервера работают и никто их не трогает.

получается, можно смело убирать Mail.RU_Bot из разрешающего правила CloudFlare?
На сайте с 01.11.2023
8 декабря 2023, 15:32

OnOf #:
и про амазон в том числе, я иногда амазон оставляю где-то на треть, это имеет смысл если на сайте висит стата от поисковиков (но это не точно), просто чисто приятней кода трафа больше и коллеги говорят что ПФ и в всё такое в общем.
всё забанить чревато потерями трафика, тут надо избирательно — делал тесты гда 3 назад), тут только статистика в помощь, на мой взгяд статистика полезная штука. Если мешает — убрал. всё.

вам больше заняться нечем? какие потери трафика если вы не связаны с амазон ничем? или часть вашего трафика это люди кто юзает впн с серваков амазона и заходит к вам на сайт?

На сайте с 28.10.2005
8 декабря 2023, 18:35
А Байду бота наоборот не видно стало, а раньше просто досил. Перестал по ру сайтам ходить?
На сайте с 05.05.2007
9 декабря 2023, 21:19

у меня проблема сейчас только с Гуглом, их ip на 192 .много цифр. могут 10К за пару минуту дать, но на пару минут, потом отпускает, че за хрень не пойму. Связано наверное с Адсенсом. Еще Yandex достает, прикинте англ. сайты сканирует, но его просто в бан оправил.

Petalbot что за бот

17 августа 2020

Нагрузку на сайт нередко делают не посетители, а разные поисковые боты. Когда-то проблемы были даже от робота Google, но сейчас он научился снижать аппетиты при появлении ошибок или существенном повышении времени ответа. Яндекс тоже поумерил аппетиты и настраивается через Вебмастер.

Но «голодные» боты ещё остались. Один из таких — AhrefsBot. На наше счастье, многие боты, которые сами не умеют регулировать свой аппетит, подчиняются robots.txt в корне сайта, директиве Crawl-Delay . Она выставляет задержку между парсингом следующей страницы в секундах. Одной секунды для многих проектов вполне достаточно (86400 страниц). Если мало — можно использовать дробные значения.

User-agent: * Crawl-Delay: 1

UPD: для особо непослушных ботов можно и пожёстче через Nginx.

Создаём в /etc/nginx конфиг block-bots.conf :

if ($http_user_agent ~* SemrushBot|MJ12bot|AhrefsBot|DotBot|PetalBot|LinkpadBot|SputnikBot|statdom.ru|MegaIndex.ru|WebDataStats|Jooblebot|BackupLand|NetcraftSurveyAgent|openstat.ru)

И подключаем в каждый блок server каждого конфига:

server < include block-bots.conf;

Комментарии RSS по email OK

Roman 17 авг. 2020 г., 12:16:59

У меня в практике была другая проблема. Магазин генерировал из связок товар+город уникальные страницы для сео продвижения. Кажда страница кешировалась. Так вот кеш мог вырастать до нескольков десятков гигабайт во время индексации гуглом. Админ наш подбамбливал периодически от этого =) .

scorp13 18 авг. 2020 г., 12:06:06

Поисковые боты еще куда ни шло, но это "сервисные" боты (ahrefsbot, mj12bot, semrush, similarweb — много их), которые по-сути для сайта никакой пользы не несут, а нагрузку действительно могут создать увеличить существенно, пусть даже на короткое время. Я обычно nginx'ом отдаю им 444.

apt.ru

Timeweb - компания, которая размещает проекты клиентов в Интернете, регистрирует адреса сайтов и предоставляет аренду виртуальных и физических серверов. Разместите свой сайт в Сети - расскажите миру о себе!

Виртуальный хостинг

Быстрая загрузка вашего сайта, бесплатное доменное имя, SSL-сертификат и почта. Первоклассная круглосуточная поддержка.

от 196 руб руб. / мес

Аренда VDS и VPS

Виртуальные серверы с почасовой оплатой. Меняйте конфигурацию сервера в любой момент и в пару кликов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *