PetalBot
PetalBot — это робот поисковой системы «Petal Search» от компании Huawei (первый выпуск которой был объявлен 19 июня 2020 года). Подробнее о поисковой системы «Petal Search» можно узнать из официального источника. Информация о боте, способы блокировки в robots.txt и как определить подлинность, описаны на официальной странице.
О боте
PetalBot является также «вежливым ботом» и периодически запрашивает файл «/robots.txt» для того, чтобы следовать указаниям вебмастера сайта. Это бот, как и многие другие индексирующие роботы поисковых систем, запрашивает страницы сайта и изображения. Не замечено, чтобы бот запрашивал JS и CSS файлы, следовательно визуальная составляющая его не интересует, только контент.
По IP адресу можно увидеть прозрачную информацию о его происхождении и инициаторе:

Например по примеру выше можно понять, что запросы с IP 114.119.167.227 выполнялись подлинным ботом: сервер находится в Сингапуре, провайдер Huawei International Pte Ltd и хост aspiegel.com. Для валидации советую использовать валидатор ботов.
Поведение бота
Этот бот был замечен в логах сервера, в моем случае, с 20 мая 2020:

В 99,9% случаев бот делал запросы с User-Agent:
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)
Все запросы производятся по методу GET и, как оказалось, все они были от PetalBot (mobile), а «PC» так и не пришёл. Исходя из данных в логах заметно равномерное распределение запросов между IP адресами. В среднем кол-во запросов каждого IP адреса бота составляет 2,4% от общего кол-ва запросов.
Также стоит отметить что запросы PetalBot производятся с большого кол-ва IP адресов. В моем случае с 20 мая по 26 июля бот делал запросы к серверу с 451 различного IP адреса (скачать список). За июнь бот сделал 166К запросов к серверу (около 4 запросов в минуту), но уже в июле число запросов превышает 204К (на 26 июля, аппетит растет). В моем случае на проекте более 20М страниц, следовательно еще и поэтому такое кол-во запросов. Исходя из такой интенсивности бота нагрузку на сервер он не должен создать.
Выводы
Исходя из наблюдений делаю краткие выводы:
- бот поисковой системы;
- слушает robots.txt;
- запрашивает только контент и изображения;
- не создает нагрузку на сервер (около 4 запросов в минуту);
- большое кол-во IP адресов.
Есть толк от Applebot, PetalBot?
semenov #:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36 На русскоязычных сайтах есть с него трафик вообще?
мелочь с него идет 0-2 уника)
На сайте с 09.12.2014
8 декабря 2023, 12:54
sergey384 #:
вы про амазон? зачем тратить время, что то выбирать? баните все подсети и спите спокойно.
и про амазон в том числе, я иногда амазон оставляю где-то на треть, это имеет смысл если на сайте висит стата от поисковиков (но это не точно), просто чисто приятней кода трафа больше и коллеги говорят что ПФ и в всё такое в общем.
всё забанить чревато потерями трафика, тут надо избирательно — делал тесты гда 3 назад), тут только статистика в помощь, на мой взгяд статистика полезная штука. Если мешает — убрал. всё.
На сайте с 09.09.2007
8 декабря 2023, 12:57
LEOnidUKG #:
Ну да, в ноябре прошлого года всё случилось. Чего они своих ботов не выключают, не понятно. Возможно богом забытые сервера работают и никто их не трогает.
получается, можно смело убирать Mail.RU_Bot из разрешающего правила CloudFlare?
На сайте с 01.11.2023
8 декабря 2023, 15:32
OnOf #:
и про амазон в том числе, я иногда амазон оставляю где-то на треть, это имеет смысл если на сайте висит стата от поисковиков (но это не точно), просто чисто приятней кода трафа больше и коллеги говорят что ПФ и в всё такое в общем.
всё забанить чревато потерями трафика, тут надо избирательно — делал тесты гда 3 назад), тут только статистика в помощь, на мой взгяд статистика полезная штука. Если мешает — убрал. всё.
вам больше заняться нечем? какие потери трафика если вы не связаны с амазон ничем? или часть вашего трафика это люди кто юзает впн с серваков амазона и заходит к вам на сайт?
На сайте с 28.10.2005
8 декабря 2023, 18:35
А Байду бота наоборот не видно стало, а раньше просто досил. Перестал по ру сайтам ходить?
На сайте с 05.05.2007
9 декабря 2023, 21:19
у меня проблема сейчас только с Гуглом, их ip на 192 .много цифр. могут 10К за пару минуту дать, но на пару минут, потом отпускает, че за хрень не пойму. Связано наверное с Адсенсом. Еще Yandex достает, прикинте англ. сайты сканирует, но его просто в бан оправил.
Petalbot что за бот
17 августа 2020
Нагрузку на сайт нередко делают не посетители, а разные поисковые боты. Когда-то проблемы были даже от робота Google, но сейчас он научился снижать аппетиты при появлении ошибок или существенном повышении времени ответа. Яндекс тоже поумерил аппетиты и настраивается через Вебмастер.
Но «голодные» боты ещё остались. Один из таких — AhrefsBot. На наше счастье, многие боты, которые сами не умеют регулировать свой аппетит, подчиняются robots.txt в корне сайта, директиве Crawl-Delay . Она выставляет задержку между парсингом следующей страницы в секундах. Одной секунды для многих проектов вполне достаточно (86400 страниц). Если мало — можно использовать дробные значения.
User-agent: * Crawl-Delay: 1
UPD: для особо непослушных ботов можно и пожёстче через Nginx.
Создаём в /etc/nginx конфиг block-bots.conf :
if ($http_user_agent ~* SemrushBot|MJ12bot|AhrefsBot|DotBot|PetalBot|LinkpadBot|SputnikBot|statdom.ru|MegaIndex.ru|WebDataStats|Jooblebot|BackupLand|NetcraftSurveyAgent|openstat.ru)
И подключаем в каждый блок server каждого конфига:
server < include block-bots.conf;
Комментарии RSS по email OK
Roman 17 авг. 2020 г., 12:16:59
У меня в практике была другая проблема. Магазин генерировал из связок товар+город уникальные страницы для сео продвижения. Кажда страница кешировалась. Так вот кеш мог вырастать до нескольков десятков гигабайт во время индексации гуглом. Админ наш подбамбливал периодически от этого =) .
scorp13 18 авг. 2020 г., 12:06:06
Поисковые боты еще куда ни шло, но это "сервисные" боты (ahrefsbot, mj12bot, semrush, similarweb — много их), которые по-сути для сайта никакой пользы не несут, а нагрузку действительно могут создать увеличить существенно, пусть даже на короткое время. Я обычно nginx'ом отдаю им 444.
apt.ru
Timeweb - компания, которая размещает проекты клиентов в Интернете, регистрирует адреса сайтов и предоставляет аренду виртуальных и физических серверов. Разместите свой сайт в Сети - расскажите миру о себе!
Виртуальный хостинг
Быстрая загрузка вашего сайта, бесплатное доменное имя, SSL-сертификат и почта. Первоклассная круглосуточная поддержка.
от 196 руб руб. / мес
Аренда VDS и VPS
Виртуальные серверы с почасовой оплатой. Меняйте конфигурацию сервера в любой момент и в пару кликов.