Перейти к содержимому

Mj12bot что за бот

  • автор:

Защита сайта от нежелательных ботов

Большие сайты с тысячами страниц и интернет-магазины с большим ассортиментом товаров зачастую сталкиваются с проблемой внезапно высокой нагрузки на сервер.

Причиной очень часто становятся не ddos атаки, вирусы или действия хакеров, а обычные роботы малоизвестных поисковых систем или различных сервисов, которые за счет большого количества запросов к сайту в единицу времени приводят к увеличению нагрузки и превышению допустимых на хостинге лимитов.

Замечу, что данная проблема актуальна именно для крупных интернет-магазинов, поскольку, если ваш сайт состоит из 100-500 страниц и менее, то даже средний хостинг справится с такой внезапной нагрузкой без особых проблем. VDS серверы способны выдерживать куда более высокие нагрузки и, как правило, для интернет-магазинов на VDS такая проблема ощутима только в период новогоднего бума или накануне праздников, когда серверы работают на пределе своих возможностей.

Определить причину внезапно высокой нагрузки на сервер порой можно только через анализ логов, но иногда достаточно Яндекс Метрики, которая порой принимает ботов за пользователей.

Признаки появления бота на сайте

  • Большое количество просмотренных страниц в единицу времени
  • Нехарактерная для данного времени и дня недели высокая посещаемость сайта
  • Резкий рост посещаемости пользователей из других стран мира и с необычными для России браузерами
  • Необычно медленная загрузка страниц сайта
  • Долгий ответ сервера
  • Жалобы со стороны хостинга о потреблении сайтом большого кличества ресурсов
  • Однотипное поведение пользователей с многочисленным посещением одной и той же страницы

Примеры нежелательных ботов

Нежелательные боты зачастую это вовсе не боты спамеры или парсеры сайтов. Очень часто эти боты представляют различные сервисы или малоизвестные поисковые системы.

Прямой угрозы они не несут, но из-за неправильной настройки, внутренней ошибки или по каким-либо другим причинам они могут создавать высокую нагрузку на сайт за счет большого количества хитов в единицу времени.

Бот MJ12bot

Поисковый робот сервиса Majestic, которые собирает данные об исходящих ссылках на сайтах. Робот нормально воспринимает канонические страницы, но на сайтах, где канонические урлы отсутствуют, начинает очень сильно «буксовать» на страницах, в урлах которых содержатся параметры.

Бот BLEXBot

Робот BLEXBot Crawler заявлен как робот поисковой системы — какой именно поисковой системы, на официальной странице не уточняется.

Бот AhrefsBot

Этот робот, равно как и MJ12bot, анализирует страницы сайта на наличие внешних ссылок. Сам сайт ahrefs.com предоставляет наплохой профессиональный сервис по оценке и анализу ссылочного.

Бот HubSpot Webcrawler

Это робот поисковой системы сайта amazon.com. На самом «Амазоне» заявлено, что данная платформа создана для компаний, которым нужно привлечь посетителей, т.е. по сути робот является сборщиком контента с интернет-магазинов.

Другие нежелательные боты

Приведенный ниже перечень ботов мной лично не встречался, но вполне возможно, что они ещё существуют:

Aboundex
80legs
360Spider
Java
Cogentbot
Alexibot
asterias
attach
BackDoorBot
BackWeb
Bandit
BatchFTP
Bigfoot
Black.Hole
BlackWidow
BlowFish
BotALot
Buddy
BuiltBotTough
Bullseye
BunnySlippers
Cegbfeieh
CheeseBot
CherryPicker
ChinaClaw
Collector
Copier
CopyRightCheck
cosmos
Crescent
Custo
AIBOT
DISCo
DIIbot
DittoSpyder
Download Demon
Download Devil
Download Wonder
dragonfly
Drip
eCatch
EasyDL
ebingbong
EirGrabber
EmailCollector
EmailSiphon
EmailWolf
EroCrawler
Exabot
Express WebPictures
Extractor
EyeNetIE
Foobot
flunky
FrontPage
Go-Ahead-Got-It
gotit
GrabNet
Grafula
Harvest
hloader
HMView
HTTrack
humanlinks
IlseBot
Image Stripper
Image Sucker
Indy Library
InfoNavibot
InfoTekies
Intelliseek
InterGET
Internet Ninja
Iria
Jakarta
JennyBot
JetCar
JOC
JustView
Jyxobot
Kenjin.Spider
Keyword.Density
larbin
LexiBot
lftp
libWeb/clsHTTP
likse
LinkextractorPro
LinkScan/8.1a.Unix
LNSpiderguy
LinkWalker
lwp-trivial
LWP::Simple
Magnet
Mag-Net
MarkWatch
Mass Downloader
Mata.Hari
Memo
Microsoft.URL
Microsoft URL Control
MIDown tool
MIIxpc
Mirror
Missigua Locator
Mister PiX
moget
Mozilla/3.Mozilla/2.01
Mozilla.*NEWT
NAMEPROTECT
Navroad
NearSite
NetAnts
Netcraft
NetMechanic
NetSpider
Net Vampire
NetZIP
NextGenSearchBot
NG
NICErsPRO
niki-bot
NimbleCrawler
Ninja
NPbot
Octopus
Offline Explorer
Offline Navigator
Openfind
OutfoxBot
PageGrabber
Papa Foto
pavuk
pcBrowser
PHP version tracker
Pockey
ProPowerBot/2.14
ProWebWalker
psbot
Pump
QueryN.Metasearch
RealDownload
Reaper
Recorder
ReGet
RepoMonkey
RMA
Siphon
SiteSnagger
SlySearch
SmartDownload
Snake
Snapbot
Snoopy
sogou
SpaceBison
SpankBot
spanner
Sqworm
Stripper
Sucker
SuperBot
SuperHTTP
Surfbot
suzuran
Szukacz/1.4
tAkeOut
Teleport
Telesoft
TurnitinBot/1.5
The.Intraformant
TheNomad
TightTwatBot
Titan
True_bot
turingos
TurnitinBot
URLy.Warning
Vacuum
VCI
VoidEYE
Web Image Collector
Web Sucker
WebAuto
WebBandit
Webclipping.com
WebCopier
WebEMailExtrac.*» bot
WebEnhancer
WebFetch
WebGo IS
Web.Image.Collector
WebLeacher
WebmasterWorldForumBot
WebReaper
WebSauger
Website eXtractor
Website Quester
Webster
WebStripper
WebWhacker
WebZIP
Whacker
Widow
WISENutbot
WWWOFFLE
WWW-Collector-E
Xaldon
Xenu
Zeus
ZmEu
Zyborg
AhrefsBot
archive.org_bot
bingbot
Wget
Acunetix
FHscan

Ограничение активности ботов с использованием robots.txt

Универсальное решение заключается в том, чтобы через дерективу Crawl-delay в файле robots.txt ограничить количество запросов. Численное значение указывает паузу в секундах между обращениями к сайту.

Типовой пример, подходящий для большинства сайтов

User-agent: *
Crawl-delay: 10

10 секунд более чем достаточно, чтобы лимитировать нарузку на сайт роботов поисковых машин.

Впрочем, некоторые нежелательные боты игнорируют данную директиву и даже прямой запрет доступа через robots.txt не спасает от высокой нагрузки.

User-agent: MJ12bot
Disallow: /

В таких случаях остается только вариант блокирования доступа к сайта по ip адресам, откуда идут запросы, или по User-agent.

Второй вариант является более предпочтительным, поскольку при блокировании доступа по ip, сайт становится недоступен для всех устройств, в том числе и для обычных пользователей.

Блокирование ботов по User-agent через .htaccess файл

Подавляющее большинство сайтов работает на linux платформе, где роль веб-сервера выполняет Apache сервер. Веб-сервер обрабатывает запросы пользователей и отдает страницы сайта.

Для блокирования доступа по User-agent необходимо в корень сайта добавить файл .htaccess (если его там ещё нет) и дописать следующие строки.

SetEnvIfNoCase User-Agent «Aboundex» bot
SetEnvIfNoCase User-Agent «80legs» bot
SetEnvIfNoCase User-Agent «360Spider» bot
SetEnvIfNoCase User-Agent «^Java» bot
SetEnvIfNoCase User-Agent «^Cogentbot» bot
SetEnvIfNoCase User-Agent «^Alexibot» bot
SetEnvIfNoCase User-Agent «^asterias» bot
SetEnvIfNoCase User-Agent «^attach» bot
SetEnvIfNoCase User-Agent «^BackDoorBot» bot
SetEnvIfNoCase User-Agent «^BackWeb» bot
SetEnvIfNoCase User-Agent «Bandit» bot
SetEnvIfNoCase User-Agent «^BatchFTP» bot
SetEnvIfNoCase User-Agent «^Bigfoot» bot
SetEnvIfNoCase User-Agent «^Black.Hole» bot
SetEnvIfNoCase User-Agent «^BlackWidow» bot
SetEnvIfNoCase User-Agent «^BlowFish» bot
SetEnvIfNoCase User-Agent «^BotALot» bot
SetEnvIfNoCase User-Agent «Buddy» bot
SetEnvIfNoCase User-Agent «^BuiltBotTough» bot
SetEnvIfNoCase User-Agent «^Bullseye» bot
SetEnvIfNoCase User-Agent «^BunnySlippers» bot
SetEnvIfNoCase User-Agent «^Cegbfeieh» bot
SetEnvIfNoCase User-Agent «^CheeseBot» bot
SetEnvIfNoCase User-Agent «^CherryPicker» bot
SetEnvIfNoCase User-Agent «^ChinaClaw» bot
SetEnvIfNoCase User-Agent «Collector» bot
SetEnvIfNoCase User-Agent «Copier» bot
SetEnvIfNoCase User-Agent «^CopyRightCheck» bot
SetEnvIfNoCase User-Agent «^cosmos» bot
SetEnvIfNoCase User-Agent «^Crescent» bot
SetEnvIfNoCase User-Agent «^Custo» bot
SetEnvIfNoCase User-Agent «^AIBOT» bot
SetEnvIfNoCase User-Agent «^DISCo» bot
SetEnvIfNoCase User-Agent «^DIIbot» bot
SetEnvIfNoCase User-Agent «^DittoSpyder» bot
SetEnvIfNoCase User-Agent «^Download\ Demon» bot
SetEnvIfNoCase User-Agent «^Download\ Devil» bot
SetEnvIfNoCase User-Agent «^Download\ Wonder» bot
SetEnvIfNoCase User-Agent «^dragonfly» bot
SetEnvIfNoCase User-Agent «^Drip» bot
SetEnvIfNoCase User-Agent «^eCatch» bot
SetEnvIfNoCase User-Agent «^EasyDL» bot
SetEnvIfNoCase User-Agent «^ebingbong» bot
SetEnvIfNoCase User-Agent «^EirGrabber» bot
SetEnvIfNoCase User-Agent «^EmailCollector» bot
SetEnvIfNoCase User-Agent «^EmailSiphon» bot
SetEnvIfNoCase User-Agent «^EmailWolf» bot
SetEnvIfNoCase User-Agent «^EroCrawler» bot
SetEnvIfNoCase User-Agent «^Exabot» bot
SetEnvIfNoCase User-Agent «^Express\ WebPictures» bot
SetEnvIfNoCase User-Agent «Extractor» bot
SetEnvIfNoCase User-Agent «^EyeNetIE» bot
SetEnvIfNoCase User-Agent «^Foobot» bot
SetEnvIfNoCase User-Agent «^flunky» bot
SetEnvIfNoCase User-Agent «^FrontPage» bot
SetEnvIfNoCase User-Agent «^Go-Ahead-Got-It» bot
SetEnvIfNoCase User-Agent «^gotit» bot
SetEnvIfNoCase User-Agent «^GrabNet» bot
SetEnvIfNoCase User-Agent «^Grafula» bot
SetEnvIfNoCase User-Agent «^Harvest» bot
SetEnvIfNoCase User-Agent «^hloader» bot
SetEnvIfNoCase User-Agent «^HMView» bot
SetEnvIfNoCase User-Agent «^HTTrack» bot
SetEnvIfNoCase User-Agent «^humanlinks» bot
SetEnvIfNoCase User-Agent «^IlseBot» bot
SetEnvIfNoCase User-Agent «^Image\ Stripper» bot
SetEnvIfNoCase User-Agent «^Image\ Sucker» bot
SetEnvIfNoCase User-Agent «Indy\ Library» bot
SetEnvIfNoCase User-Agent «^InfoNavibot» bot
SetEnvIfNoCase User-Agent «^InfoTekies» bot
SetEnvIfNoCase User-Agent «^Intelliseek» bot
SetEnvIfNoCase User-Agent «^InterGET» bot
SetEnvIfNoCase User-Agent «^Internet\ Ninja» bot
SetEnvIfNoCase User-Agent «^Iria» bot
SetEnvIfNoCase User-Agent «^Jakarta» bot
SetEnvIfNoCase User-Agent «^JennyBot» bot
SetEnvIfNoCase User-Agent «^JetCar» bot
SetEnvIfNoCase User-Agent «^JOC» bot
SetEnvIfNoCase User-Agent «^JustView» bot
SetEnvIfNoCase User-Agent «^Jyxobot» bot
SetEnvIfNoCase User-Agent «^Kenjin.Spider» bot
SetEnvIfNoCase User-Agent «^Keyword.Density» bot
SetEnvIfNoCase User-Agent «^larbin» bot
SetEnvIfNoCase User-Agent «^LexiBot» bot
SetEnvIfNoCase User-Agent «^lftp» bot
SetEnvIfNoCase User-Agent «^libWeb/clsHTTP» bot
SetEnvIfNoCase User-Agent «^likse» bot
SetEnvIfNoCase User-Agent «^LinkextractorPro» bot
SetEnvIfNoCase User-Agent «^LinkScan/8.1a.Unix» bot
SetEnvIfNoCase User-Agent «^LNSpiderguy» bot
SetEnvIfNoCase User-Agent «^LinkWalker» bot
SetEnvIfNoCase User-Agent «^lwp-trivial» bot
SetEnvIfNoCase User-Agent «^LWP::Simple» bot
SetEnvIfNoCase User-Agent «^Magnet» bot
SetEnvIfNoCase User-Agent «^Mag-Net» bot
SetEnvIfNoCase User-Agent «^MarkWatch» bot
SetEnvIfNoCase User-Agent «^Mass\ Downloader» bot
SetEnvIfNoCase User-Agent «^Mata.Hari» bot
SetEnvIfNoCase User-Agent «^Memo» bot
SetEnvIfNoCase User-Agent «^Microsoft.URL» bot
SetEnvIfNoCase User-Agent «^Microsoft\ URL\ Control» bot
SetEnvIfNoCase User-Agent «^MIDown\ tool» bot
SetEnvIfNoCase User-Agent «^MIIxpc» bot
SetEnvIfNoCase User-Agent «^Mirror» bot
SetEnvIfNoCase User-Agent «^Missigua\ Locator» bot
SetEnvIfNoCase User-Agent «^Mister\ PiX» bot
SetEnvIfNoCase User-Agent «^moget» bot
SetEnvIfNoCase User-Agent «^Mozilla/3.Mozilla/2.01» bot
SetEnvIfNoCase User-Agent «^Mozilla.*NEWT» bot
SetEnvIfNoCase User-Agent «^NAMEPROTECT» bot
SetEnvIfNoCase User-Agent «^Navroad» bot
SetEnvIfNoCase User-Agent «^NearSite» bot
SetEnvIfNoCase User-Agent «^NetAnts» bot
SetEnvIfNoCase User-Agent «^Netcraft» bot
SetEnvIfNoCase User-Agent «^NetMechanic» bot
SetEnvIfNoCase User-Agent «^NetSpider» bot
SetEnvIfNoCase User-Agent «^Net\ Vampire» bot
SetEnvIfNoCase User-Agent «^NetZIP» bot
SetEnvIfNoCase User-Agent «^NextGenSearchBot» bot
SetEnvIfNoCase User-Agent «^NG» bot
SetEnvIfNoCase User-Agent «^NICErsPRO» bot
SetEnvIfNoCase User-Agent «^niki-bot» bot
SetEnvIfNoCase User-Agent «^NimbleCrawler» bot
SetEnvIfNoCase User-Agent «^Ninja» bot
SetEnvIfNoCase User-Agent «^NPbot» bot
SetEnvIfNoCase User-Agent «^Octopus» bot
SetEnvIfNoCase User-Agent «^Offline\ Explorer» bot
SetEnvIfNoCase User-Agent «^Offline\ Navigator» bot
SetEnvIfNoCase User-Agent «^Openfind» bot
SetEnvIfNoCase User-Agent «^OutfoxBot» bot
SetEnvIfNoCase User-Agent «^PageGrabber» bot
SetEnvIfNoCase User-Agent «^Papa\ Foto» bot
SetEnvIfNoCase User-Agent «^pavuk» bot
SetEnvIfNoCase User-Agent «^pcBrowser» bot
SetEnvIfNoCase User-Agent «^PHP\ version\ tracker» bot
SetEnvIfNoCase User-Agent «^Pockey» bot
SetEnvIfNoCase User-Agent «^ProPowerBot/2.14» bot
SetEnvIfNoCase User-Agent «^ProWebWalker» bot
SetEnvIfNoCase User-Agent «^psbot» bot
SetEnvIfNoCase User-Agent «^Pump» bot
SetEnvIfNoCase User-Agent «^QueryN.Metasearch» bot
SetEnvIfNoCase User-Agent «^RealDownload» bot
SetEnvIfNoCase User-Agent «Reaper» bot
SetEnvIfNoCase User-Agent «Recorder» bot
SetEnvIfNoCase User-Agent «^ReGet» bot
SetEnvIfNoCase User-Agent «^RepoMonkey» bot
SetEnvIfNoCase User-Agent «^RMA» bot
SetEnvIfNoCase User-Agent «Siphon» bot
SetEnvIfNoCase User-Agent «^SiteSnagger» bot
SetEnvIfNoCase User-Agent «^SlySearch» bot
SetEnvIfNoCase User-Agent «^SmartDownload» bot
SetEnvIfNoCase User-Agent «^Snake» bot
SetEnvIfNoCase User-Agent «^Snapbot» bot
SetEnvIfNoCase User-Agent «^Snoopy» bot
SetEnvIfNoCase User-Agent «^sogou» bot
SetEnvIfNoCase User-Agent «^SpaceBison» bot
SetEnvIfNoCase User-Agent «^SpankBot» bot
SetEnvIfNoCase User-Agent «^spanner» bot
SetEnvIfNoCase User-Agent «^Sqworm» bot
SetEnvIfNoCase User-Agent «Stripper» bot
SetEnvIfNoCase User-Agent «Sucker» bot
SetEnvIfNoCase User-Agent «^SuperBot» bot
SetEnvIfNoCase User-Agent «^SuperHTTP» bot
SetEnvIfNoCase User-Agent «^Surfbot» bot
SetEnvIfNoCase User-Agent «^suzuran» bot
SetEnvIfNoCase User-Agent «^Szukacz/1.4» bot
SetEnvIfNoCase User-Agent «^tAkeOut» bot
SetEnvIfNoCase User-Agent «^Teleport» bot
SetEnvIfNoCase User-Agent «^Telesoft» bot
SetEnvIfNoCase User-Agent «^TurnitinBot/1.5» bot
SetEnvIfNoCase User-Agent «^The.Intraformant» bot
SetEnvIfNoCase User-Agent «^TheNomad» bot
SetEnvIfNoCase User-Agent «^TightTwatBot» bot
SetEnvIfNoCase User-Agent «^Titan» bot
SetEnvIfNoCase User-Agent «^True_bot» bot
SetEnvIfNoCase User-Agent «^turingos» bot
SetEnvIfNoCase User-Agent «^TurnitinBot» bot
SetEnvIfNoCase User-Agent «^URLy.Warning» bot
SetEnvIfNoCase User-Agent «^Vacuum» bot
SetEnvIfNoCase User-Agent «^VCI» bot
SetEnvIfNoCase User-Agent «^VoidEYE» bot
SetEnvIfNoCase User-Agent «^Web\ Image\ Collector» bot
SetEnvIfNoCase User-Agent «^Web\ Sucker» bot
SetEnvIfNoCase User-Agent «^WebAuto» bot
SetEnvIfNoCase User-Agent «^WebBandit» bot
SetEnvIfNoCase User-Agent «^Webclipping.com» bot
SetEnvIfNoCase User-Agent «^WebCopier» bot
SetEnvIfNoCase User-Agent «^WebEMailExtrac.*» bot
SetEnvIfNoCase User-Agent «^WebEnhancer» bot
SetEnvIfNoCase User-Agent «^WebFetch» bot
SetEnvIfNoCase User-Agent «^WebGo\ IS» bot
SetEnvIfNoCase User-Agent «^Web.Image.Collector» bot
SetEnvIfNoCase User-Agent «^WebLeacher» bot
SetEnvIfNoCase User-Agent «^WebmasterWorldForumBot» bot
SetEnvIfNoCase User-Agent «^WebReaper» bot
SetEnvIfNoCase User-Agent «^WebSauger» bot
SetEnvIfNoCase User-Agent «^Website\ eXtractor» bot
SetEnvIfNoCase User-Agent «^Website\ Quester» bot
SetEnvIfNoCase User-Agent «^Webster» bot
SetEnvIfNoCase User-Agent «^WebStripper» bot
SetEnvIfNoCase User-Agent «^WebWhacker» bot
SetEnvIfNoCase User-Agent «^WebZIP» bot
SetEnvIfNoCase User-Agent «Whacker» bot
SetEnvIfNoCase User-Agent «^Widow» bot
SetEnvIfNoCase User-Agent «^WISENutbot» bot
SetEnvIfNoCase User-Agent «^WWWOFFLE» bot
SetEnvIfNoCase User-Agent «^WWW-Collector-E» bot
SetEnvIfNoCase User-Agent «^Xaldon» bot
SetEnvIfNoCase User-Agent «^Xenu» bot
SetEnvIfNoCase User-Agent «^Zeus» bot
SetEnvIfNoCase User-Agent «ZmEu» bot
SetEnvIfNoCase User-Agent «^Zyborg» bot
SetEnvIfNoCase User-Agent «AhrefsBot» bot
SetEnvIfNoCase User-Agent «HubSpot» bot
SetEnvIfNoCase User-Agent «BLEXBot» bot
SetEnvIfNoCase User-Agent «archive.org_bot» bot
SetEnvIfNoCase User-Agent «bingbot» bot
SetEnvIfNoCase User-Agent «^Wget» bot
Deny from env=bot

Понятно, что можно использовать данный перечень в исходном виде, а можно оставить в списке только тех нежелательных ботов, которые действительно создавали в прошлом и создают высокую нагрузку на ваш сайт на данный момент.

MJ12bot

MJ12bot назойливый бот который не делает Вашему сайту ни какой пользы, но при этом так же, как SEMRushBot усердно сканирует сайт и тем самым грузит процессор. Без промедления добавляйте user agent mj12bot в robots.txt

User-agent: MJ12bot Disallow: /

Или используйте более надежный способ: запрет доступа для бота MJ12bot в корневом файле .htaccess

RewriteCond % MJ12bot RewriteRule (.*) - [F,L]

Действенная защита сайта от спам ботов!
16.12.2014 11:15 16.12.2014 11:15:00
Кирилл Васильев
20 Января 2015

Защита сайта от Ботов

Директивы указанные в файле robots.txt являются рекомендательными и большенство ботов не реагируют на них по этому для действенной защиты сайта от Ботов необходимо добавить в .htaccess следующие правила:

RewriteCond % SemrushBot RewriteRule (.*) - [F,L] RewriteCond % AhrefsBot RewriteRule (.*) - [F,L] RewriteCond % MJ12bot RewriteRule (.*) - [F,L] RewriteCond % Riddler RewriteRule (.*) - [F,L] RewriteCond % aiHitBot RewriteRule (.*) - [F,L] RewriteCond % trovitBot RewriteRule (.*) - [F,L] RewriteCond % Detectify RewriteRule (.*) - [F,L] RewriteCond % BLEXBot RewriteRule (.*) - [F,L] RewriteCond % LinkpadBot RewriteRule (.*) - [F,L] RewriteCond % dotbot RewriteRule (.*) - [F,L] RewriteCond % FlipboardProxy RewriteRule (.*) - [F,L]

После того как это сделать в лог файле сервера появится ответ 403 на все обращения Ботов из этого списка. Это существенно снизит нагрузку на сервер и страницы сайты в броузере пользователей будут открываться быстрее.

Мы переодически отлавливаем новых СПАМ ботов и обновляем эту страницу. Пишите в комментарий если Вы не нашли здесь злого бота который одолел ваш сайт.
Будем благодарны за пополнение этого списка.

SEO-Robotic
5 Ноября 2014

SEMrushBot

SEMrush — это хороший аналитический сервис для анализа своего сайта и сайтов конкурентов https://ru.semrush.com. Бесплатно можно получить скромный отчет SEO параметров и за деньги подробный отчет для SEO специалиста или маркетолога. Казалось бы классная штука, но когда Ваш сайт начинают исследовать сеошники и маркетологи конкурентов то SEMrushBot может серьезно мешать Вашему бизнесу сканируя Ваш сайт. SEMrushBot одновременно обращается сразу к нескольким страницам Вашего сайта и тем самым грузит процессор на сервере чем создает неудобства посетителям Вашего сайта.

Есть два способа запретить боту SEMrushBot индексировать Ваш сайт. Первый — рекомендательный и по нашим наблюдениям не очень эффективный это запретить директивой Disallow в robots.txt

Для этого нужно в конце файла robots.txt добавить две строки:

User-agent: SemrushBot Disallow: /

Второй метод действует наверняка! Открываем корневой файл . htaccess и вставляем в него две строки:

RewriteCond % SemrushBot RewriteRule (.*) - [F,L]

После того как запретить доступ в . htaccess в логах веб сервера будет ответ 403 на все запросы бота SEMrushBot .

Здесь вы найдете список спам ботов и способ защиты сайта от спам ботов!

Защита сайта от нежелательных поисковых ботов (MJ12bot, BLEXBot, AhrefsBot и других)

Большие сайты с тысячами страниц и интернет-магазины с большим ассортиментом товаров зачастую сталкиваются с проблемой внезапно высокой нагрузки на сервер. Причиной очень часто становятся не ddos атаки, вирусы или действия хакеров, а обычные роботы малоизвестных поисковых систем или различных сервисов, которые за счет большого количества запросов к сайту в единицу времени приводят к увеличению нагрузки и превышению допустимых на хостинге лимитов. Замечу, что данная проблема актуальна именно для крупных интернет-магазинов, поскольку, если ваш сайт состоит из 100-500 страниц и менее, то даже средний хостинг справится с такой внезапной нагрузкой без особых проблем. VDS серверы способны выдерживать куда более высокие нагрузки и, как правило, для интернет-магазинов на VDS такая проблема ощутима только в период новогоднего бума или накануне праздников, когда серверы работают на пределе своих возможностей. Определить причину внезапно высокой нагрузки на сервер порой можно только через анализ логов, но иногда достаточно Яндекс Метрики, которая порой принимает ботов за пользователей.

Признаки появления бота на сайте

  • Большое количество просмотренных страниц в единицу времени
  • Нехарактерная для данного времени и дня недели высокая посещаемость сайта
  • Резкий рост посещаемости пользователей из других стран мира и с необычными для России браузерами
  • Необычно медленная загрузка страниц сайта
  • Долгий ответ сервера
  • Жалобы со стороны хостинга о потреблении сайтом большого кличества ресурсов
  • Однотипное поведение пользователей с многочисленным посещением одной и той же страницы

Защита сайта от нежелательных поисковых ботов и других автоматизированных сканеров может быть важным шагом для обеспечения безопасности и интегритета вашего веб-ресурса. Вот несколько методов для защиты сайта от нежелательных ботов:

  1. robots.txt: Создайте файл «robots.txt» на вашем сайте, который указывает поисковым ботам, какие части вашего сайта они могут и не могут индексировать. Это может помочь предотвратить доступ к конфиденциальным страницам.
  2. CAPTCHA: Внедрите систему CAPTCHA на страницы вашего сайта, чтобы проверить, является ли посетитель человеком или ботом. Это может помочь в отсеивании автоматических запросов.
  3. IP-фильтрация: Периодически анализируйте журналы доступа к вашему сайту и определяйте IP-адреса, с которых приходит много нежелательных запросов. Затем настройте фильтрацию IP для блокировки доступа с этих адресов.
  4. User-Agent фильтрация: Проверяйте заголовки User-Agent в запросах к вашему серверу. Многие боты используют специфичные User-Agent, и вы можете блокировать их на основе этой информации.
  5. Сессионные токены: Используйте сессионные токены, чтобы подтверждать подлинность запросов. Боты, которые не могут создать и использовать корректные токены, могут быть заблокированы.
  6. Rate Limiting: Ограничьте скорость запросов с одного IP-адреса или пользователя. Это может предотвратить атаки типа «сканирование» или «перебор».
  7. Веб-безопасность: Обеспечьте безопасность вашего сайта с помощью мер безопасности, таких как фильтрация ввода, предотвращение SQL-инъекций и кросс-сайтового скриптинга (XSS). Эти меры могут помочь предотвратить автоматизированные атаки.
  8. Мониторинг: Установите мониторинг безопасности, который будет оповещать вас о подозрительной активности на вашем сайте. Это позволит быстро реагировать на потенциальные угрозы.

Защита от нежелательных ботов — это непрерывный процесс, и важно регулярно анализировать логи и обновлять меры безопасности.

Примеры нежелательных ботов

Нежелательные боты зачастую это вовсе не боты спамеры или парсеры сайтов. Очень часто эти боты представляют различные сервисы или малоизвестные поисковые системы.

Прямой угрозы они не несут, но из-за неправильной настройки, внутренней ошибки или по каким-либо другим причинам они могут создавать высокую нагрузку на сайт за счет большого количества хитов в единицу времени.

Бот mj12bot

Поисковый робот сервиса Majestic, которые собирает данные об исходящих ссылках на сайтах. Робот нормально воспринимает канонические страницы, но на сайтах, где канонические урлы отсутствуют, начинает очень сильно «буксовать» на страницах, в урлах которых содержатся параметры.

Бот BLEXBot

Робот BLEXBot Crawler заявлен как робот поисковой системы — какой именно поисковой системы, на официальной странице не уточняется.

Бот AhrefsBot

Этот робот, равно как и MJ12bot, анализирует страницы сайта на наличие внешних ссылок. Сам сайт ahrefs.com предоставляет наплохой профессиональный сервис по оценке и анализу ссылочного.

Бот HubSpot Webcrawler

Это робот поисковой системы сайта amazon.com. На самом «Амазоне» заявлено, что данная платформа создана для компаний, которым нужно привлечь посетителей, т.е. по сути робот является сборщиком контента с интернет-магазинов.

Другие нежелательные боты

Приведенный ниже перечень ботов мной лично не встречался, но вполне возможно, что они еще существуют:

Aboundex
80legs
360Spider
Java
Cogentbot
Alexibot
asterias
attach
BackDoorBot
BackWeb
Bandit
BatchFTP
Bigfoot
Black.Hole
BlackWidow
BlowFish
BotALot
Buddy
BuiltBotTough
Bullseye
BunnySlippers
Cegbfeieh
CheeseBot
CherryPicker
ChinaClaw
Collector
Copier
CopyRightCheck
cosmos
Crescent
Custo
AIBOT
DISCo
DIIbot
DittoSpyder
Download Demon
Download Devil
Download Wonder
dragonfly
Drip
eCatch
EasyDL
ebingbong
EirGrabber
EmailCollector
EmailSiphon
EmailWolf
EroCrawler
Exabot
Express WebPictures
Extractor
EyeNetIE
Foobot
flunky
FrontPage
Go-Ahead-Got-It
gotit
GrabNet
Grafula
Harvest
hloader
HMView
HTTrack
humanlinks
IlseBot
Image Stripper
Image Sucker
Indy Library
InfoNavibot
InfoTekies
Intelliseek
InterGET
Internet Ninja
Iria
Jakarta
JennyBot
JetCar
JOC
JustView
Jyxobot
Kenjin.Spider
Keyword.Density
larbin
LexiBot
lftp
libWeb/clsHTTP
likse
LinkextractorPro
LinkScan/8.1a.Unix
LNSpiderguy
LinkWalker
lwp-trivial
LWP::Simple
Magnet
Mag-Net
MarkWatch
Mass Downloader
Mata.Hari
Memo
Microsoft.URL
Microsoft URL Control
MIDown tool
MIIxpc
Mirror
Missigua Locator
Mister PiX
moget
Mozilla/3.Mozilla/2.01
Mozilla.*NEWT
NAMEPROTECT
Navroad
NearSite
NetAnts
Netcraft
NetMechanic
NetSpider
Net Vampire
NetZIP
NextGenSearchBot
NG
NICErsPRO
niki-bot
NimbleCrawler
Ninja
NPbot
Octopus
Offline Explorer
Offline Navigator
Openfind
OutfoxBot
PageGrabber
Papa Foto
pavuk
pcBrowser
PHP version tracker
Pockey
ProPowerBot/2.14
ProWebWalker
psbot
Pump
QueryN.Metasearch
RealDownload
Reaper
Recorder
ReGet
RepoMonkey
RMA
Siphon
SiteSnagger
SlySearch
SmartDownload
Snake
Snapbot
Snoopy
sogou
SpaceBison
SpankBot
spanner
Sqworm
Stripper
Sucker
SuperBot
SuperHTTP
Surfbot
suzuran
Szukacz/1.4
tAkeOut
Teleport
Telesoft
TurnitinBot/1.5
The.Intraformant
TheNomad
TightTwatBot
Titan
True_bot
turingos
TurnitinBot
URLy.Warning
Vacuum
VCI
VoidEYE
Web Image Collector
Web Sucker
WebAuto
WebBandit
Webclipping.com
WebCopier
WebEMailExtrac.*» bot
WebEnhancer
WebFetch
WebGo IS
Web.Image.Collector
WebLeacher
WebmasterWorldForumBot
WebReaper
WebSauger
Website eXtractor
Website Quester
Webster
WebStripper
WebWhacker
WebZIP
Whacker
Widow
WISENutbot
WWWOFFLE
WWW-Collector-E
Xaldon
Xenu
Zeus
ZmEu
Zyborg
AhrefsBot
archive.org_bot
bingbot
Wget
Acunetix
FHscan

Ограничение активности ботов с использованием robots.txt

Универсальное решение заключается в том, чтобы через дерективу Crawl-delay в файле robots.txt ограничить количество запросов. Численное значение указывает паузу в секундах между обращениями к сайту.

Типовой пример, подходящий для большинства сайтов

User-agent: *
Crawl-delay: 10

10 секунд более чем достаточно, чтобы лимитировать нарузку на сайт роботов поисковых машин.

Впрочем, некоторые нежелательные боты игнорируют данную директиву и даже прямой запрет доступа через robots.txt не спасает от высокой нагрузки.

User-agent: MJ12bot
Disallow: /

В таких случаях остается только вариант блокирования доступа к сайта по ip адресам, откуда идут запросы, или по User-agent.

Второй вариант является более предпочтительным, поскольку при блокировании доступа по ip, сайт становится недоступен для всех устройств, в том числе и для обычных пользователей.

Блокирование ботов по User-agent через .htaccess файл

Подавляющее большинство сайтов работает на linux платформе, где роль веб-сервера выполняет Apache сервер. Веб-сервер обрабатывает запросы пользователей и отдает страницы сайта.

Для блокирования доступа по User-agent необходимо в корень сайта добавить файл .htaccess (если его там еще нет) и дописать следующие строки.

SetEnvIfNoCase User-Agent «Aboundex» bot
SetEnvIfNoCase User-Agent «80legs» bot
SetEnvIfNoCase User-Agent «360Spider» bot
SetEnvIfNoCase User-Agent «^Java» bot
SetEnvIfNoCase User-Agent «^Cogentbot» bot
SetEnvIfNoCase User-Agent «^Alexibot» bot
SetEnvIfNoCase User-Agent «^asterias» bot
SetEnvIfNoCase User-Agent «^attach» bot
SetEnvIfNoCase User-Agent «^BackDoorBot» bot
SetEnvIfNoCase User-Agent «^BackWeb» bot
SetEnvIfNoCase User-Agent «Bandit» bot
SetEnvIfNoCase User-Agent «^BatchFTP» bot
SetEnvIfNoCase User-Agent «^Bigfoot» bot
SetEnvIfNoCase User-Agent «^Black.Hole» bot
SetEnvIfNoCase User-Agent «^BlackWidow» bot
SetEnvIfNoCase User-Agent «^BlowFish» bot
SetEnvIfNoCase User-Agent «^BotALot» bot
SetEnvIfNoCase User-Agent «Buddy» bot
SetEnvIfNoCase User-Agent «^BuiltBotTough» bot
SetEnvIfNoCase User-Agent «^Bullseye» bot
SetEnvIfNoCase User-Agent «^BunnySlippers» bot
SetEnvIfNoCase User-Agent «^Cegbfeieh» bot
SetEnvIfNoCase User-Agent «^CheeseBot» bot
SetEnvIfNoCase User-Agent «^CherryPicker» bot
SetEnvIfNoCase User-Agent «^ChinaClaw» bot
SetEnvIfNoCase User-Agent «Collector» bot
SetEnvIfNoCase User-Agent «Copier» bot
SetEnvIfNoCase User-Agent «^CopyRightCheck» bot
SetEnvIfNoCase User-Agent «^cosmos» bot
SetEnvIfNoCase User-Agent «^Crescent» bot
SetEnvIfNoCase User-Agent «^Custo» bot
SetEnvIfNoCase User-Agent «^AIBOT» bot
SetEnvIfNoCase User-Agent «^DISCo» bot
SetEnvIfNoCase User-Agent «^DIIbot» bot
SetEnvIfNoCase User-Agent «^DittoSpyder» bot
SetEnvIfNoCase User-Agent «^Download\ Demon» bot
SetEnvIfNoCase User-Agent «^Download\ Devil» bot
SetEnvIfNoCase User-Agent «^Download\ Wonder» bot
SetEnvIfNoCase User-Agent «^dragonfly» bot
SetEnvIfNoCase User-Agent «^Drip» bot
SetEnvIfNoCase User-Agent «^eCatch» bot
SetEnvIfNoCase User-Agent «^EasyDL» bot
SetEnvIfNoCase User-Agent «^ebingbong» bot
SetEnvIfNoCase User-Agent «^EirGrabber» bot
SetEnvIfNoCase User-Agent «^EmailCollector» bot
SetEnvIfNoCase User-Agent «^EmailSiphon» bot
SetEnvIfNoCase User-Agent «^EmailWolf» bot
SetEnvIfNoCase User-Agent «^EroCrawler» bot
SetEnvIfNoCase User-Agent «^Exabot» bot
SetEnvIfNoCase User-Agent «^Express\ WebPictures» bot
SetEnvIfNoCase User-Agent «Extractor» bot
SetEnvIfNoCase User-Agent «^EyeNetIE» bot
SetEnvIfNoCase User-Agent «^Foobot» bot
SetEnvIfNoCase User-Agent «^flunky» bot
SetEnvIfNoCase User-Agent «^FrontPage» bot
SetEnvIfNoCase User-Agent «^Go-Ahead-Got-It» bot
SetEnvIfNoCase User-Agent «^gotit» bot
SetEnvIfNoCase User-Agent «^GrabNet» bot
SetEnvIfNoCase User-Agent «^Grafula» bot
SetEnvIfNoCase User-Agent «^Harvest» bot
SetEnvIfNoCase User-Agent «^hloader» bot
SetEnvIfNoCase User-Agent «^HMView» bot
SetEnvIfNoCase User-Agent «^HTTrack» bot
SetEnvIfNoCase User-Agent «^humanlinks» bot
SetEnvIfNoCase User-Agent «^IlseBot» bot
SetEnvIfNoCase User-Agent «^Image\ Stripper» bot
SetEnvIfNoCase User-Agent «^Image\ Sucker» bot
SetEnvIfNoCase User-Agent «Indy\ Library» bot
SetEnvIfNoCase User-Agent «^InfoNavibot» bot
SetEnvIfNoCase User-Agent «^InfoTekies» bot
SetEnvIfNoCase User-Agent «^Intelliseek» bot
SetEnvIfNoCase User-Agent «^InterGET» bot
SetEnvIfNoCase User-Agent «^Internet\ Ninja» bot
SetEnvIfNoCase User-Agent «^Iria» bot
SetEnvIfNoCase User-Agent «^Jakarta» bot
SetEnvIfNoCase User-Agent «^JennyBot» bot
SetEnvIfNoCase User-Agent «^JetCar» bot
SetEnvIfNoCase User-Agent «^JOC» bot
SetEnvIfNoCase User-Agent «^JustView» bot
SetEnvIfNoCase User-Agent «^Jyxobot» bot
SetEnvIfNoCase User-Agent «^Kenjin.Spider» bot
SetEnvIfNoCase User-Agent «^Keyword.Density» bot
SetEnvIfNoCase User-Agent «^larbin» bot
SetEnvIfNoCase User-Agent «^LexiBot» bot
SetEnvIfNoCase User-Agent «^lftp» bot
SetEnvIfNoCase User-Agent «^libWeb/clsHTTP» bot
SetEnvIfNoCase User-Agent «^likse» bot
SetEnvIfNoCase User-Agent «^LinkextractorPro» bot
SetEnvIfNoCase User-Agent «^LinkScan/8.1a.Unix» bot
SetEnvIfNoCase User-Agent «^LNSpiderguy» bot
SetEnvIfNoCase User-Agent «^LinkWalker» bot
SetEnvIfNoCase User-Agent «^lwp-trivial» bot
SetEnvIfNoCase User-Agent «^LWP::Simple» bot
SetEnvIfNoCase User-Agent «^Magnet» bot
SetEnvIfNoCase User-Agent «^Mag-Net» bot
SetEnvIfNoCase User-Agent «^MarkWatch» bot
SetEnvIfNoCase User-Agent «^Mass\ Downloader» bot
SetEnvIfNoCase User-Agent «^Mata.Hari» bot
SetEnvIfNoCase User-Agent «^Memo» bot
SetEnvIfNoCase User-Agent «^Microsoft.URL» bot
SetEnvIfNoCase User-Agent «^Microsoft\ URL\ Control» bot
SetEnvIfNoCase User-Agent «^MIDown\ tool» bot
SetEnvIfNoCase User-Agent «^MIIxpc» bot
SetEnvIfNoCase User-Agent «^Mirror» bot
SetEnvIfNoCase User-Agent «^Missigua\ Locator» bot
SetEnvIfNoCase User-Agent «^Mister\ PiX» bot
SetEnvIfNoCase User-Agent «^moget» bot
SetEnvIfNoCase User-Agent «^Mozilla/3.Mozilla/2.01» bot
SetEnvIfNoCase User-Agent «^Mozilla.*NEWT» bot
SetEnvIfNoCase User-Agent «^NAMEPROTECT» bot
SetEnvIfNoCase User-Agent «^Navroad» bot
SetEnvIfNoCase User-Agent «^NearSite» bot
SetEnvIfNoCase User-Agent «^NetAnts» bot
SetEnvIfNoCase User-Agent «^Netcraft» bot
SetEnvIfNoCase User-Agent «^NetMechanic» bot
SetEnvIfNoCase User-Agent «^NetSpider» bot
SetEnvIfNoCase User-Agent «^Net\ Vampire» bot
SetEnvIfNoCase User-Agent «^NetZIP» bot
SetEnvIfNoCase User-Agent «^NextGenSearchBot» bot
SetEnvIfNoCase User-Agent «^NG» bot
SetEnvIfNoCase User-Agent «^NICErsPRO» bot
SetEnvIfNoCase User-Agent «^niki-bot» bot
SetEnvIfNoCase User-Agent «^NimbleCrawler» bot
SetEnvIfNoCase User-Agent «^Ninja» bot
SetEnvIfNoCase User-Agent «^NPbot» bot
SetEnvIfNoCase User-Agent «^Octopus» bot
SetEnvIfNoCase User-Agent «^Offline\ Explorer» bot
SetEnvIfNoCase User-Agent «^Offline\ Navigator» bot
SetEnvIfNoCase User-Agent «^Openfind» bot
SetEnvIfNoCase User-Agent «^OutfoxBot» bot
SetEnvIfNoCase User-Agent «^PageGrabber» bot
SetEnvIfNoCase User-Agent «^Papa\ Foto» bot
SetEnvIfNoCase User-Agent «^pavuk» bot
SetEnvIfNoCase User-Agent «^pcBrowser» bot
SetEnvIfNoCase User-Agent «^PHP\ version\ tracker» bot
SetEnvIfNoCase User-Agent «^Pockey» bot
SetEnvIfNoCase User-Agent «^ProPowerBot/2.14» bot
SetEnvIfNoCase User-Agent «^ProWebWalker» bot
SetEnvIfNoCase User-Agent «^psbot» bot
SetEnvIfNoCase User-Agent «^Pump» bot
SetEnvIfNoCase User-Agent «^QueryN.Metasearch» bot
SetEnvIfNoCase User-Agent «^RealDownload» bot
SetEnvIfNoCase User-Agent «Reaper» bot
SetEnvIfNoCase User-Agent «Recorder» bot
SetEnvIfNoCase User-Agent «^ReGet» bot
SetEnvIfNoCase User-Agent «^RepoMonkey» bot
SetEnvIfNoCase User-Agent «^RMA» bot
SetEnvIfNoCase User-Agent «Siphon» bot
SetEnvIfNoCase User-Agent «^SiteSnagger» bot
SetEnvIfNoCase User-Agent «^SlySearch» bot
SetEnvIfNoCase User-Agent «^SmartDownload» bot
SetEnvIfNoCase User-Agent «^Snake» bot
SetEnvIfNoCase User-Agent «^Snapbot» bot
SetEnvIfNoCase User-Agent «^Snoopy» bot
SetEnvIfNoCase User-Agent «^sogou» bot
SetEnvIfNoCase User-Agent «^SpaceBison» bot
SetEnvIfNoCase User-Agent «^SpankBot» bot
SetEnvIfNoCase User-Agent «^spanner» bot
SetEnvIfNoCase User-Agent «^Sqworm» bot
SetEnvIfNoCase User-Agent «Stripper» bot
SetEnvIfNoCase User-Agent «Sucker» bot
SetEnvIfNoCase User-Agent «^SuperBot» bot
SetEnvIfNoCase User-Agent «^SuperHTTP» bot
SetEnvIfNoCase User-Agent «^Surfbot» bot
SetEnvIfNoCase User-Agent «^suzuran» bot
SetEnvIfNoCase User-Agent «^Szukacz/1.4» bot
SetEnvIfNoCase User-Agent «^tAkeOut» bot
SetEnvIfNoCase User-Agent «^Teleport» bot
SetEnvIfNoCase User-Agent «^Telesoft» bot
SetEnvIfNoCase User-Agent «^TurnitinBot/1.5» bot
SetEnvIfNoCase User-Agent «^The.Intraformant» bot
SetEnvIfNoCase User-Agent «^TheNomad» bot
SetEnvIfNoCase User-Agent «^TightTwatBot» bot
SetEnvIfNoCase User-Agent «^Titan» bot
SetEnvIfNoCase User-Agent «^True_bot» bot
SetEnvIfNoCase User-Agent «^turingos» bot
SetEnvIfNoCase User-Agent «^TurnitinBot» bot
SetEnvIfNoCase User-Agent «^URLy.Warning» bot
SetEnvIfNoCase User-Agent «^Vacuum» bot
SetEnvIfNoCase User-Agent «^VCI» bot
SetEnvIfNoCase User-Agent «^VoidEYE» bot
SetEnvIfNoCase User-Agent «^Web\ Image\ Collector» bot
SetEnvIfNoCase User-Agent «^Web\ Sucker» bot
SetEnvIfNoCase User-Agent «^WebAuto» bot
SetEnvIfNoCase User-Agent «^WebBandit» bot
SetEnvIfNoCase User-Agent «^Webclipping.com» bot
SetEnvIfNoCase User-Agent «^WebCopier» bot
SetEnvIfNoCase User-Agent «^WebEMailExtrac.*» bot
SetEnvIfNoCase User-Agent «^WebEnhancer» bot
SetEnvIfNoCase User-Agent «^WebFetch» bot
SetEnvIfNoCase User-Agent «^WebGo\ IS» bot
SetEnvIfNoCase User-Agent «^Web.Image.Collector» bot
SetEnvIfNoCase User-Agent «^WebLeacher» bot
SetEnvIfNoCase User-Agent «^WebmasterWorldForumBot» bot
SetEnvIfNoCase User-Agent «^WebReaper» bot
SetEnvIfNoCase User-Agent «^WebSauger» bot
SetEnvIfNoCase User-Agent «^Website\ eXtractor» bot
SetEnvIfNoCase User-Agent «^Website\ Quester» bot
SetEnvIfNoCase User-Agent «^Webster» bot
SetEnvIfNoCase User-Agent «^WebStripper» bot
SetEnvIfNoCase User-Agent «^WebWhacker» bot
SetEnvIfNoCase User-Agent «^WebZIP» bot
SetEnvIfNoCase User-Agent «Whacker» bot
SetEnvIfNoCase User-Agent «^Widow» bot
SetEnvIfNoCase User-Agent «^WISENutbot» bot
SetEnvIfNoCase User-Agent «^WWWOFFLE» bot
SetEnvIfNoCase User-Agent «^WWW-Collector-E» bot
SetEnvIfNoCase User-Agent «^Xaldon» bot
SetEnvIfNoCase User-Agent «^Xenu» bot
SetEnvIfNoCase User-Agent «^Zeus» bot
SetEnvIfNoCase User-Agent «ZmEu» bot
SetEnvIfNoCase User-Agent «^Zyborg» bot
SetEnvIfNoCase User-Agent «AhrefsBot» bot
SetEnvIfNoCase User-Agent «HubSpot» bot
SetEnvIfNoCase User-Agent «BLEXBot» bot
SetEnvIfNoCase User-Agent «archive.org_bot» bot
SetEnvIfNoCase User-Agent «bingbot» bot
SetEnvIfNoCase User-Agent «^Wget» bot
Deny from env=bot

Понятно, что можно использовать данный перечень в исходном виде, а можно оставить в списке только тех нежелательных ботов, которые действительно создавали в прошлом и создают высокую нагрузку на ваш сайт на данный момент.

Mj12bot что за бот

17 августа 2020

Нагрузку на сайт нередко делают не посетители, а разные поисковые боты. Когда-то проблемы были даже от робота Google, но сейчас он научился снижать аппетиты при появлении ошибок или существенном повышении времени ответа. Яндекс тоже поумерил аппетиты и настраивается через Вебмастер.

Но «голодные» боты ещё остались. Один из таких — AhrefsBot. На наше счастье, многие боты, которые сами не умеют регулировать свой аппетит, подчиняются robots.txt в корне сайта, директиве Crawl-Delay . Она выставляет задержку между парсингом следующей страницы в секундах. Одной секунды для многих проектов вполне достаточно (86400 страниц). Если мало — можно использовать дробные значения.

User-agent: * Crawl-Delay: 1

UPD: для особо непослушных ботов можно и пожёстче через Nginx.

Создаём в /etc/nginx конфиг block-bots.conf :

if ($http_user_agent ~* SemrushBot|MJ12bot|AhrefsBot|DotBot|PetalBot|LinkpadBot|SputnikBot|statdom.ru|MegaIndex.ru|WebDataStats|Jooblebot|BackupLand|NetcraftSurveyAgent|openstat.ru)

И подключаем в каждый блок server каждого конфига:

server < include block-bots.conf;

Комментарии RSS по email OK

Roman 17 авг. 2020 г., 12:16:59

У меня в практике была другая проблема. Магазин генерировал из связок товар+город уникальные страницы для сео продвижения. Кажда страница кешировалась. Так вот кеш мог вырастать до нескольков десятков гигабайт во время индексации гуглом. Админ наш подбамбливал периодически от этого =) .

scorp13 18 авг. 2020 г., 12:06:06

Поисковые боты еще куда ни шло, но это "сервисные" боты (ahrefsbot, mj12bot, semrush, similarweb — много их), которые по-сути для сайта никакой пользы не несут, а нагрузку действительно могут создать увеличить существенно, пусть даже на короткое время. Я обычно nginx'ом отдаю им 444.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *