Роботите, за които говоря, нямат нищо общо с "Bad Robot Productions".
Говоря за ботовете, които сканират нашите сайтове за ново съдържание. Някои са толкова агресивни, че претоварват сървърите на хостинг компаниите. Ако не ги блокирате, те ще забавят работата на сайта ви, а никой потребител не обича да чака любимата му страница да зареди.
Как можете да разберете кои са ботовете?
Трябва да инсталирате приложение на своя линукс сървър, което се нарича Awstats или да ползвате някое друго, което върши същата работа. Трафикът, който генерират ботовете се разпознава от сървърите със специални HTTP статус кодове. Преглеждайки тези кодове вие ще успеете да идентифицирате откъде е натоварването и да блокирате съответните роботи/ботове.
Не е нужно да знаете какви са HTTP статус кодовете - най-често приложения като Awstats обединяват подобни заявки в колони/графи като Traffic not viewed.
Някои лоши ботове
Доста агресивни са ботове като Yandex, AhrefsBo, Mail.Ru, както и някои други. Аз ги блокирам през .htaccess чрез следния код:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^(.*)MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)BLEXBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)SolomonoBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Yandex [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Baiduspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Yeti [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Mail.Ru [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)Ezooms [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)AhrefsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^(.*)exabot [NC]
RewriteRule .* - [F]
Решаване на проблеми с Google & Bing
Вече (поне при мен) станаха по-редки случаите с проблеми с тези ботове, но при тях решението е лесно - регистрирайте се в съответните търсачки и задайте през настройките им да се ограничи индексирането.
При Google това става през Google Webmasters Tools, а при Bingbot чрез инструмента им Bing Webmaster Tools.