[Решено] Googlebot и Facebook bot поселились на сайте и съедают ресурсы

Главные вкладки

Аватар пользователя sanita sanita 25 июля 2013 в 17:51

Колеги, знаю что вопрос не совсем по друпалу, но прямо связан с использованием большого количества ресурсов оного, друпала то есть.

Поселились у мень два бота, точнее - целый выводок ботов гугла и фейсбука. Они прям стаями наседают на сайт и живут в нем толпами до 140 посетителей в отдельный момент.

С одной стороны это хорошо, что такие важные боты навещают сайт, но с другой - надо иметь совесть. Ресурсов жрут немерянно.

Я уже и в robots.txt ограничение Crawl-delay 20 поставила и в Facebook RSS только раз в день публикую, но ничего не помагает - как толпились, так и толпятся, набегая волнами с десятков разных IP. Совсем отрубать глупо - вижу же, что google в индекс новые страницы вводит и в выдачи они есть.

Товарищи, что делать, куда бежать? Уже жду письма от хостера - регурсов нажрали порядочно.

Комментарии

Аватар пользователя sanita sanita 25 июля 2013 в 18:51

Смешно-не смешно, я тоже так подумала Smile Как мухи на ..эээ.. на мед. Все мои сайты на друпале вполне себе дружат с ботами, а этот - прям чудо какое-то. Я уже и в htaccess-е поназапрещала всего, что возможно, так нет - лезут и толпятся.

Вот прямо сейчас штук 45 толпится, а через час могут еще сотня набежать. С утра уже больше 400 посещений от них получили. И "смотрят" гады по 11-12 страниц на раз. И не все уже кешированы, так что тянут ресурсы, тянут.

Вопрос остается - что делать?

Аватар пользователя q2_faith q2_faith 26 июля 2013 в 13:51

Из личного опыта. После установки Varnish'а New Relic в отчетах стал показывать ровные прямые потребления памяти и проца, хотя если посмотреть access.log, то видно на сайте круглосуточно пасутся боты.

Аватар пользователя sanita sanita 26 июля 2013 в 19:03

RxB, multpix, спасибо спасибо за советы. Пароли я, как полагается, на полную луну поменяла, ну и бекап на всякий случай тоже.

q2_faith, Дело у меня не столько в отчетах, сколько в реальном постоянном присутствии ботов именно гугла и фейсбука. Другие приходях и уходят, а эти - как к себе домой. Сегодня до 160 штук одновременно толпились, вчера до 180. Кеш есть, конечно же. Нод много - более 50000.

Вообще у этого сайта какая-то трагическая судьба. Когда он был еще на другом движке, его парсером сперли. Были разборки с собственником и хостером - эффект 0,0%, разве что перестали свежий парс делать. Потом на него спамеры со всего света нападали. Сейчас вот боты облюбили. /* Продать его, что ли? */

Аватар пользователя multpix multpix 26 июля 2013 в 19:45

"sanita" wrote:

вообще-то, это как-бы прозрачный намек на то что к решению технических задач нужно подходить осмысленно, обладая соответствующими техническими навыками и базисом знаний.

а если это отсутствует, то как минимум не стоит смущать форумчан странными советами, реализуя подход "танец с бубном".

Аватар пользователя multpix multpix 26 июля 2013 в 20:56

"drupby" wrote:

о да!!!

Правила пользования бубном

  • Приобрести бубен
  • Взять лист формата А4 написать проблему с компьютером
  • Свернуть листок в трубочку
  • Вставить в отверстие бубна
  • Произнося проблему поломки компьютера шепотом начать не сильно постукивать бубном по системному блоку
  • Обряд будет выполнен только в том случае, если вы верите в помощь энергии бубна

яж и говорю "танец с бубном" очень интимное действо, на публику не работает))))))

Аватар пользователя sanita sanita 28 июля 2013 в 4:48

Проблему решила:

1. Немного снизила скорость Googlebot-a в webmastertools, через пару дней верну обратно;

2. Сначала ограничила доступ USER_AGENT-а facebookexternalhit, но увидела, что он все-равно пасется, ждет, что ему подадут, тягает все подряд и лезет в закрытые для роботов места (вообще, гад порядочный, т.к. этот агент не признает robots.txt, потому что хоть и с поведением гадкого бота, позиционируется от facebook как безобидный агент) и совсем его запретила в htaccess.

3. Выполнила все необходимые танцы с бубнами, бекап на полную луну и несколько часовую медитацию над логами.

Жить стало сразу же заметно легче.