Колеги, знаю что вопрос не совсем по друпалу, но прямо связан с использованием большого количества ресурсов оного, друпала то есть.
Поселились у мень два бота, точнее - целый выводок ботов гугла и фейсбука. Они прям стаями наседают на сайт и живут в нем толпами до 140 посетителей в отдельный момент.
С одной стороны это хорошо, что такие важные боты навещают сайт, но с другой - надо иметь совесть. Ресурсов жрут немерянно.
Я уже и в robots.txt ограничение Crawl-delay 20 поставила и в Facebook RSS только раз в день публикую, но ничего не помагает - как толпились, так и толпятся, набегая волнами с десятков разных IP. Совсем отрубать глупо - вижу же, что google в индекс новые страницы вводит и в выдачи они есть.
Товарищи, что делать, куда бежать? Уже жду письма от хостера - регурсов нажрали порядочно.
Комментарии
вкусный сатик, вот и набежали, голодненькие)) ням-ням )
сори за офтоп, не удержался)
Смешно-не смешно, я тоже так подумала Как мухи на ..эээ.. на мед. Все мои сайты на друпале вполне себе дружат с ботами, а этот - прям чудо какое-то. Я уже и в htaccess-е поназапрещала всего, что возможно, так нет - лезут и толпятся.
Вот прямо сейчас штук 45 толпится, а через час могут еще сотня набежать. С утра уже больше 400 посещений от них получили. И "смотрят" гады по 11-12 страниц на раз. И не все уже кешированы, так что тянут ресурсы, тянут.
Вопрос остается - что делать?
Уменьшила в google webmaster tools скорость сканирования сайта. Должно помочь.
настроить кэширование на сайте?)
Сменить пароли!
Ну а далее по лунному календарю
используйте это, только берегите маникюр
поможет однозначно.
Из личного опыта. После установки Varnish'а New Relic в отчетах стал показывать ровные прямые потребления памяти и проца, хотя если посмотреть access.log, то видно на сайте круглосуточно пасутся боты.
RxB, multpix, спасибо спасибо за советы. Пароли я, как полагается, на полную луну поменяла, ну и бекап на всякий случай тоже.
q2_faith, Дело у меня не столько в отчетах, сколько в реальном постоянном присутствии ботов именно гугла и фейсбука. Другие приходях и уходят, а эти - как к себе домой. Сегодня до 160 штук одновременно толпились, вчера до 180. Кеш есть, конечно же. Нод много - более 50000.
Вообще у этого сайта какая-то трагическая судьба. Когда он был еще на другом движке, его парсером сперли. Были разборки с собственником и хостером - эффект 0,0%, разве что перестали свежий парс делать. Потом на него спамеры со всего света нападали. Сейчас вот боты облюбили. /* Продать его, что ли? */
вообще-то, это как-бы прозрачный намек на то что к решению технических задач нужно подходить осмысленно, обладая соответствующими техническими навыками и базисом знаний.
а если это отсутствует, то как минимум не стоит смущать форумчан странными советами, реализуя подход "танец с бубном".
лучше этот
вот здесь можно приобрести
о да!!!
Правила пользования бубном
яж и говорю "танец с бубном" очень интимное действо, на публику не работает))))))
Гугл его игнорирует, задержку можно выставить в webmaster`е гугла.
Проблему решила:
1. Немного снизила скорость Googlebot-a в webmastertools, через пару дней верну обратно;
2. Сначала ограничила доступ USER_AGENT-а facebookexternalhit, но увидела, что он все-равно пасется, ждет, что ему подадут, тягает все подряд и лезет в закрытые для роботов места (вообще, гад порядочный, т.к. этот агент не признает robots.txt, потому что хоть и с поведением гадкого бота, позиционируется от facebook как безобидный агент) и совсем его запретила в htaccess.
3. Выполнила все необходимые танцы с бубнами, бекап на полную луну и несколько часовую медитацию над логами.
Жить стало сразу же заметно легче.