Просмотрел статистику лучших посетителей за 3 дня
Хиты | Посетитель
9648 Webalta
6348 Mail.ru
1187 Google
1187 Yandex
1023 Yandex
931 Google
172 Rambler
104 Webalta
Итого: 20600 показов роботам (при настроенном robots.txt по рекомендации Дублинского Друпаллера)
6600 людям
Такое количество обращений в состоянии опрокинуть какой-нибудь хостинг с ограничениям кол-ва запросов к БД тем более при отключенном кэше. Таких историй кстати не мало.
Иногда еще заходят спамботы за мылом которых можно и нужно банить
Список самых известных можно посмотреть здесь:
http://www.projecthoneypot.org/top_harvesters.php
Комментарии
Логично бы для роботов отдавать упрощённое представление сайта - зачем роботу CSS и изыски дизайна? Ему важен текст и картинки имеющие отношение к контенту. Вот Google движется в правильном направлении, предлагая сайтам публиковать карту сайта и продвигает свой протокол sitemap (который кстати поддерживается друпалом). Если двигаться навстречу, то логично сделать фильтр по user agent и для известных поисковиков предлагать сайт в упрощённой и облегчённой теме, без CSS и любых наворотов, в чистом виде HTML отражающий структуру, а не форматирование. Это бы снизило нагрузку от поисковиков.
--
Администратор сайта «Drupal — Россия»
на вопросы по Drupal отвечаю только на форумах, не пишите в почту и приватом!
Что-то мне очень сомнительно, что роботы будут брать CSS, если он находится в отдельном файле. Собственно для того оно и придумано - разделять по файлам контент и оформление, что бы была возможность брать только контент, будь ты робот, PDA, или просто хацкер. А вот некоторые блоки можно и не отдавать, незачем роботам знать кто в онлайне.
---
http://drupal5.ru - информация для друпателей
качественные ответы только на качественные вопросы
Скорее всего не забирают. Ещё один довод выносить оформительскую графику в CSS, а CSS в отдельный файл. Но действительно получаем, что часть контента интересна пользователям, но теряет актуальность в течение десятков минут. Отдельная тема для роботов имеет смысл.
--
Администратор сайта «Drupal — Россия»
на вопросы по Drupal отвечаю только на форумах, не пишите в почту и приватом!
Показ разного содержимого для роботов/людей, чреват баном сайта.
Лучше грамотно настроить robot.txt (ну и sitemap), не разрешая роботам заходить на сайт часто.
С блоком пользователей в онлайн хороший пример - зачем поисковику такая инфа, если она постоянно меняется. Контент сайта это скорей засоряет.
--
Администратор сайта «Drupal — Россия»
на вопросы по Drupal отвечаю только на форумах, не пишите в почту и приватом!
Честно говоря я не в теме, но мне нравится как осуществляется поиск по блогам когда робот берет rss для индексации. Во-первых он забирает исключительно контент, во вторых никого не грузит а берет только новое.
Офтоп конечно.