Роботы vs люди

Главные вкладки

Аватар пользователя dyp@drupal.org dyp@drupal.org 1 декабря 2006 в 16:05

Просмотрел статистику лучших посетителей за 3 дня
Хиты | Посетитель
9648 Webalta
6348 Mail.ru
1187 Google
1187 Yandex
1023 Yandex
931 Google
172 Rambler
104 Webalta
Итого: 20600 показов роботам (при настроенном robots.txt по рекомендации Дублинского Друпаллера)
6600 людям
Такое количество обращений в состоянии опрокинуть какой-нибудь хостинг с ограничениям кол-ва запросов к БД тем более при отключенном кэше. Таких историй кстати не мало.

Иногда еще заходят спамботы за мылом которых можно и нужно банить
Список самых известных можно посмотреть здесь:
http://www.projecthoneypot.org/top_harvesters.php

Комментарии

Аватар пользователя axel axel 1 декабря 2006 в 22:23

Логично бы для роботов отдавать упрощённое представление сайта - зачем роботу CSS и изыски дизайна? Ему важен текст и картинки имеющие отношение к контенту. Вот Google движется в правильном направлении, предлагая сайтам публиковать карту сайта и продвигает свой протокол sitemap (который кстати поддерживается друпалом). Если двигаться навстречу, то логично сделать фильтр по user agent и для известных поисковиков предлагать сайт в упрощённой и облегчённой теме, без CSS и любых наворотов, в чистом виде HTML отражающий структуру, а не форматирование. Это бы снизило нагрузку от поисковиков.

--
Администратор сайта «Drupal — Россия»
на вопросы по Drupal отвечаю только на форумах, не пишите в почту и приватом!

Аватар пользователя rapitosov@drupal.org rapitosov@drupal.org 2 декабря 2006 в 7:17

Что-то мне очень сомнительно, что роботы будут брать CSS, если он находится в отдельном файле. Собственно для того оно и придумано - разделять по файлам контент и оформление, что бы была возможность брать только контент, будь ты робот, PDA, или просто хацкер. А вот некоторые блоки можно и не отдавать, незачем роботам знать кто в онлайне.
---
http://drupal5.ru - информация для друпателей
качественные ответы только на качественные вопросы

Аватар пользователя axel axel 2 декабря 2006 в 19:26

Скорее всего не забирают. Ещё один довод выносить оформительскую графику в CSS, а CSS в отдельный файл. Но действительно получаем, что часть контента интересна пользователям, но теряет актуальность в течение десятков минут. Отдельная тема для роботов имеет смысл.

--
Администратор сайта «Drupal — Россия»
на вопросы по Drupal отвечаю только на форумах, не пишите в почту и приватом!

Аватар пользователя Dan Dan 2 декабря 2006 в 13:14

Показ разного содержимого для роботов/людей, чреват баном сайта.
Лучше грамотно настроить robot.txt (ну и sitemap), не разрешая роботам заходить на сайт часто.

Аватар пользователя axel axel 2 декабря 2006 в 19:28

С блоком пользователей в онлайн хороший пример - зачем поисковику такая инфа, если она постоянно меняется. Контент сайта это скорей засоряет.

--
Администратор сайта «Drupal — Россия»
на вопросы по Drupal отвечаю только на форумах, не пишите в почту и приватом!

Аватар пользователя dyp@drupal.org dyp@drupal.org 3 декабря 2006 в 1:51

Честно говоря я не в теме, но мне нравится как осуществляется поиск по блогам когда робот берет rss для индексации. Во-первых он забирает исключительно контент, во вторых никого не грузит а берет только новое.
Офтоп конечно.