Написано по мотивам топиков "Странный юзер регающийся бла бла бла".
Далее от лица IT-Patrol.
Каждый день мы баним несколько IP-ов, например, тех кто парсит сайты, тех кто непрерывно постит комменты. Забанив на одном сервере, баним и на остальных. Это редиски начиная от Casper Bot Search и заканчивая хрумером. Это позволяет как уберечь клиентов от вагона и маленькой тележки спама, а сайты без капчи ещё существуют с авгиевыми конюшнями внутри, так и снизить общую нагрузку на сервер, так как те кто парсят обычно не страдают однопоточностью и задержками, а сразу бомбят сайт, так что по сравнению с ними гугло-яндексы просто отдыхают. Почему-то очень любят парсить игровые сайты, не знаю почему, но статистика такова.
Идея давно зрела и созрела. Суть идеи в централизованном отслеживании спамеров и прочих лишних гостей т.е. как это будет выглядеть:
- Мы отслеживаем активность у себя, подозрительных личностей баним на своих серверах и отправляем в специальную БД в чёрный список
- Вы в свою очередь - жалуетесь на комментарии спамеров.
- Ваши жалобы попадают в специальный модуль и потом отсылаются нам, например, по крону
- Так же по крону вы получаете информацию о редисках и они банятся на вашем сайте, например, через стандартный механизм правил доступа. Чтобы таблица не разрасталась, банятся они на неделю, например.
Вообще мне видится, что нужны правила для:
-Логинов
-IP
-Мгновенных мыло-серверов
-URL
Естественно, для каждого типа правил будет свой механизм проверки и исключения из базы. Например, IP-ы можно банить на неделю, мгновенные почтовые сервера банить пожизненно.
Ответы на вопросы которых ещё не задали:
Чтобы исключить ложные доносы будет использоваться алгоритм аналогичный алгоритму работы анти-спама на гугло-мыле.
У каждой площадки будет своя трастовость и прочие параметры, будут наши honeypot'ы.
Многие будут волноваться о том, что возможно под бан попадут поисковики, могу сказать, что даже если бот не отдаёт User-Agent, то по поведению всё равно видно кто это - спамер или парсер.
UPD: данное предложение не только для клиентов IT-Patrol. Тут вся суть в том, что наш хостинг как большой HoneyPot будет, а клиенты других хостингов смогут брать от нас инфу.
Комментарии
Вообще я приятно удивлён. Раньше спам картофельными мешками выгребал, с переездом на патруль он тупо исчез.
исчез не исчез, но его стало меньше...
коллеги, без обид, но мне кажется, что если создавать такую систему, то думаю они могут по первому времени (год-два) глючить и работать с перебоями, но идея отличная!
Виктор, может я не прав или гоню:-) Но может стоит для начала выгнать порнососедей...? Остальное поддерживаю.
кого реально достают коммент-спаммеры это сильно бы жизнь улучшило.
но, как я понимаю, аналогичные проекты существуют и в мировом масштабе. пытались ли из них извлечь пользу?
Mollom как-то стоял на d.ru, сняли быстро. Но у него принцип несколько иной
почему сняли-то? есть причины?
у мну стоит, спама 0[ноль]
Я помню вашу жалобу, там будет комплексный подход. Релиз позже.
Дык вроде есть уже давно глобальные чёрные листы
Виктор, это нужно, конечно.
Но посмотрите внимательнее, что в на эту тему делается вообще: а то впечатление, что вы с чистого листа тему открыли.
У меня почти месяц сайт стоял без графической капчи (она глючила в 6-ке) - спамеры заели.
Пришлось, как только вышел апдейт модуля, вернуть картинку. Гадёныши стихли, вроде...
Ога. Есть. Только принцип у них, как правило, другой.
Я, например, постоянно попадаю в http://ru.wikipedia.org/wiki/DNSBL, а толку? Переподключился, гажу дальше.
Как я и писал выше, основное средство для друпала, на данный момент, это Mollom. Но принцип у него другой, они анализируют комменты. В моей идее - анализируется поведение.
Хорошая идея с создавать список спамеров учитывая, то что на it-patrol можно собрать большую статистику по спамерам. Модуль будет полезен многоим.
Что касается спама в комментариях, обязательно нужно для всех ссылок в комментах ставить тэг "nofollow". Это отобъет ботам желание постить спам.
вы, наверно, не видели, сколько спама производит майл.ру
они, ясен день, у спамеров в доле
я б ни в жисть им бы не стал пользоваться. Ни в качестве юзера, ни в качестве сайтостроителя.
Нагрузка от этих "ботов-недругов" конечно нешуточная, с свое время хостясь-мучившись на инфобоксе, где пстоянно долбыт повешенной нагрузкой на сервер анализировал логи, а банил особо активные айпишника из Гондураса, Алжира и прочих мест, кому тематика моего сайта интересной быть не может. Помогало на недельку, потом все по новой. С переездом на патрол проблема с нагрузкой исчезла, у них все по другому, и сайт стал работать шустрее и пока не баню никого, но при маштабности анализировать логи иногда все же может потребоваться, а создав общую базу, можно конечно облегчить жизнь администраторов сайта.
Новые (по карйне мере у меня около полугода) коммент-спамеры, которых не удерживает капча, регаются как то всетаки, появляютя регулярно, и если упустить их появление, за сутки могут коментов 100 оставить, устанешь вычещать. А крон мог бы раньше его залочить, было бы гуд. В общем 2 руками за такой модуль.
Бынить мне кажеться стоит минимум на месяц.
А я и не жаловался Жаловался видимо не я
Я подниму историю тикетов, но кажется вы писали "Вот нашёл таких соседей"
Идея полезная.
Могу помочь с модулем.
На мой взгляд хватило бы модуля, который бы собирал жалобы пользователей на спам в одном месте и переодически бы обновлялся бы из этой базы блокируя спаммеров, засветившихся на других сайтах.
Чем больше сайтов, тем выше будет эффективность.
Если будет желание повесить дополнительные алгоритмы на этот модуль, то я думаю что это можно будет организовать без проблем.
Ацкий он... Ноу юзер фрэйндли
Берем модель Spam, включаем там байеса, за неделю он обучается и режет все.
Велик риск накрутки
Господа, может не в тему, но вот.