Сделал модуль для фильтрации нецензурных слов.
Модуль пытается определить наличие мата (нецензурных, матерных слов) в тексте.
Заменяет матерные слова на выбранный шаблон, на пример на [censure] (Настраивается).
Поиск осущствляется по алгоритму а не по словарю. Метод обнаружения мата основывается на корнях и предлогах русского языка.
Алгоритм достаточно надежен и быстр, в т.ч. на больших объемах данных.
Автор класса Nasibullin Rinat http://forum.dklab.ru/viewtopic.php?p=136749
Можно настроить на работу в паре с модулем rules.
Вложение | Размер |
---|---|
rusmat_filter.zip | 140.35 КБ |
Комментарии
Жесть, он как мусульмане (Nasibullin Rinat) "борятся" с русскими ... ну улыбнуло, извините за холивар
Я думаю, здесь найдется много тестеров для этого модуля
сдается, что это сизифов труд. не с того конца решение проблемы. хотя в каких-то сайтах хорошо бы самые очевидные словосочетания отсечь для начала.
Установил, но не могу найти как его настроить.
И запустить.
Касается комментариев.
Кто захочет написать мат, тот напишет. Не один умный алгоритм не распознает предложение, состоящего из чистого мата.
Но все равно интересно.
Список русского мата для фильтров можно скопировать здесь http://kak-v-domashnih-usloviyah.ru/0001/spisok-russkogo-mata.html
Список для наивного модератора. Где тут, например, слово ">|<опа"?
Спасибо, взял себе на вооружения убивать явный мат. Конечно на каждый хитрую гайку найдется свой болт, но мне и не надо что-то 100%.
как он с д7 ?
что и как переделать чтобы на 7 заработал?
вобщем-то много чего пропустил
русский язык очень могуч!