gasloff@drupal.org: Блог

Главные вкладки

ApacheSolr и словарь для русского стемминга

5 ноября 2011 в 20:58

Имеем Drupal 7 и Solr 1.4.1. Русский стэмминг реализован стандартным стэммингом от Портера. Он там довольно грубый, думаю все это знают. А вот в случае Sphinx можно для стэмминга подключать пользовательский словарь.

Обновил сегодня Solr до 3.4.0. Обновление прошло без проблем, потребовалось только заменить schema.xml на другой, из папки соответствующего друпаловского модуля.

И вот на 3-м Solr имеется интересная возможность: http://wiki.apache.org/solr/LanguageAnalysis#Customizing_Stemming, а конкретно solr.StemmerOverrideFilterFactory и возможность подключения словаря stemdict.txt.

Сделал его из словаря ispell как описывают в отношении такого же словаря для Sphinx при помощи spelldump. Только заменил символ " > " между терминами и корнями на табуляцию. Подключил.

Просто прописал в schema.xml соответствующие строки:

перед строками в стандартном schema.xml:

Перезапустил Solr. Создал по новой индекс. Все заработало - вижу что стэмминг стал более аккуратным. Появилась возможность подстраивать стемминг под свои нужды, редактируя stemdict.txt.

Странно, что эта возможность не реализована "из коробки" в друпаловском модуле интеграции Solr, хотя бы для варианта с 3-м Solr'ом, отдельный schema.xml все-таки для тройки же есть.

Но возникают два вопроса:

1) Может что-то делаю не так? Что стоит еще поправить?

Немного про лицензии, авторские права и модули

18 апреля 2007 в 18:04

Недавно мы уже обсуждали один модуль для Друпала: http://drupal.ru/node/4648 - тогда шла речь о модуле Copyright.

Как я уже писал в том обсуждении мы сейчас ведём работы по локализации Creative Commons лицензий на http://www.ccrussia.org и http://creativecommons.ru

Хотелось бы сказать здесь то, о чем мы говорили с Axel'ем на прошлой неделе.

В стандартном варианте Drupal не имеет особого поля для указания информации о виде лицензии под которой распространяется содержимое сайта. Это влечёт за собой четыре минуса. Два маленьких и два больших.
Первый - каждый вебмастер вставляет информацию о лицензиях и правообладателях куда вздумается (хотя чаще всего данная инфа вставляется в подвал шкурки).
Второй - стандартными средствами указать лицензию на материалы в отдельной ноде, отличную от общей для сайта лицензии возможно только в теле самой ноды
Третий - часто на созданных сайтах информация о лицензии вообще не указывается. Многие думают, что материалы для которых не указаны правила возможного распространения можно копировать и распространять как угодно. На самом же деле, в таком случае авторские материалы наоборот максимально ограничиваются в дальнейшем распространении и видоизменении.
Четвертый - поисковик, индексируя контент на вашем сайте не может ранжировать его по указываемым лицензионным условиям. И это наверное один из самых серьезных минусов.

Просьба о помощи :)

18 апреля 2007 в 16:45

Уважаемые друзья!

Сейчас на сайте http://www.ccrussia.org (тоже http://cretivecommons.ru) ведётся работа по русской локализации лицензий Creative Commons.

Может кто из участников сообщества возьмётся сделать шкуру для сайта http://www.ccrussia.org ?

Таксономия привязанная не к ноде, а к якорю в тексте ноды

18 апреля 2007 в 16:40

Возник следующий вопрос.

Традиционно термины таксономии привязаны к ноде в целом. Для небольших текстов это хорошо.
А вот можно ли как нибудь привязывать термин таксономии не к ноде в целом, а к определенному месту в этой ноде? Обозначенному например каким нибудь якорем?

В объемных текстах это было бы на мой взгляд довольно удобно (с точки зрения навигации).

Рацпредложение по поводу локализации модулей и т.п.

10 марта 2007 в 17:51

Мы сейчас ведём работы по локализации лицензий Creative Commons на сайте http://www.ccrussia.org

drupal5 и многоязычность

27 января 2007 в 23:17

На оффсайте для 5-го Друпала есть два модуля для достижения "многоязычности" сайта.
Это старый Internationalization и новый Localizer.
Кто имел опыт общения с новым модулем?

Правильно или нет? Распределение нагрузки между базами и ограничения по количеству нод.

29 ноября 2006 в 2:55

Мы сейчас делаем несколько сайтов.
1. www.allbeers.org - сайт про пивоварни и сорта пива со всего мира.
2. www.allpubs.org - сайт про пабы, пивные и пивные бары.
На первом сайте будет около 10000 пивоварен (на каждую отдельная нода) и минимум по три сорта пива каждой пивоварни (еще 30000 нод). Кроме того, к каждому сорту у юзеров есть возможность оставить свой рейтинг (по нескольким шкалам) - по ноде на каждый отзыв. Допустим 3 отзыва на каждый сорт - 90000 нод. Получается огромное количество нод Sad

Изменить тип ноды?

23 июля 2006 в 13:31

Возник такой вопрос: Имеется форум в Друпале. В форуме имеется обсуждение. Насколько я понимаю любое обсуждение это нода. Возможно ли изменить тип ноды, чтобы обсуждение форума стало например обычной страницей, или записью в дневнике.
Т.е. вопрос: существует ли какой модуль позволяющий изменять тип ноды?