Файл i18n-ascii.txt для русской транслитерации pathauto. Кому надо - качаем!

Главные вкладки

Аватар пользователя krock krock 22 октября 2010 в 0:43

Всем привет.
Как известно, чтобы транслитировать УРЛы, создаваемые модулем pathauto, нужен файлик i18n-ascii.txt. Если брать его из поставки pathauto, то там можно найти много лишнего, к тому же, не все символы адекватно интерпретированы.

Например:

Е = "Ie" (хотелось бы видеть E)
Й = "I" (хотелось бы видеть J)

На выходе получаются не совсем адекватные УРЛы, которые могут помешать продвижению сайта. Кроме того, они некрасивы.

Например:

тёща => t-shcha (буквы ё там тоже не было)
сколько => skol-ko
бессонница => biessonnitsa

Так вот, для решения всех этих проблем можно скачать файлик из вложения, а затем скопировать его в папку с модулем pathauto. Догадываюсь, что кто-то уже выкладывал подобное. Ну.. в таком случае оставляю на суд администрации.

з.ы Файл только для русского языка!
Спасибо за внимание.

ВложениеРазмер
Иконка простого текстового файла i18n-ascii.txt1.01 КБ

Комментарии

Аватар пользователя krock krock 22 октября 2010 в 1:53

Вы имеете в виду стандарты РФ? Если да - то точно не соблюдены. Я не стремился к этому.
А это имеет значение для интернета? Готов подискутировать.

Аватар пользователя krock krock 22 октября 2010 в 20:28

Так а чего слушать? Надо качать файл и юзать. Я пробовал на разных урлах.. около 50 штук пока прогнал. Вроде достаточно.

Думаю, поисковики нормальную транслитерацию тоже учитывают. То есть, если вместо "биодобавки" написано "biodobavki" в УРЛе, то поисковик даже подсвечивает такой УРЛ. Хотя понятно, что влияние этого дела не такое большое, как влияние TITLE.

Но начиналось даже не с того. Начиналось с того, что некрасивые УРЛы раздражали меня как явление. Lol

Аватар пользователя krock krock 22 октября 2010 в 20:33

Перезалил файл, теперь он стал ещё лучше. Только после скачивания переименуйте в i18n-ascii.txt. А то друпал дал ему другое имя. Наверное уже тьма таких файлов на серваке. Lol

Аватар пользователя chilic chilic 23 октября 2010 в 0:46

На мой взгляд правильная транслитерация учитывается поисковыми система,
в свою очередь транслитерация не по стандарту может сказать на позиции в выдаче сайта.

Это только моё личное мнение.

Аватар пользователя krock krock 25 октября 2010 в 3:48

дискуссии не получилось. Lol
каждый что-то думает, считает...аргументов толком нет.

в общем, пофигу, мой транслит даёт просто красивые, хорошо читаемые слова и на этом можно закончить. Smile

Аватар пользователя kustoru kustoru 7 ноября 2010 в 11:39

Не вижу особого плюса от этого файла.

Бессонница на стандартной транслитерации будет «bessonnica». Это мне больше нравится чем «biessonnitsa».

Биодобавки тоже транслитируются как «biodobavki».

Аватар пользователя krock krock 26 ноября 2010 в 0:27

На какой это "стандартной транслитерации"?
Вы бы хоть тему почитали. Я как раз и борюсь с тем, что вы написали.

Аватар пользователя petrovnn petrovnn 6 февраля 2011 в 16:11

По стандарту, который скинул Dan:

Й => j (ок)
Ё => yo (ок)
Ш => sh (ок)
Щ => shh (не проникся)
Ж => zh (ок)
Ю => yu (ок)
Ч => ch (ок)
Ы => y' (wtf?)
Э => e` (wtf?)
Ц => cz, с (не знаю, не знаю...)
Х => x (что за...? я всегда думал h, кто что думает  по поводу буквы Х? как правильно?)

У меня сейчас стоит стандартный файлик который шел с модулем Pathauto, транслитерирует так (модуль был скачан примерно три месяца назад):

бессонница => bessonnitsa  (меня устраивает)
сколько => skolko   (устраивает)
Россия => rossiya
храм => khram (мне как-то привычнее hram)
тёща => teshcha

По поводу тещи - вопрос конечно сложный, тут право я сам не знаю как-бы транслитерировал это слово, поэтому мне трудно сказать ошибается на мой взгляд патауто или нет.

Выходит по стандарту ГОСТ должно быть так:

бессонница => bessonniсa (не согласен - бессонника)
или
бессонница => bessonnicza (не согласен - бессоннича)
сколько => skol`ko   (не согласен, запятая сверху лишняя)
тёща => tyoshha (стремно как-то)
Россия => rossiya (ок)
лыжи => ly'zhi (эммм...)
экскаватор => e'kskavator (не согласен, запятая сверху лишняя)

То есть в целом я щас смотрю на свои урлы, меня в большинстве устраивает стандартный файлик, но я еще для себя не решил лучше

сайтом => saitom
или
сайтом => sajtom

по стандарту j, но в файлике Pathauto i, а как действительно лучше и как «правильнее» я пока не понял. У тех кто составлял файлик для этого модуля на д.орг тоже ведь на то были какие-то аргументы.

Рассмотрим тещу отдельно:

тёща => teshcha (pathauto, я читаю как тесча)
тёща => tyoshha (гост, я читаю как тюощща)
тёща => tescha (наверное я-бы так написал, но тоже не идеал)

Итак, для меня отсаются открытыми вопросы транслитерации таких букв как: Й, Х, и хотелось-бы услышать мнение по этим буквам как-же все-таки лучше и правильнее.

Ну или вот в эту сторону можно посмотреть
http://drupal.ru/node/24704
http://drupal.ru/node/50308

Аватар пользователя skeef skeef 3 июня 2011 в 13:37

"Dan" wrote:
ГОСТ 7.79-2000 -- ПРАВИЛА ТРАНСЛИТЕРАЦИИ КИРИЛЛОВСКОГО ПИСЬМА ЛАТИНСКИМ АЛФАВИТОМ

ГОСТ - это хорошо. А что по поводу ГОСТа думает тот же Google?
Может Яндекс и другие российские поисковики и придерживаются ГОСТа (в чем я очень сильно сомневаюсь), однако украинские и белорусские скорее всего нет. Что же касается упомянутого ранее Googl`a, то, судя по тому как сделана сортировка украинского алфавита в Windows, Linux и видимо всех остальных ОС (а сделана она укуреным дэбилом через задний проход), не славяноязычным производителям или законодателям стандартов глубоко нас**ть на ГОСТы и сложившиеся (удобные) правила сортировки и транслитерации в частности. Гугление не дало каких бы то ни было результатов по поводу правил транслитерации того же Google. ИМНО (и судя по оригинальному файлу i18n-ascii.txt) они вообще не в курсе, что такое транслитерация потому как транслитерация нужна нам, а не им. Поэтому, думаю надо исходить из здравого смысла и переделывать файл так, как это сделали бы большинство славяноязычных программеров, которые уж точно не смотрят ни в какие ГОСТы пока не приспичит ;), причем с учетом украинского и белорусского языков. Или создавать сообщество по борьбе ... за права ... - но это уже бред

Аватар пользователя Dan Dan 3 июня 2011 в 14:41

"skeef" wrote:
Поэтому, думаю надо исходить из здравого смысла и переделывать файл так, как это сделали бы большинство славяноязычных программеров

Здравый смысл у всех разный. Ты предлагаешь вернуться к koi8r, koi8u, cp1251..., когда на каждый здравый смысл придумывали новую кодировку.

"skeef" wrote:
ГОСТ - это хорошо. А что по поводу ГОСТа думает тот же Google?

Очевидно, гугл ориентируется не на здравый смысл, а на стандарты. ГОСТ - это страндарт. Так же это должно быть отражено в RFC, лень рыться, но точно есть.

"skeef" wrote:
Что же касается упомянутого ранее Googl`a, то, судя по тому как сделана сортировка украинского алфавита в Windows

При чём тут сортировка? Мы говорим про транслитерацию. Сделайте текст в UTF8, а потом просмотрите в браузере или ещё где, с 7-битной кодировкой (например в links) увидите текст в транслите. Транслит будет соответсвовать ГОСТУ. Следовательно UTF8 сделан с учётом госта.
PS: я смотрел только русский язык, не знаю как обстоят дела с украинским.

Аватар пользователя darlin darlin 17 октября 2011 в 12:09

А как насчет представления русских слов латинскими символами возможностями гугл переводчика?

http://translate.google.ru/#ru|en|Теща%0D%0AРоссия%0D%0Aбессонница%0D%0Aхрам

Там надо нажать кнопочку отвечающую именно за это, такая буква А с точками и вуаля. Что-то мне подсказывает что поисковый робот и переводчик гугла пользуются одной технологической базой.

Яндекс же при запросе вида "khram" "xram" предполагает что имелось в виду слово "храм", а вот при запросе "hram" просто находит информацию о храмах, но не предполагает что имелось в виду слово "храм". Можно делать выводы, не правда ли?

Гугл поиск например для запросов "khram" "hram" предполагает что имелось в виду слово "храм" а например уже для "chram" думает что искали что-то связанное с "chrome", но на запрос "chrosho" уже предлагает слово "хорошо", а на "xorosho" просто находит тексты со словами "хорошо".

Из всего вышесказанного напрашивается вывод: гугл однозначно не считает ГОСТ 7.79-2000 хрестоматийным документом в транслитерации русских слов, однако например все правила из таблицы http://russian.moscow.usembassy.gov/transliteration.html гуглом обрабатываются, так же как яндексом. Конечно возможны исключения, особенности, etc.

Аватар пользователя Dan Dan 17 октября 2011 в 12:46

"darlin" wrote:
http://translate.google.ru/#ru|en|Теща%0D%0AРоссия%0D%0Aбессонница%0D%0Aхрам

Смотрим гост, таблица 5, ретранслитерация. По ней слово "khram" будет преобразовано в "храм".

Пример с поиском в гугле и яндексе не очень некорректны, т.к. при формировании подсказок они пользуются букетом технологий и транслитерация там не на первом месте, вероятностные оценки важнее.