Всем привет.
Как известно, чтобы транслитировать УРЛы, создаваемые модулем pathauto, нужен файлик i18n-ascii.txt. Если брать его из поставки pathauto, то там можно найти много лишнего, к тому же, не все символы адекватно интерпретированы.
Например:
Е = "Ie" (хотелось бы видеть E)
Й = "I" (хотелось бы видеть J)
На выходе получаются не совсем адекватные УРЛы, которые могут помешать продвижению сайта. Кроме того, они некрасивы.
Например:
тёща => t-shcha (буквы ё там тоже не было)
сколько => skol-ko
бессонница => biessonnitsa
Так вот, для решения всех этих проблем можно скачать файлик из вложения, а затем скопировать его в папку с модулем pathauto. Догадываюсь, что кто-то уже выкладывал подобное. Ну.. в таком случае оставляю на суд администрации.
з.ы Файл только для русского языка!
Спасибо за внимание.
Вложение | Размер |
---|---|
i18n-ascii.txt | 1.01 КБ |
Комментарии
А в Вашем файле соблюдены стандарты транслитерации?
Вы имеете в виду стандарты РФ? Если да - то точно не соблюдены. Я не стремился к этому.
А это имеет значение для интернета? Готов подискутировать.
Готов присоединиться слушателем. Тема для меня новая.
Так а чего слушать? Надо качать файл и юзать. Я пробовал на разных урлах.. около 50 штук пока прогнал. Вроде достаточно.
Думаю, поисковики нормальную транслитерацию тоже учитывают. То есть, если вместо "биодобавки" написано "biodobavki" в УРЛе, то поисковик даже подсвечивает такой УРЛ. Хотя понятно, что влияние этого дела не такое большое, как влияние TITLE.
Но начиналось даже не с того. Начиналось с того, что некрасивые УРЛы раздражали меня как явление.
Субскрайб.
Перезалил файл, теперь он стал ещё лучше. Только после скачивания переименуйте в i18n-ascii.txt. А то друпал дал ему другое имя. Наверное уже тьма таких файлов на серваке.
На мой взгляд правильная транслитерация учитывается поисковыми система,
в свою очередь транслитерация не по стандарту может сказать на позиции в выдаче сайта.
Это только моё личное мнение.
дискуссии не получилось.
каждый что-то думает, считает...аргументов толком нет.
в общем, пофигу, мой транслит даёт просто красивые, хорошо читаемые слова и на этом можно закончить.
Думаю да) url влияет на выдачу только 1%.
ГОСТ 7.79-2000 -- ПРАВИЛА ТРАНСЛИТЕРАЦИИ КИРИЛЛОВСКОГО ПИСЬМА ЛАТИНСКИМ АЛФАВИТОМ
Например тут: http://gsnti-norms.ru/norms/common/doc.asp?0&/norms/stands/7_79.htm
Не вижу особого плюса от этого файла.
Бессонница на стандартной транслитерации будет «bessonnica». Это мне больше нравится чем «biessonnitsa».
Биодобавки тоже транслитируются как «biodobavki».
На какой это "стандартной транслитерации"?
Вы бы хоть тему почитали. Я как раз и борюсь с тем, что вы написали.
Спасибо, как раз этого надо было! Как здорово, что кто-то уже сделал и нежадно раздает!
По стандарту, который скинул Dan:
Ё => yo (ок)
Ш => sh (ок)
Щ => shh (не проникся)
Ж => zh (ок)
Ю => yu (ок)
Ч => ch (ок)
Ы => y' (wtf?)
Э => e` (wtf?)
Ц => cz, с (не знаю, не знаю...)
Х => x (что за...? я всегда думал h, кто что думает по поводу буквы Х? как правильно?)
У меня сейчас стоит стандартный файлик который шел с модулем Pathauto, транслитерирует так (модуль был скачан примерно три месяца назад):
сколько => skolko (устраивает)
Россия => rossiya
храм => khram (мне как-то привычнее hram)
тёща => teshcha
По поводу тещи - вопрос конечно сложный, тут право я сам не знаю как-бы транслитерировал это слово, поэтому мне трудно сказать ошибается на мой взгляд патауто или нет.
Выходит по стандарту ГОСТ должно быть так:
или
бессонница => bessonnicza (не согласен - бессоннича)
сколько => skol`ko (не согласен, запятая сверху лишняя)
тёща => tyoshha (стремно как-то)
Россия => rossiya (ок)
лыжи => ly'zhi (эммм...)
экскаватор => e'kskavator (не согласен, запятая сверху лишняя)
То есть в целом я щас смотрю на свои урлы, меня в большинстве устраивает стандартный файлик, но я еще для себя не решил лучше
или
сайтом => sajtom
по стандарту j, но в файлике Pathauto i, а как действительно лучше и как «правильнее» я пока не понял. У тех кто составлял файлик для этого модуля на д.орг тоже ведь на то были какие-то аргументы.
Рассмотрим тещу отдельно:
тёща => tyoshha (гост, я читаю как тюощща)
тёща => tescha (наверное я-бы так написал, но тоже не идеал)
Итак, для меня отсаются открытыми вопросы транслитерации таких букв как: Й, Х, и хотелось-бы услышать мнение по этим буквам как-же все-таки лучше и правильнее.
Ну или вот в эту сторону можно посмотреть
http://drupal.ru/node/24704
http://drupal.ru/node/50308
ГОСТ - это хорошо. А что по поводу ГОСТа думает тот же Google?
Может Яндекс и другие российские поисковики и придерживаются ГОСТа (в чем я очень сильно сомневаюсь), однако украинские и белорусские скорее всего нет. Что же касается упомянутого ранее Googl`a, то, судя по тому как сделана сортировка украинского алфавита в Windows, Linux и видимо всех остальных ОС (а сделана она укуреным дэбилом через задний проход), не славяноязычным производителям или законодателям стандартов глубоко нас**ть на ГОСТы и сложившиеся (удобные) правила сортировки и транслитерации в частности. Гугление не дало каких бы то ни было результатов по поводу правил транслитерации того же Google. ИМНО (и судя по оригинальному файлу i18n-ascii.txt) они вообще не в курсе, что такое транслитерация потому как транслитерация нужна нам, а не им. Поэтому, думаю надо исходить из здравого смысла и переделывать файл так, как это сделали бы большинство славяноязычных программеров, которые уж точно не смотрят ни в какие ГОСТы пока не приспичит ;), причем с учетом украинского и белорусского языков. Или создавать сообщество по борьбе ... за права ... - но это уже бред
Здравый смысл у всех разный. Ты предлагаешь вернуться к koi8r, koi8u, cp1251..., когда на каждый здравый смысл придумывали новую кодировку.
Очевидно, гугл ориентируется не на здравый смысл, а на стандарты. ГОСТ - это страндарт. Так же это должно быть отражено в RFC, лень рыться, но точно есть.
При чём тут сортировка? Мы говорим про транслитерацию. Сделайте текст в UTF8, а потом просмотрите в браузере или ещё где, с 7-битной кодировкой (например в links) увидите текст в транслите. Транслит будет соответсвовать ГОСТУ. Следовательно UTF8 сделан с учётом госта.
PS: я смотрел только русский язык, не знаю как обстоят дела с украинским.
А как насчет представления русских слов латинскими символами возможностями гугл переводчика?
http://translate.google.ru/#ru|en|Теща%0D%0AРоссия%0D%0Aбессонница%0D%0Aхрам
Там надо нажать кнопочку отвечающую именно за это, такая буква А с точками и вуаля. Что-то мне подсказывает что поисковый робот и переводчик гугла пользуются одной технологической базой.
Яндекс же при запросе вида "khram" "xram" предполагает что имелось в виду слово "храм", а вот при запросе "hram" просто находит информацию о храмах, но не предполагает что имелось в виду слово "храм". Можно делать выводы, не правда ли?
Гугл поиск например для запросов "khram" "hram" предполагает что имелось в виду слово "храм" а например уже для "chram" думает что искали что-то связанное с "chrome", но на запрос "chrosho" уже предлагает слово "хорошо", а на "xorosho" просто находит тексты со словами "хорошо".
Из всего вышесказанного напрашивается вывод: гугл однозначно не считает ГОСТ 7.79-2000 хрестоматийным документом в транслитерации русских слов, однако например все правила из таблицы http://russian.moscow.usembassy.gov/transliteration.html гуглом обрабатываются, так же как яндексом. Конечно возможны исключения, особенности, etc.
Смотрим гост, таблица 5, ретранслитерация. По ней слово "khram" будет преобразовано в "храм".
Пример с поиском в гугле и яндексе не очень некорректны, т.к. при формировании подсказок они пользуются букетом технологий и транслитерация там не на первом месте, вероятностные оценки важнее.