Drupal - весьма мощная CMS и позволяет настраивать вид сайта практически как угодно. Однако при этом следует учитывать интересы поисковиков, иначе можно получить санкции со стороны Яндекса и Гугла, а это потеря посетителей и дохода, в том числе в системе sape. Представители всех поисковых систем говорят о том, что нужно закрывать страницы-пустышки и дубликаты от индексирования (например, ответ Платона), оставляя только оригинальный контент.
Проблема с дубликатами страниц возникает, если на вашем сайте на Drupal анонимным юзерам запрещено оставлять комментарии, а сама форма отправки комментариев показывается на отдельной странице. В этом случае под каждым анонсом статьи появляется такой текст:
» Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии.
Здесь слова "войдите" и "зарегистрируйтесь" являются гиперссылками, которые ведут на страницы-пустышки (дубликаты). Основное содержание этих страниц - форма для входа на сайт и форма для регистрации соответственно. В обоих случаях это страницы, которые следует прятать от поисковиков и роботов сапы. Если этого не сделать, то оптимизаторы, покупающие ссылки в сапе, могут быстро поместить "плохой сайт" в черный список (BL), а поисковые системы - наложить свои фильтры.
Что же делать?
На Drupal 5 страницы-дубли имеют похожий вид, например:
site.ru/user/register?destination=comment/reply/641%2523comment-form
site.ru/user/register?destination=comment/reply/562%2523comment-form
.........
site.ru/user/login?destination=comment/reply/562%2523comment-form
site.ru/user/login?destination=comment/reply/641%2523comment-form
.........
Файл robots.txt из стандартной поставки Drupal, который должен закрывать от поисковиков такие страницы-дубликаты, несовершенен. Это приводит к тому, что на момент этой публикации с сайта Mozg.by в индекс попало более 50 дублей в Яндексе и 131 дубль в Гугле.
Для сравнения привожу похожий сайт на Drupal с точно такими настройками - www.afportal.ru, где дублей нет, так как они закрыты от индексации как в Яндексе, так и в Гугле.
Указанная защита на AFPortal.ru обеспечивается всего 2-мя лишними строчками в robots.txt:
Disallow: /user/register?
Disallow: /user/login?
В зависимости от настроек вашего сайта (особенно правил доступа и опции "чистые ссылки"), вам могут быть нужны другие правила в robots.txt. Например, на www.afportal.ru используются еще 2 правила. Первое закрывает доступ к RSS-лентам категорий и является шаблоном (шаблоны понимают как Яндекс , так и Гугл):
Disallow: /taxonomy/term*/feed
Второе правило закрывает доступ к страницам подшивки в "'экспортном" варианте:
Disallow: /book/export/html
Это нужно не только для удаления дублей, но и для перенаправления трафика на обычные страницы сайта, где есть, например, есть контекстная реклама и навигация. С голых страниц подшивки пользы для посетителей было бы гораздо меньше.
Потренироваться в составлении правильного robots.txt можно в своей панели вебмастера на Яндексе. Чтобы выполнить анализ файла robots.txt сайта с позиции поискового робота Google, выполните следующие действия:
- Войдите в инструменты Google для веб-мастеров, используя свой аккаунт Google.
- На панели инструментов выберите URL требуемого сайта.
- Нажмите Инструменты, а затем выберите Анализ robots.txt.
Последний совет по SEO + Drupal.
Если вы хотите закрывать некоторые ссылки от Яндекса, но используете "Filtered HTML", добавьте в разрешенные теги тег <noindex>. Иначе вы будете думать, что закрыли ссылку от Яндекса, а движок Друпала будет втихаря вырезать noindex.
Хорошего вам трафа!
Оригинал статьи выложен на http://serp.by
Комментарии
спасибо-)
Спасибо, полезная статья!
В мемориз...
Это фигня, я опасаюсь санкций за дублирование, которое вызывает структура моей таксономии... Яндекс еще не все схавал, посмотрим что будет
спасибо!
Спасибо!
Еще забыты такие строчки в robots.txt как:
Disallow: /\*sort=
Disallow: *?sort=
# Image module problem
Disallow: /\*size=
Проверил в шестой версии:
inurl:/user/login site:example.com
Найдена только одна страница.
По остальным запросам пусто.
В robots.txt уже убрали всё до нас, можно не волноваться:
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Поправьте, если я не прав.
Не правы. Такой же robots.txt был и в 5-м Друпале. Гляньте на индексацию mozg.by и поймете, что robots.txt в стандартной поставке несовершенен.
Спасибо!
Тогда исправлю
спасибо, полезно
спамер ...
penexe - следите за лексикой...
Он прав, chippetto вставил на точку ссылку. я его пост заблокировал.
Раньше у меня в роботс стояла защита от этих "войдите или зарегистрируйтесь"
обновлял друпал и поставил дефолтный
теперь смотрю самые популярные страницы за день
1658 Учетная запись пользователя
user/register 2339 мс 1 час 4 минуты
1382 Учетная запись пользователя
user/login 2210 мс 50 минуты 54 секунды
Спасибо!
------------------
Belford High School
PVasili - ну действительно два спамера объявились chippetto и maleena.
Если так и дальше пойдет, то и будем читать "Спасибо" и спам. Есть же возможность внести свой сайт в подпись или выставить на оценку.
А за подобный спам надо удалять аккаунты, тем более если человек больше ничего не писал
Согласен! Уже несколько раз натыкался на апдейты тем, в которых весь апдейт - это Спасибо!... Поставить на вид!
а для шестой версии Друпала эти рецепты работают?
Можно ли добавить в файл robots.txt такое:
Disallow: /user/register?
Disallow: /user/login?
Disallow: /taxonomy/term*/feed
Disallow: /book/export/html
Или это неправильно?
Только что заметил, что яндекс НЕ РЕАГИРУЕТ на строчки вида:
Disallow: /search/
Disallow: /user/register/
т.е. если набрать
Disallow: /search
Disallow: /user/register
то он таки индексирует, не смотря на robots.txt!
Убрав закрывающий слэш в robots.txt Яндекс перестает индексировать!
P.S. Проверялось через Вебмастер.Яндекс!