Убираем дубликаты страниц Drupal из поисковиков

Аватар пользователя anser anser 22 июня 2008 в 13:19

Drupal - весьма мощная CMS и позволяет настраивать вид сайта практически как угодно. Однако при этом следует учитывать интересы поисковиков, иначе можно получить санкции со стороны Яндекса и Гугла, а это потеря посетителей и дохода, в том числе в системе sape. Представители всех поисковых систем говорят о том, что нужно закрывать страницы-пустышки и дубликаты от индексирования (например, ответ Платона), оставляя только оригинальный контент.

Проблема с дубликатами страниц возникает, если на вашем сайте на Drupal анонимным юзерам запрещено оставлять комментарии, а сама форма отправки комментариев показывается на отдельной странице. В этом случае под каждым анонсом статьи появляется такой текст:

» Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии.

Здесь слова "войдите" и "зарегистрируйтесь" являются гиперссылками, которые ведут на страницы-пустышки (дубликаты). Основное содержание этих страниц - форма для входа на сайт и форма для регистрации соответственно. В обоих случаях это страницы, которые следует прятать от поисковиков и роботов сапы. Если этого не сделать, то оптимизаторы, покупающие ссылки в сапе, могут быстро поместить "плохой сайт" в черный список (BL), а поисковые системы - наложить свои фильтры.

Что же делать?
На Drupal 5 страницы-дубли имеют похожий вид, например:

site.ru/user/register?destination=comment/reply/641%2523comment-form
site.ru/user/register?destination=comment/reply/562%2523comment-form
.........
site.ru/user/login?destination=comment/reply/562%2523comment-form
site.ru/user/login?destination=comment/reply/641%2523comment-form
.........

Файл robots.txt из стандартной поставки Drupal, который должен закрывать от поисковиков такие страницы-дубликаты, несовершенен. Это приводит к тому, что на момент этой публикации с сайта Mozg.by в индекс попало более 50 дублей в Яндексе и 131 дубль в Гугле.

Для сравнения привожу похожий сайт на Drupal с точно такими настройками - www.afportal.ru, где дублей нет, так как они закрыты от индексации как в Яндексе, так и в Гугле.

Указанная защита на AFPortal.ru обеспечивается всего 2-мя лишними строчками в robots.txt:

Disallow: /user/register?
Disallow: /user/login?

В зависимости от настроек вашего сайта (особенно правил доступа и опции "чистые ссылки"), вам могут быть нужны другие правила в robots.txt. Например, на www.afportal.ru используются еще 2 правила. Первое закрывает доступ к RSS-лентам категорий и является шаблоном (шаблоны понимают как Яндекс , так и Гугл):

Disallow: /taxonomy/term*/feed

Второе правило закрывает доступ к страницам подшивки в "'экспортном" варианте:

Disallow: /book/export/html

Это нужно не только для удаления дублей, но и для перенаправления трафика на обычные страницы сайта, где есть, например, есть контекстная реклама и навигация. С голых страниц подшивки пользы для посетителей было бы гораздо меньше.

Потренироваться в составлении правильного robots.txt можно в своей панели вебмастера на Яндексе. Чтобы выполнить анализ файла robots.txt сайта с позиции поискового робота Google, выполните следующие действия:

  1. Войдите в инструменты Google для веб-мастеров, используя свой аккаунт Google.
  2. На панели инструментов выберите URL требуемого сайта.
  3. Нажмите Инструменты, а затем выберите Анализ robots.txt.

Последний совет по SEO + Drupal.
Если вы хотите закрывать некоторые ссылки от Яндекса, но используете "Filtered HTML", добавьте в разрешенные теги тег <noindex>. Иначе вы будете думать, что закрыли ссылку от Яндекса, а движок Друпала будет втихаря вырезать noindex.

Хорошего вам трафа!

Оригинал статьи выложен на http://serp.by

Комментарии

Аватар пользователя T-34 T-34 27 июня 2008 в 1:41

Quote:
Проблема с дубликатами страниц возникает, если на вашем сайте на Drupal анонимным юзерам запрещено оставлять комментарии, а сама форма отправки комментариев показывается на отдельной странице.

Это фигня, я опасаюсь санкций за дублирование, которое вызывает структура моей таксономии... Яндекс еще не все схавал, посмотрим что будет

Аватар пользователя Shedko Shedko 2 августа 2008 в 1:14

Еще забыты такие строчки в robots.txt как:

# Views and Forum module problem:
Disallow: /\*sort=
Disallow: *?sort=
# Image module problem
Disallow: /\*size=
Аватар пользователя Nick.Tereh Nick.Tereh 17 октября 2008 в 1:42

Проверил в шестой версии:
inurl:/user/login site:example.com
Найдена только одна страница.
По остальным запросам пусто.

В robots.txt уже убрали всё до нас, можно не волноваться:

# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/

Поправьте, если я не прав.

Аватар пользователя anser anser 17 октября 2008 в 14:19

Nick.Tereh wrote:
Поправьте, если я не прав.

Не правы. Такой же robots.txt был и в 5-м Друпале. Гляньте на индексацию mozg.by и поймете, что robots.txt в стандартной поставке несовершенен.

Аватар пользователя gor gor 12 февраля 2010 в 16:35

PVasili wrote:
penexe - следите за лексикой...

Он прав, chippetto вставил на точку ссылку. я его пост заблокировал.

Аватар пользователя Valeratal Valeratal 22 декабря 2008 в 17:38

Раньше у меня в роботс стояла защита от этих "войдите или зарегистрируйтесь"
обновлял друпал и поставил дефолтный

теперь смотрю самые популярные страницы за день

1658 Учетная запись пользователя
user/register 2339 мс 1 час 4 минуты
1382 Учетная запись пользователя
user/login 2210 мс 50 минуты 54 секунды

Аватар пользователя kodo kodo 21 января 2009 в 8:24

PVasili - ну действительно два спамера объявились chippetto и maleena.
Если так и дальше пойдет, то и будем читать "Спасибо" и спам. Есть же возможность внести свой сайт в подпись или выставить на оценку.
А за подобный спам надо удалять аккаунты, тем более если человек больше ничего не писал

Аватар пользователя logrise@drupal.org logrise@drupal.org 21 января 2009 в 8:35

Согласен! Уже несколько раз натыкался на апдейты тем, в которых весь апдейт - это Спасибо!... Поставить на вид!

Аватар пользователя sirmax07 sirmax07 28 февраля 2009 в 11:02

а для шестой версии Друпала эти рецепты работают?
Можно ли добавить в файл robots.txt такое:

Disallow: /user/register?
Disallow: /user/login?
Disallow: /taxonomy/term*/feed
Disallow: /book/export/html

Или это неправильно?

Аватар пользователя Psi-factor@drupal.org Psi-factor@drup... 12 февраля 2010 в 16:03

Только что заметил, что яндекс НЕ РЕАГИРУЕТ на строчки вида:
Disallow: /search/
Disallow: /user/register/

т.е. если набрать
Disallow: /search
Disallow: /user/register
то он таки индексирует, не смотря на robots.txt!

Убрав закрывающий слэш в robots.txt Яндекс перестает индексировать!

P.S. Проверялось через Вебмастер.Яндекс!