Как убрать лишние дубли?

Аватар пользователя pagemakeroff pagemakeroff 7 августа 2012 в 20:46

С какого-то момента поисковыми роботами на моем сайте стало считываться очень много дублей страниц типа мой сайт/taxonomy/term/73?page=5

До поры до времени это меня не волновало. Но вдруг:
1) хостинг-провайдер стал требовать с меня уменьшение нагрузки на процессор;
2) я заметил, что тот же Яндекс из поиска помимо дублей стал убирать и нормальные страницы.

Кто-нибудь сталкивался с подобным? И как разрешилась проблема?

"Грешу" на модули: Domain 301 Redirect, Pathauto, Redirect, Transliteration, Variable Check, XML Sitemap. Очень хотелось бы их оставить или хотя бы сохранить их функционал.

Комментарии

Аватар пользователя muaddip muaddip 7 августа 2012 в 21:04

XML Sitemap полюбому убирай ))) Шутю.
В robots.txt допиши что-то вроде этого:
Disallow: /node/
Disallow: /taxonomy/

Аватар пользователя pagemakeroff pagemakeroff 8 августа 2012 в 7:15

muaddip wrote:
XML Sitemap полюбому убирай ))) Шутю.
В robots.txt допиши что-то вроде этого:
Disallow: /node/
Disallow: /taxonomy/

В принципе, выход пока видится в инструкции типа:
Disallow: /*?*

Остаются вопросы:
1) все ли роботы способны считать эту инструкцию (как я понял, в официальном стандарте файла знаков подстановки для Disallow нет)?
2) решит ли это проблему с нагрузкой на сервер хостера? Не случится ли так, что, наоборот, нагрузка возрастет?

Аватар пользователя pagemakeroff pagemakeroff 8 августа 2012 в 8:05

pagemakeroff wrote:
muaddip wrote:
XML Sitemap полюбому убирай ))) Шутю.
В robots.txt допиши что-то вроде этого:
Disallow: /node/
Disallow: /taxonomy/

В принципе, выход пока видится в инструкции типа:
Disallow: /*?*

Остаются вопросы:
1) все ли роботы способны считать эту инструкцию (как я понял, в официальном стандарте файла знаков подстановки для Disallow нет)?
2) решит ли это проблему с нагрузкой на сервер хостера? Не случится ли так, что, наоборот, нагрузка возрастет?

Короче, пока прописал в robots.txt:
Disallow: /*?page=*

Посмотрим, что будет дальше.

Аватар пользователя muaddip muaddip 10 августа 2012 в 1:33

pagemakeroff wrote:
pagemakeroff wrote:

В принципе, выход пока видится в инструкции типа:
Disallow: /*?*

Остаются вопросы:
1) все ли роботы способны считать эту инструкцию (как я понял, в официальном стандарте файла знаков подстановки для Disallow нет)?
2) решит ли это проблему с нагрузкой на сервер хостера? Не случится ли так, что, наоборот, нагрузка возрастет?

Короче, пока прописал в robots.txt:
Disallow: /*?page=*

Посмотрим, что будет дальше.

Команда Disallow в Гугле точно работает, в Яндексе помоему тоже работает. Но поисковики делают оговорку, что по этой команде они блокируют URL, то есть убирают его из выдачи. Но это вовсе не значит, что они его индексировать не будут. С теперешней политикой конфиденциальности у Гугла, я думаю, что всеравно будут индексировать, дабы собрать максимум информации в свою базу. Эта команда поможет для SEO оптимизации сайта, уборка дублей - один из первых шагов.
По поводу хостинга есть подозрения, что он у вас слабенький. Но тут неизвестны несколько параметров:
1. Количество посетителей и просмотров страниц в сутки.
2. Структура сайта.
И еще пару вопросов:
- по записи *?page=* я понял, что чистые ссылки у вас не включены?
- Включали базовую оптимизацию сайта, то бишь кеширование страниц? (Администрирование - Конфигурация - Разработка, вкладка кеширование, галочки напротив "Кеширование страниц для анонимных пользователей" и "Кеширование блоков")

Аватар пользователя pagemakeroff pagemakeroff 12 августа 2012 в 9:32

muaddip wrote:
pagemakeroff wrote:
pagemakeroff wrote:

В принципе, выход пока видится в инструкции типа:
Disallow: /*?*

Остаются вопросы:
1) все ли роботы способны считать эту инструкцию (как я понял, в официальном стандарте файла знаков подстановки для Disallow нет)?
2) решит ли это проблему с нагрузкой на сервер хостера? Не случится ли так, что, наоборот, нагрузка возрастет?

Короче, пока прописал в robots.txt:
Disallow: /*?page=*

Посмотрим, что будет дальше.

Команда Disallow в Гугле точно работает, в Яндексе помоему тоже работает. Но поисковики делают оговорку, что по этой команде они блокируют URL, то есть убирают его из выдачи. Но это вовсе не значит, что они его индексировать не будут. С теперешней политикой конфиденциальности у Гугла, я думаю, что всеравно будут индексировать, дабы собрать максимум информации в свою базу. Эта команда поможет для SEO оптимизации сайта, уборка дублей - один из первых шагов.
По поводу хостинга есть подозрения, что он у вас слабенький. Но тут неизвестны несколько параметров:
1. Количество посетителей и просмотров страниц в сутки.
2. Структура сайта.
И еще пару вопросов:
- по записи *?page=* я понял, что чистые ссылки у вас не включены?
- Включали базовую оптимизацию сайта, то бишь кеширование страниц? (Администрирование - Конфигурация - Разработка, вкладка кеширование, галочки напротив "Кеширование страниц для анонимных пользователей" и "Кеширование блоков")


1. Посетителей в среднем где-то 80 в сутки, просмотров - около 200 (если убрать мои переходы). Весной показатели были выше (Думаю, снизилось не только из-за сезонности, но и дубли роль играют). Насколько знаю, хостер на данном тарифе способен поддерживать в сотни раз большие объемы. То, что сайт грузят не реальные посетители, а роботы, известно из логов и отчета "Активные посетители".
2. Около 500 информационных страниц, 1000 страниц с тегами. Уровень вложенности - не более 3 уровня. И - более 20000 дублей по данным Яндекса и Гугля, причем это количество постоянно растет.
3. Чистые ссылки включены. Дубли стали множиться после того, как добавил модули, список которых я привел в топике.
4. Кеширование включено, кэш регулярно удаляю.

Аватар пользователя muaddip muaddip 12 августа 2012 в 21:45

pagemakeroff wrote:

1. Посетителей в среднем где-то 80 в сутки, просмотров - около 200 (если убрать мои переходы). Весной показатели были выше (Думаю, снизилось не только из-за сезонности, но и дубли роль играют). Насколько знаю, хостер на данном тарифе способен поддерживать в сотни раз большие объемы. То, что сайт грузят не реальные посетители, а роботы, известно из логов и отчета "Активные посетители".
2. Около 500 информационных страниц, 1000 страниц с тегами. Уровень вложенности - не более 3 уровня. И - более 20000 дублей по данным Яндекса и Гугля, причем это количество постоянно растет.
3. Чистые ссылки включены. Дубли стали множиться после того, как добавил модули, список которых я привел в топике.
4. Кеширование включено, кэш регулярно удаляю.

1. 80 посетителей и 200 просмотров, это далеко не большая нагрузка. Очень похоже на то, что действительно немного недобросовестно ведет себя хостер. Жаловаться на нагрузку от твоего сайта при таких показателях, это полная фигня.
2. Такое количество дублей срочно убирайте, поисковики действительно могут занижать рейтинг сайта при такой переизбыточности. А вообще почитай помощь вебмастеру гугла и яндекса, там все базовые вещи по оптимизации сайта написаны.
3. Модули убирать не нужно, если их функционал нужен. Просто закрывай в файле robots.txt пути к этим дублям.
4. Не понимаю зачем регулярно удалять кэш? Как раз в момент удаления освобождается оперативная память, но потом при каждом "типичном" запросе, который должен был быть закеширован, будет выполняться полная работа по построению страницы (это много запросов к базе данных). А если кэш не пустой, то он отдает готовую страницу (частично подгруженную из кэша, а частично вытянутую из базы). И нагрузка идет меньше, и все быстрее летает.
Что еще приходит мне в голову это посмотреть количество SQL запросов, при формировании страницы. Для этого можно установить модуль Devel . Он покажет количество съеденной оперативной памяти и количество запросов к базе. Если запросов до 100, или около того, то в пределах нормы. Ну а если значительно больше, то какой-то модуль действительно сильно грузит систему.

Аватар пользователя VasyOK VasyOK 8 августа 2012 в 23:54

Я работал и с хорошими (it-patrol) и с достаточно задрыпаными хостингами (не называю, обидятся), но такого мне никто из них не говорил. Хотя бардак аналогичный вашему на моих сайтах тоже встречается.

Хостинг какой у вас?

Аватар пользователя pagemakeroff pagemakeroff 9 августа 2012 в 9:07

VasyOK wrote:
Я работал и с хорошими (it-patrol) и с достаточно задрыпаными хостингами (не называю, обидятся), но такого мне никто из них не говорил. Хотя бардак аналогичный вашему на моих сайтах тоже встречается.

Хостинг какой у вас?

И кстати, можно дать в личку список задрыпаных хостингов? Можно на мыло: pagemakeroff@mail.ru
Буду весьма благодарен.

Аватар пользователя pagemakeroff pagemakeroff 9 августа 2012 в 9:05

SpaceWeb.

Их сообщение о превышении нагрузки выглядит так (судя по всему, конструируется роботом):

«Вы являетесь клиентом SpaceWeb.
Ваш логин:

За последние сутки созданная Вашим аккаунтом нагрузка составила 67.9 процессорных минут. Это превышает допустимую на тарифах виртуального хостинга нагрузку в 60 процессорных минут и является нарушением п. 2.11 Правил предоставления услуг, указанных в Приложении 1 к Договору публичной оферты (http://sweb.ru/docs/oferta_OOOSpaceWeb_03-05-2012.pdf).

В соответствии с п. 2.3. Договора работа аккаунта может быть приостановлена: "2.3. Исполнитель вправе приостановить оказание услуг в случаях нарушения Заказчиком п.п. 2.10-2.12. Приложения 1 к настоящему Договору до устранения причины приостановления оказания услуг."

Во избежание остановки работы Вашего аккаунта, пожалуйста, как можно скорее снизьте создаваемую им нагрузку.

Для снижения нагрузки мы рекомендуем Вам провести технические работы по оптимизации скорости выполнения запросов к сайтам. Вы можете сделать это самостоятельно, проанализировав логи (http://help.sweb.ru/print/2484/), или обратиться к Вашим техническим специалистам.

Также Вы можете перенести наиболее посещаемый ресурс на отдельный аккаунт (http://help.sweb.ru/entry/3039/).

Если это не решит проблему, мы предлагаем перейти на тариф с более высокими лимитами: VIP-хостинг (http://sweb.ru/services/hosting/vip), VDS (http://sweb.ru/services/order/vds) или выделенный сервер (http://sweb.ru/services/servers).

Подробнее о мерах снижения нагрузки Вы можете прочитать в разделе помощи (http://help.sweb.ru/entry/2594/).
Если у Вас возникнут вопросы, обращайтесь в отдел технической поддержки нашей компании.»

На указание на то, что у них одинаковая допустимая нагрузка и для 1-го сервера, и для 16-ти, и посему их хостинг мало приспособлен для Drupal, написали следующее:

«Виртуальный хостинг предназначен для размещения сайтов, которые не создают
большой нагрузки на сервер. Для более нагруженных сайтов существуют тарифы
VIP.
На нашем хостинге корректно работает CMS Drupal, но достаточно большое
потребление ресурсов является особенностью этой CMS, и ввиду этого на
виртуальном хостинге возможности ее использования ограничены.»

Мой вывод: когда подойдут к концу денежки на лицевом счете Sweb'а - свалю от них в более дружественное место.

Аватар пользователя VasyOK VasyOK 9 августа 2012 в 9:50

Нет нельзя. Мне с ними еще жить. Можно дать список из одного хорошего: it-patrol.