Бесконечное множество дублей страницы

Главные вкладки

Аватар пользователя seo-golovinapro seo-golovinapro 12 февраля 2020 в 14:01

Здравствуйте. НУЖНА ПОМОЩЬ ЗНАТОКОВ ДРУПАЛА!

Сканировала сайт с помощью Screaming Frog, сайт два дня не мог досканироваться. В журнале проверки отображалось, что проверено 60 с чем-то тысяч страниц из 70 с чем-то тысяч.

Такого количества страниц на сайте, конечно, и близко нет. В журнале проверки обнаружила такую странную штуку: огромное множество страниц вида: https://design-studio-ideas.ru/news/44/ideacrimea/ideacrimea/ideacrimea/....

Элемент /ideacrimea/ после слеша можно добавлять какое угодно количество раз и все равно открывается пустой раздел новостей (хотя на сайте нормально наполненный раздел с новостями есть).

Кто-то сталкивался с таким? Что это вообще такое может быть и что с этим делать?

Комментарии

Аватар пользователя seo-golovinapro seo-golovinapro 12 февраля 2020 в 14:18

Думаю, да. Со сканированием других сайтов в последние дни таких проблем не возникало. Кроме того я проверяла на самом сайте - добавление элемента /ideacrimea/ к урл какое угодно количество раз не мешает открытию страниц. Разве так должно быть? При том, что ошибка 404 настроена нормально и прописывание какого-то бреда просто после адрес сайта/ приводит к ее выводу.

Аватар пользователя bsyomov bsyomov 12 февраля 2020 в 15:24

Чтобы эти страницы появлялись в сканере и в поисковиках, где-то должна быть не правильно сформированная относительная ссылка вида href='ideacrimea/'.

Собственно, в этом основная проблема, а не в http 200 на таких страницах... Раздел новостей у вас, вероятно, сформирован с помощью views, и дополнительные элементы пути там воспринимаются как параметры, и это нормальное поведение, в общем-то.

Аватар пользователя seo-golovinapro seo-golovinapro 12 февраля 2020 в 15:32

Но такого не было. И то, что на сайте из-за этого формируется более 70 тысяч непонятных страниц, воспринимаемых как дубли, тоже считается нормальным? Разве это не мешает работе сайта?

Аватар пользователя bsyomov bsyomov 12 февраля 2020 в 15:36

Чем мешает? Никаких же страниц не создаётся физически, собственно.

А если нет такой ссылки, то как может попасть сканер ваш или поисковика и найти такую страницу? Они не умеют сами выдумывать url, они ходят по имеющимся ссылкам.
Нет, ссылка точно где-то такая есть, надо просто хорошо поискать и исправить.

Аватар пользователя seo-golovinapro seo-golovinapro 12 февраля 2020 в 15:43

Эти страницы видит Вебмастер, показывала на скрине выше. Значит, они индексируются и учитываются поисковиком.

А что именно я должна найти и исправить, чтобы устранить эту проблему? Не совсем понимаю.

Простите, если вопрос идиотский, я с Друпалом на Вы и шепотом:)

Аватар пользователя bsyomov bsyomov 12 февраля 2020 в 16:01
1

Я же выше написал. Где-то на этих страницах есть относительная ссылка с href='ideacrimea/'. Именно при её индесировании и появляются эти результаты в поисковиках и вашем сканере.

Либо её надо исправить/изменить/убрать, либо если она такая должна быть, то можно воспользоваться исключением этих страниц через disallow в robots.txt.

Что именно править надо смотреть на конкретном сайте. Т.е. это не какая-то общая проблема drupal, это проблема вашего конкретного сайта, и вам не глядя никто не сможет сказать, что именно надо делать, чтобы её исправить и откуда она такая взялась.

UPD: Я посмотрел на сайте, и в подвале:
Skype: ideacrimea
имеет вот такой код:
<a class="skype" href="ideacrimea">ideacrimea</a>

Вот она ваша ссылка, которая плодит вам дубли. Smile
Это блок контакты, он редактируется через соответствующий раздел в админке сайта.

Аватар пользователя marassa marassa 14 февраля 2020 в 9:04

Но из Яндекса и Гугла эти страницы не исчезнут сами собой. Придется в robots.txt прописать запрет на их индексацию:

User-agent: *
Disallow: /*/ideacrimea/*
Аватар пользователя marassa marassa 14 февраля 2020 в 10:30

Насчет звездочки согласен. А сами исчезнут ли? Они же в индексе есть и возвращают 200. И внешние ссылки на них есть, например с этой страницы Wink
PS Там некоторые ссылки в яндексе со слешем на конце, а некоторые без - так что я бы скорее слеш убрал, а звездочку оставил:

User-agent: *
Disallow: /*/ideacrimea*
Аватар пользователя bsyomov bsyomov 14 февраля 2020 в 16:57

Звёздочка в конце просто лишняя в принципе.
Сами исчезнут, если не будет ссылок, или каким-то образом в сайтмап не попадут. То, что они 200 не важно. Ссылки на этой странице стоит сделать неактивными, кстати да. Smile

Аватар пользователя seo-golovinapro seo-golovinapro 14 февраля 2020 в 10:31

Кстати я кажется поняла, что ссылка /ideacrimea/ тут все-таки не особо причем, тк по сути после /news/ можно вообще любую чушь прописать и все равно не будет выдаваться 404.

Такое чувство, что для раздела новости не настроено 404. Хотя для всего остального сайта работает отлично.

Аватар пользователя marassa marassa 14 февраля 2020 в 10:36

seo-golovinapro wrote:
Кстати я кажется поняла, что ссылка /ideacrimea/ тут все-таки не особо причем
Она при чем, так как она была на Вашем сайте (в отличие от любой чуши), и яндекс c лягушкой старательно по ней ходили, как им и положено.

seo-golovinapro wrote:
Такое чувство, что для раздела новости не настроено 404. Хотя для всего остального сайта работает отлично.

bsyomov wrote:
Раздел новостей у вас, вероятно, сформирован с помощью views, и дополнительные элементы пути там воспринимаются как параметры, и это нормальное поведение, в общем-то.

Аватар пользователя marassa marassa 14 февраля 2020 в 11:32

Могу только еще раз повторить, что для Drupal это нормальное поведение по умолчанию.
Если очень хочется убрать это нормальное поведение, можно заморочиться с валидацией значений контекстных фильтров. Вот тут про это написано: https://drupal.stackexchange.com/questions/48093/how-do-i-set-my-views-t...
Но это не пошаговая инструкция на все случаи жизни, а наводка к пониманию того, что нужно сделать в Вашем конкретном случае.

Аватар пользователя seo-golovinapro seo-golovinapro 14 февраля 2020 в 11:38

Странно, что в связи с этим нормальным поведением нам от хостинга пришло сообщение о том, что у нас перелимит по количеству занимаемого на хостинге места) А у нас совсем немного страниц и изображений на сайте.

Аватар пользователя marassa marassa 14 февраля 2020 в 13:06
1

seo-golovinapro wrote:
от хостинга пришло сообщение о том, что у нас перелимит по количеству занимаемого на хостинге места)
Ну так надо смотреть по папкам чем именно занято это место. Вангую, что это кэш всех этих шестидесяти тыщ страниц c /ideacrimea/ideacrimea/ideacrimea/. Попробуйте просто очистить кэш друпала для начала.

Аватар пользователя seo-golovinapro seo-golovinapro 14 февраля 2020 в 15:56

Ссылку, через которую вроде как формировались дубли, убрала.

Правилом в роботс закрыла весь этот бардак.

Кэш почистила, но страницы вида https://design-studio-ideas.ru/news/12345... и https://design-studio-ideas.ru/news/ideacrimea/ideacrimea/ideacrimea/ide...... все еще открываются, а хостинг все еще ругается на перерасход места. В чем еще может быть проблема, что может быть не так?

Аватар пользователя marassa marassa 14 февраля 2020 в 16:17
1

seo-golovinapro wrote:
страницы вида https://design-studio-ideas.ru/news/12345... и https://design-studio-ideas.ru/news/ideacrimea/ideacrimea/ideacrimea/ide...... все еще открываются

Мне не жалко и в четвертый раз повторить, что это нормально Друпал передает представлению все указанные в адресе аргументы, а дальше представление по умолчанию использует те, которые ему нужны, а остальные просто игнорирует. Если Вы хотите, чтобы при передаче негодных и лишних аргументов в адресе выдавалась ошибка 404, настройте валидацию аргументов (значений контекстных фильтров). Как - я уже писал выше.

seo-golovinapro wrote:
хостинг все еще ругается на перерасход места. В чем еще может быть проблема, что может быть не так?

Мне не жалко и еще раз повторить, что нужно смотреть где именно (в каких папках или в БД) случился перерасход места. В панели управления хостингом обычно есть инструмент, который позволяет посмотреть какие папки занимают больше всего места.

Аватар пользователя bsyomov bsyomov 14 февраля 2020 в 16:53
1

Перерасход места может быть и не связан вообще с этой проблемой. Тут надо смотреть, что именно занимает место. Думаю, тут может помочь, например, техподдержка вашего хостинга.

Страницы такого вида и будут открываться, вне зависимости от содержимого robots.txt и отсутствия ссылок, но вот индексироваться они уже не будут, а именно этого и нужно было добиться.

Сделать так, чтобы при некорректных аргументах отдавалось 404 можно, но зачастую это просто не нужно.

Аватар пользователя seo-golovinapro seo-golovinapro 14 февраля 2020 в 16:58

Да, возможно и нет связи. Просто обнаружила появление в индексе таких страниц и одновременно с этим пришло письмо от хостинга. Поэтому первой и возникла мысль, что есть какая-то связь. Уже как раз консультируюсь с техподдержкой. Надеюсь, они скажут что делать, прежде чем сайт нам заблочить)