Здравствуйте. НУЖНА ПОМОЩЬ ЗНАТОКОВ ДРУПАЛА!
Сканировала сайт с помощью Screaming Frog, сайт два дня не мог досканироваться. В журнале проверки отображалось, что проверено 60 с чем-то тысяч страниц из 70 с чем-то тысяч.
Такого количества страниц на сайте, конечно, и близко нет. В журнале проверки обнаружила такую странную штуку: огромное множество страниц вида: https://design-studio-ideas.ru/news/44/ideacrimea/ideacrimea/ideacrimea/....
Элемент /ideacrimea/ после слеша можно добавлять какое угодно количество раз и все равно открывается пустой раздел новостей (хотя на сайте нормально наполненный раздел с новостями есть).
Кто-то сталкивался с таким? Что это вообще такое может быть и что с этим делать?
Комментарии
Уверены, что проблема в друпале, а не в сканере?
Думаю, да. Со сканированием других сайтов в последние дни таких проблем не возникало. Кроме того я проверяла на самом сайте - добавление элемента /ideacrimea/ к урл какое угодно количество раз не мешает открытию страниц. Разве так должно быть? При том, что ошибка 404 настроена нормально и прописывание какого-то бреда просто после адрес сайта/ приводит к ее выводу.
Эти странные страницы и в Вебмастере видны
Чтобы эти страницы появлялись в сканере и в поисковиках, где-то должна быть не правильно сформированная относительная ссылка вида href='ideacrimea/'.
Собственно, в этом основная проблема, а не в http 200 на таких страницах... Раздел новостей у вас, вероятно, сформирован с помощью views, и дополнительные элементы пути там воспринимаются как параметры, и это нормальное поведение, в общем-то.
Но такого не было. И то, что на сайте из-за этого формируется более 70 тысяч непонятных страниц, воспринимаемых как дубли, тоже считается нормальным? Разве это не мешает работе сайта?
Чем мешает? Никаких же страниц не создаётся физически, собственно.
А если нет такой ссылки, то как может попасть сканер ваш или поисковика и найти такую страницу? Они не умеют сами выдумывать url, они ходят по имеющимся ссылкам.
Нет, ссылка точно где-то такая есть, надо просто хорошо поискать и исправить.
Эти страницы видит Вебмастер, показывала на скрине выше. Значит, они индексируются и учитываются поисковиком.
А что именно я должна найти и исправить, чтобы устранить эту проблему? Не совсем понимаю.
Простите, если вопрос идиотский, я с Друпалом на Вы и шепотом:)
Я же выше написал. Где-то на этих страницах есть относительная ссылка с href='ideacrimea/'. Именно при её индесировании и появляются эти результаты в поисковиках и вашем сканере.
Либо её надо исправить/изменить/убрать, либо если она такая должна быть, то можно воспользоваться исключением этих страниц через disallow в robots.txt.
Что именно править надо смотреть на конкретном сайте. Т.е. это не какая-то общая проблема drupal, это проблема вашего конкретного сайта, и вам не глядя никто не сможет сказать, что именно надо делать, чтобы её исправить и откуда она такая взялась.
UPD: Я посмотрел на сайте, и в подвале:
Skype: ideacrimea
имеет вот такой код:
<a class="skype" href="ideacrimea">ideacrimea</a>
Вот она ваша ссылка, которая плодит вам дубли.
Это блок контакты, он редактируется через соответствующий раздел в админке сайта.
Спасибо большое. Надеюсь ее подправлю и этот ужас прекратится))
Но из Яндекса и Гугла эти страницы не исчезнут сами собой. Придется в robots.txt прописать запрет на их индексацию:
Disallow: /*/ideacrimea/*
Звёздочка в конце правила лишняя, и со временем исчезнут и без этого - ссылки-то больше не будет.
Насчет звездочки согласен. А сами исчезнут ли? Они же в индексе есть и возвращают 200. И внешние ссылки на них есть, например с этой страницы
PS Там некоторые ссылки в яндексе со слешем на конце, а некоторые без - так что я бы скорее слеш убрал, а звездочку оставил:
Disallow: /*/ideacrimea*
Звёздочка в конце просто лишняя в принципе.
Сами исчезнут, если не будет ссылок, или каким-то образом в сайтмап не попадут. То, что они 200 не важно. Ссылки на этой странице стоит сделать неактивными, кстати да.
Спасибо. Да, это учту, конечно
Кстати я кажется поняла, что ссылка /ideacrimea/ тут все-таки не особо причем, тк по сути после /news/ можно вообще любую чушь прописать и все равно не будет выдаваться 404.
Такое чувство, что для раздела новости не настроено 404. Хотя для всего остального сайта работает отлично.
Ну ее я уже убрала, но очевидно, что проблема не только в ней
Могу только еще раз повторить, что для Drupal это нормальное поведение по умолчанию.
Если очень хочется убрать это нормальное поведение, можно заморочиться с валидацией значений контекстных фильтров. Вот тут про это написано: https://drupal.stackexchange.com/questions/48093/how-do-i-set-my-views-t...
Но это не пошаговая инструкция на все случаи жизни, а наводка к пониманию того, что нужно сделать в Вашем конкретном случае.
Странно, что в связи с этим нормальным поведением нам от хостинга пришло сообщение о том, что у нас перелимит по количеству занимаемого на хостинге места) А у нас совсем немного страниц и изображений на сайте.
Спасибо, попробую)
Спасибо за ссылку
Ссылку, через которую вроде как формировались дубли, убрала.
Правилом в роботс закрыла весь этот бардак.
Кэш почистила, но страницы вида https://design-studio-ideas.ru/news/12345... и https://design-studio-ideas.ru/news/ideacrimea/ideacrimea/ideacrimea/ide...... все еще открываются, а хостинг все еще ругается на перерасход места. В чем еще может быть проблема, что может быть не так?
Мне не жалко и в четвертый раз повторить, что
это нормальноДрупал передает представлению все указанные в адресе аргументы, а дальше представление по умолчанию использует те, которые ему нужны, а остальные просто игнорирует. Если Вы хотите, чтобы при передаче негодных и лишних аргументов в адресе выдавалась ошибка 404, настройте валидацию аргументов (значений контекстных фильтров). Как - я уже писал выше.Мне не жалко и еще раз повторить, что нужно смотреть где именно (в каких папках или в БД) случился перерасход места. В панели управления хостингом обычно есть инструмент, который позволяет посмотреть какие папки занимают больше всего места.
Перерасход места может быть и не связан вообще с этой проблемой. Тут надо смотреть, что именно занимает место. Думаю, тут может помочь, например, техподдержка вашего хостинга.
Страницы такого вида и будут открываться, вне зависимости от содержимого robots.txt и отсутствия ссылок, но вот индексироваться они уже не будут, а именно этого и нужно было добиться.
Сделать так, чтобы при некорректных аргументах отдавалось 404 можно, но зачастую это просто не нужно.
Да, возможно и нет связи. Просто обнаружила появление в индексе таких страниц и одновременно с этим пришло письмо от хостинга. Поэтому первой и возникла мысль, что есть какая-то связь. Уже как раз консультируюсь с техподдержкой. Надеюсь, они скажут что делать, прежде чем сайт нам заблочить)