Доработка действующего сайта: удаление ненужных url

Аватар пользователя medium50 medium50 26 мая в 22:09

На сайте ideatranslate.ru нужно удалить ошибочные url разной природы.

По неизвестной причине в гугл консоли фиксируем много url, которые не должны быть в принципе на сайте (сгенерированы по ошибке и неизвестно почему) либо которые просто не должны выдаваться гуглботу для обработки и индексации (например, системные адреса или словари).

В результате есть дублёры актуальных url или ненужные url. По сути, речь об оптимизации сайта и решении seo задач. С пользовательской точки зрения у сайта проблем нет - всё функционирует корректно.

Пример ошибочного адреса: создана страница контента на одном языке. По неясно причине - гуглбот фиксирует также url с идентичным адресом, но на другом языке (например, правильный адрес ru/vsio-horosho. В системе также создается его дублер на английском en/vsio-horosho, при этом такой страницы нет и на сайте её найти невозможно, однако в гугл её наличие передается - он пытается её проиндексировать и записывает в ошибки).
Есть также страницы с предыдущей версии сайта (после редизайна были удалены 3 языковые версии; видимо, не удалены где-то на системном уровне).
Есть и другие ошибки: например, когда комбинируется url из двух или нескольких языковых версий - начало как в русской версии, окончание как во французской. Происхождение подобных тоже неизвестно.
И, конечно, в гугл не должны отдаваться на индексацию системные адреса (node/xxx) вместо их публичных версий (которые прописаны специально для пользовательской версии).

Нужно установить причину(-ны) наличия и создания таких url, после чего удалить их и предотвратить образование в дальнейшем.

Я сам не разработчик, поэтому не смогу сформулировать точнее. Предположу, что речь в работе каких-то модулей сайта. Дело не в сайтмэпе, если что - его тоже нужно обновить, но ошибки, зафиксированные гугл, не оттуда.

У меня есть полный список из гугл консоли по всем url сайта, которые не в индексе - смогу их предоставить. Также могу открыть и доступ в саму консоль.
Ищу специалиста, которые ориентируется в данных вопросах на необходимом уровне и сможет помочь решить эту проблему.

Ключевой момент: url нужно именно удалить (убрать из системы, из cms и проч), а не просто закрыть для индексации.

Спасибо

Комментарии

Аватар пользователя Semantics Semantics 26 мая в 22:34

Это к Селфину.
Он гуру всея SEO друпала, наверняка, и иные проблемы есть.
Урлы в друпале сами по себе не появляются.
Или генерируется что-то где-то не так или ссылочный профиль левый вообще

Аватар пользователя charOFF charOFF 27 мая в 0:05

Да для гугла это естественное поведение. Иногда кажется, что краулер сам "генерит" урлы на основе каких-то своих алгоритмов и пробует их просканировать. По поводу урлов типа 'node/...', у вас в коде они есть в виде  <link rel="shortlink" href="https://ideatranslate.ru/ru/node/263" /> . Это конечно нужно убрать. Но по моему опыту, гугл все равно будет пытаться такие урлы просканировать, даже если на них не будет никаких ссылок. Так что, если "лишние" урлы в Гугл Консоли видны исключительно в разделе "Исключено", я бы вообще не парился. Если в других разделах, особенно если индексируются лишние, тогда да, надо разбираться.
Ну и сайтмэп в порядок привести нужно, а то там все урлы http вместо https и присутствуют адреса типа http://ideatranslate.ru/about , без языкового префикса, хотя на них 301 редирект проставлен.

Аватар пользователя medium50 medium50 27 мая в 7:40

спасибо, всё верно, сайтмэп тоже нужно поправить (он остался от предыдущей версии сайта, еще до перехода на https и смены дизайна), я написал лишь к тому, что не в нём основная проблема этих url.

Аватар пользователя medium50 medium50 27 мая в 11:33

charOFF wrote: Иногда кажется, что краулер сам "генерит" урлы на основе каких-то своих алгоритмов и пробует их просканировать.

эти ошибочные url фиксируются не только гуглботом в разделе "исключено", но и сео-анализаторами. Это дает мне основание полагать, что их источник не в импровизации гугла, а в работе cms/модулей. По Сео анализу у сайта также очень много некачественных адресов.