Сеошника не устраивает файл стандартный robots.txt.
Взамен он предлагает использовать такой файл. Как считаете прав ли сеошник?
User-agent: *
Allow: *.css
Allow: *.js
Allow: *.gif
Allow: *.jpg
Allow: *.jpeg
Allow: *.png
Allow: *?page=*
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (no clean URLs)
Disallow: */admin
Disallow: */user
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: */cart
Disallow: *?*
Disallow: *&*
Allow: *.css
Allow: *.js
Allow: *.gif
Allow: *.jpg
Allow: *.jpeg
Allow: *.png
Allow: *?page=*
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (no clean URLs)
Disallow: */admin
Disallow: */user
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: */cart
Disallow: *?*
Disallow: *&*
0 Thanks
Комментарии
А зачем?
что зачем?
Не нравятся ему переходу по страницам пейджера например. Но как бы то, что он добавил - не главное. Главное ему мешют дублирующие правила в существующем файле.
А зачем разрешать индексировать css?
У Гугла была рекомендация разрешать индексировать жс и цсс. Одно время вебмастер активно об этом напоминал
Больше интересует почему ему не нравится то что уже есть в друпальном robots.txt
Почему бы не спросить у сеошника?
А потом результатом с сообществом поделиться.
сеошник, считает, что в стандартном другпаловском "достаточно много дублирующих правил" больше я из него не могу ничего выжать.
чтобы не было переходов по страницам пейджера, установите и настройте rel=canonical
Рел=каноникал в друпале на пейджере итак настроен по умолчанию. В данном случае скорее наблюдается борьба с ветряными мельницами...
Переходы по страницам пейджера точно не нравятся ему?
А ниже дисаллоу *?*
Он не определился до конца, либо нам не так донесли информацию
Пейджер оборачиваю в ноиндекс и на ссылки пейджера нофоллов ставлю. Так у меня было с бывшивми сошниками.
Повторяю то что добавлено интересует мало. Больше интересует то что убрано.
Мне кажется, в данном случае лучше сделать то, что просит сеошник. Потом при первом обновлении изменения затрутся, да и пофиг.
Когда Друпал обновляю естественно смотрю нет ли изменений в robots и htaccess
Самый правильный совет. Если не хочешь учиться SEO, то и не забивай себе голову механиками, просто делай.
Вопрос как бы не о том чего я хочу, а какого отношение к сокращению robots файла.
да пофиг на сокращение, что оно тебе сдалось? Оно итак избыточное, ибо сейчас редко встретишь нечистые урлы например, а админка закрыта паролем. Хочет сеошник показать работу свою именно так - ну и пускай.
Сеошник правильный роботс предлагает, правда директиву Allow: *?page=* я бы все таки не включал
аргументируйте
Аргументировать что именно? Allow: *?page=* ? Если не проработаны уникальные метаданные для постраничной пагинации, включая указание link rel="prev" и link rel="next", то страницы ?page=* будут дубли плодить, и их лучше закрывать от индексации (а оптимизированные страницы пагинации я встречал крайне редко на друпал)
То что сеошник открыл к индексации css и js файлы - так это уже давным давно является правилом оптимизации роботс, как минимум для Гугла
Что еще в Disallow нужно добавить - нужно конкретно по сайту смотреть. Также не помешало бы добавить Sitemap. В любом случае предложенный выше robots.txt куда лучше роботса, идущим в друпале по умолчанию
Думаешь друпального каноникала, ведущего на первую страницу пангинатора, не достаточно, чтобы пангинацию не закрывать?
Бо в дисаллоу он и по ссылкам не пойдет, а так хоть индексировать ноды на второй итд страницах будет.
Может и достаточно будет, на усмотрение робота, но по рекомендациям того же Гула пагинацию желательно отмечать еще и next - prev. И ценность открытой пагинации не в том, чтобы ноды там индексировались (для этого сайтмап лучше использовать), а в передаче веса всех существующих страниц пагинации на главную страницу сайта\категории где представлена эта пагинация.
спасибо seonomad
Вообще, правильно так делать:
- Удаляется стандартный robots.txt
- https://www.drupal.org/project/robotstxt (при мультисайтинге - must have)
В нем, по настройкам, должно быть:
Host:
Sitemap:
Disallow: /*? // в идеале, при правильной структуре
Пример - тык
P.S. При установленном globalredirect, no clean URLs - можно смело исключать.
Не пишите ерунду и не вводите людей в заблуждение. Роботс для мультисайтинга можно настроить и без модуля (пример), a Host уже не используется поисковиками. Роботс указанный вами в примере мягко говоря не очень.
PS, Crawl-delay: 10 - это во первых дофига, во вторых ее тоже поисковики игнорируют уже из-за типичных неверных настроек юзерами.
Уважаемый, мультисайтинг - это не поддомен.
Пока есть зеркала, без редиректа - Host будет актуален.
Роботс в примере чудесен и проверен временем.
Ясно понятно. Читайте пожалуйста. Про мультисайтинг я вообще тогда лучше промолчу
Как по мне, модуль robots.txt просто идеален для случаев, когда сеошник считает себя умнее всех - установил и пусть он там редактирует всё, что хочет.
+ апдейтами ничего не затирается
Только каждый раз добавляется дефолтный robots, который надо удалять))
Отчёт о состоянии просигналит
В роботе главное чтобы были скрыты стр пагинации, тех страницы и страницы доработки, все остальное можно, вроде все это ваш сеошник и сделал
Чем страницы пагинации не угодили? Как поисковику узнать о контенте не на основной странице? И что за страницы доработки?
Страницы пагинации по сути ничем не отличаются друг от друга, это будет дублированный контент (оооочень похожий) в индекс заливается только первая стр, а станицы пагинации нет. Кидаешь в вебмастер и гугл о ней узнает. Страницы доработки - страницы которые еще не готовы выйти в индекс и находятся на стадии усовершенствования и устранения ошибок.
Мда.. учиться Вам батенька еще и учиться. Не стоит комментировать все подряд посты только ради того, чтобы себе историю заработать, а то с самого начала себе репутацию не ту заработаете
НУ научи, "батенька" как надо
Выше ведь написаны варианты, стоит просто почитать обсуждение, а потом только комментарии давать.
ну варианты написаны, я дал свои варианты, в чем проблема?
Вы так яро по все постам в этом разделе пошли комментарии оставлять, что сложилось впечатление, что Вы их даже не читали, лишь бы написать что. Прошу прощения если чем задел.
Это просто такой грамотный крауд наверное)
Я читаю как правило вопрос автора и стараюсь на него ответить, сообщения других участников пробегаю мельком,
Это называется - некропостинг.
И ладно бы не было ответов, а то практически везде, где оставлен комментарий - уже даны правильные ответы.
Можно еще поднять темы 5-10-лет давности. Очень актуально будет.
Почему некропостинг? Тему в октябре создал. Сейчас ноябрь. Я не против обсуждения как методов сеошника так и моих методов в других темах. Но вы слишком много Павел, обсуждаете как мою персону так и других участников.
Не Павел, а Пётр. К вашей персоне у меня интереса нет, не льстите себе.
Стандартный вполне устраивает.
И я за стандарт.