{Решено} Помощь с robots.txt

Главные вкладки

Аватар пользователя nurofen nurofen 18 мая 2011 в 13:45

Помогите, как правильно прописать чтобы робот не индексировал ссылки. Я использую модуль Lightbox2 внизу каждой картинки создаются ссылки Оригинал и миниатюра [URL=http://radikal.ru/F/s58.radikal.ru/i162/1105/f0/950bdd484896.png.html][I... .

Я в теме прописал:

.image_size_thumbnail a {
display: none;
}
.image_size__original a {
display: none;
}

И в теме этих ссылок не видно, но робот их все равно видит. gosha.me/node/102?size=_original и gosha/sites/default/files/images/dsc02001.thumbnail.jpg

И еще вопрос есть ссылки, таких ссылок много, а нужны или нет хз??????? они дублируют один и тот же материал gosha.me/node/59?size=preview

И вот такие ссылки gosha.me/user/register?destination=node%2F45%23comment-form тоже несколько штук ????????????????????

Комментарии

Аватар пользователя Wolf-alone Wolf-alone 18 мая 2011 в 14:21

Что бы робот не индексировал ссылки - есть специальные атрибуты, например "nofollow" - запрещает поисковым роботам переход по ссылке для её индексирования.

Аватар пользователя audioknigi audioknigi 18 мая 2011 в 14:51

я только знаю как задавать чтобы не индексировалась одна страница
в данном случае страница links.html

User-agent: * # относится ко всем роботам
Disallow: /links.html

Аватар пользователя nurofen nurofen 18 мая 2011 в 18:38

Эта запись как бы запретить роботу индексировать все ссылки со знаком вопроса? gosha.me/user/login?destination=comment%2Freply%2F7%23comment-form и gosha.me/node/102?size=_original

gosha.me/image/tid/36?page=1 итд ?

Аватар пользователя nurofen nurofen 18 мая 2011 в 18:44

Вот мой

User-agent: *
Crawl-delay: 10
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Allow: /sites/default/files/imce/*
Allow: /sites/default/files/images/*
Disallow: /sites/default/files/soft/*
Disallow: /themes/
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /ext_link?url=
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Sitemap: http://www.gosha.me/sitemap.xml

Аватар пользователя Shift-Web Shift-Web 18 мая 2011 в 19:00

"zloy-doctor" wrote:

Allow: /sites/default/files/imce/*
Allow: /sites/default/files/images/*

Это для чего? Имело бы смысл, если скажем было бы

Disallow: /sites*
Allow: /sites/default/files/imce/*
Allow: /sites/default/files/images/*

Что вы открываете, если оно не закрыто? Каждому [A] должен предшествовать [D] (если о каком-то одном пути речь идёт со всеми хвостами внутри). D - критерий, А - исключение.

Аватар пользователя nurofen nurofen 18 мая 2011 в 19:05

Shift-Web, спасибо поправил, а подскажите что еще исправить?

<?phpЭта запись как бы запретить роботу индексировать все ссылки со знаком вопроса? gosha.me/user/login?destination=comment%2Freply%2F7%23comment-form и gosha.me/node/102?size=_original

gosha.me/image/tid/36?page=1 итд ??>

Аватар пользователя Shift-Web Shift-Web 18 мая 2011 в 19:12

"zloy-doctor" wrote:
Опубликовано zloy-doctor

так и есть, там по ссылке

"zloy-doctor" wrote:
а подскажите что еще исправить?

Quote:

Есть пару замечаний. Клиентам шустрых хостингов и своих серверов Crawl-delay можно устанавливать в районе 1-4, это ускорит сбор информации поисковиками. Если хостинг медленный или информации очень много, то планку стоит повышать — это обеспечит баланс между индексируемостью и генерацией нагрузки.

Модуль Archives зачастую дублирует информацию главной страницы, для избежания санкций перекроем страницу со всеми материалами и материалами за текущий год.

Модифицированный robots.txt не содержит запретов для файлов лицензий, readme и changelog, рекомендуется вообще удалить их после ознакомления из всех директорий движка т.к. их информационная ценность на production стремится к нулю.

Также стоит провести анализ и очистить файл от лишних запретов тех путей, по которым неавторизованному пользователю отдаётся головок 403(доступ запрещён). Например, админка и добавление материала.

Аватар пользователя Shift-Web Shift-Web 18 мая 2011 в 20:04

"zloy-doctor" wrote:
Спасибо. А вот с этим запретом не понятно Disallow: /node$

Это дубль морды. $ - указывает что только этот урл т.е.

http://some_site.some_domain/node

Аватар пользователя nurofen nurofen 18 мая 2011 в 20:15

> Disallow: /*?* а это типа запретить индекс страниц со знаком
> вопроса ?
не стоит по такому признаку запрещать

запрещать в роботс.txt можно только ссылку, а не GET параметры
ибо их смысла нет запрещать))

цитата из icq кто что думает?

Аватар пользователя Shift-Web Shift-Web 18 мая 2011 в 20:33

"zloy-doctor" wrote:
не стоит по такому признаку запрещать

просто есть шанс, что ваши посетители буду приходить на всякие модуле-зависимые адреса и ставить в последующем сслыку на них же. уберёте модуль, обновите версию, мало ли что ещё и всё.

кроме того, всякие твитеровские и фидбарнеровские переходы дают такую каку.

Аватар пользователя nurofen nurofen 18 мая 2011 в 20:42

gosha.me/node/47?size=_original Disallow: /node/?size=_original

gosha.me/node/32?size=preview Disallow: /node/?size=preview

может еще так прописать чтоб выкинуть кучу страниц тока они под цифрами идут каждая страница...

Аватар пользователя Shift-Web Shift-Web 18 мая 2011 в 21:19

"zloy-doctor" wrote:
может еще так прописать чтоб выкинуть кучу страниц тока они под цифрами идут каждая страница...

сапа? )))

Disallow: /*?size*
Disallow: /*=*

Может вызвать косяк, если в роботсе

"zloy-doctor" wrote:
_

Аватар пользователя Shift-Web Shift-Web 18 мая 2011 в 21:59

"zloy-doctor" wrote:
запрещать в роботс.txt можно только ссылку, а не GET параметры

не знаю, кто такое мог сказать, но с Яндекс и Google проблем нет. Посмотрел несколько сайтиков, всё нормально.

Disallow: /*?*

Это конечно немного по тупому выглядит, но вариант всё же более удачный и простой. Если заморочиться, то можно смело умножить Disallow: /*?size* на 20. Это если модулей не оч много. и до скончания веков ковыряться в соплях подпирая костыли.

Аватар пользователя Shift-Web Shift-Web 18 мая 2011 в 22:27

{не кошерно}

User-agent: *
Crawl-delay: 4
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /filter
Disallow: /scripts/
Disallow: /sites*
Allow: /sites/default/files/imce/*
Allow: /sites/default/files/images/*
Disallow: /sites/default/files/soft/*
Disallow: /libraries*
Disallow: /themes/
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
Disallow: /admin/
Disallow: /comment
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /node$
Disallow: /tracker?
Disallow: /search/
Disallow: /user*
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /search/node*
Disallow: /search/user*
Disallow: /*?*
Disallow: /*?size*
Disallow: /ext_link?url=
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Sitemap: http://www.gosha.me/sitemap.xml
Host: www.gosha.me

{кошерно}

User-agent: *
Crawl-delay: 4
Disallow: /libraries*
Disallow: /*comment*
Disallow: /includes
Disallow: /profiles
Disallow: /modules
Disallow: /contact
Disallow: /scripts
Disallow: /themes
Disallow: /search
Disallow: /filter
Disallow: /*sort*
Disallow: /*utm_*
Disallow: /misc*
Disallow: /user*
Disallow: /node$
Disallow: /sites
Disallow: /*?*
Allow: /sites/default/files/imce/*
Allow: /sites/default/files/images/*
Sitemap: http://www.gosha.me/sitemap.xml
host: www.gosha.me

....

Disallow: /sites*

задумался, там компиляты css лежат, которые боты иногда смотрят. меня не прикрыты поросто и вообще файлы там аплоадовые, не стоит всё же закрывать, но как хотите.

Скриптс я так понимаю тоже можно ушатать, там же девел-инструменты.

Аватар пользователя Shift-Web Shift-Web 26 мая 2011 в 12:18

"zloy-doctor" wrote:
Почему вы не закрыли полностью? Disallow: /scripts

это девелоперная примочка для проверки стайл кодинга, не несёт никакой семантически\контентно\опционально важной нагрузки на продакшн сайте. я её удаляю обычно вообще Wink

тоже самое с файлами лицензий, предпочитаю удалять после ознакомления, чтобы корень не хламился ибо туда можно другое складывать иногда.

ну и в итоге если навести марафет, роботс будет понятным, аккуратным и компактным.