robots

fel0n Пнд, 03/06/2013 - 10:37

[РЕШЕНО] Правильно настроенный robots под яшу

Всем привет!
Друзья подскажите пожалуйста как правильно настроить робота?
сейчас он видит такие ссылки как:
site.ru/articles/beginners
site.ru/articles/program
site.ru/blog и тд...
как их правильно закрыть? но что бы ссылки вида:
site.ru/articles/kak-vosstanovit-udalennye-fayly
site.ru/articles/kompyuternye-kursy-dlya-pensionerov
оставались...

Тип материала: 
Ключевые слова: 
Версия Drupal: 
0 Спасибо

Иван Пуговкин Ср, 18/04/2012 - 19:04

Запретить индексацию

Парни… запретил индексацию в роботсе:
User-agent: *
Disallow: /
Но вот таких строк в логе 90% - … "GET /calendar/2011-02-07?mini=calendar/2012-02 HTTP/1.0" 200 33949 "-" "Mozilla/5.0 (compatible; Mail.RU/2.0)" 16884 2
Значит бот майл.ру обходит запрет? Как его запретить? Хостер ругается...говорит нагрузка бешенная...

Тип материала: 
Ключевые слова: 
Версия Drupal: 
0 Спасибо

Sentrashy@drupal.org Пнд, 17/01/2011 - 04:09

Старые песни о главном: почему выкинули из индекса?

Всем доброго времени суток. Господа сеошники, подскажите, пожалуйста могло ли такое произойти.
Выбрал в качесве главного зеркала адрес с www и прописал дериктиву hosts в robots.txt но до .htaccess руки так и не дошли (не разобрался пока как там редирект сделать). Могло ли это послужить причиной того, что из 350 (примерно) проиндексированных яндексом страниц из индекса выкинули почти все, оставив 5 штук?
Как вообще можно проанализировать что привело к такому плачевному результату?

Тип материала: 
Ключевые слова: 
Версия Drupal: 
0 Спасибо

MjM@drupal.org Пт, 11/06/2010 - 09:01

Динамический robots.txt при мультисайтинге без SSI

Статья здесь: http://www.xpoz.ru/webdev/11-06-2010

Источники:
"Мультисайтинг и .htaccess: robots.txt" http://www.drupal.ru/node/14710
"Мультисайтинг и robots.txt - простое решение" http://www.drupal.ru/node/20749

На моем хостинге (it-patrol.ru) SSI не установлен (написал письмо в техподдержку - жду), так что будем работать с .htaccess
UPD: для включения надо в .htaccess добавить следующие строки:
Options +Includes
AddType text/html .shtml
AddHandler server-parsed .shtml

Я не использовал ничего нового, просто выкладываю, как это работает у меня.

В источниках предлагают включить перенаправление строкой "RewriteRule ^robots.txt$ http://%{HTTP_HOST}/robots.php [R=302,L]", но г-н VladSavitsky написал "Яндекс не видит robots.txt по редиректу.". Я проверял потом в Яндекс.Вебмастер (http://webmaster.yandex.ru/site/indexed-pages.xml?host=) - действительно не видит, и тупо перебором опций при варианте с [L,QSA] Я.ВМ увидел-таки мой robots.txt . Я не силен в .htaccess, так что можете отговорить от этого варианта.

Навороты в robots.txt и условия для разных доменов можете придумать сами.

Использую только один файл robots.php

Итак, инструкция.

Работаем только в корне хостинга (там где находятся папки drupal includes\, misc\, modules\ и т.д.).

Удалил оригинальный robots.txt (или переименуйте)

В файле .htaccess самой первой строкой добавил код:
RewriteRule ^robots.txt$ /robots.php [L,QSA]

Создал robots.php

Код файла robots.php:

<?php

header('Content-type: text/plain');

$host = $_SERVER['HTTP_HOST']; // www.site.ru или site.ru

Версия Drupal: 
2 Спасибо

Megawing Втр, 21/04/2009 - 13:28

В robots появился запрет на индексацию при использовании таксономии в навигации

В robots появился запрет на индексацию при использовании таксономии в навигации. Скорее всего он там и был, я сам ничего не писал. Соответственно Яндекс ругается на ошибки - пишет "Документ содержит мета-тег noindex"

Пример:
1. есть термин таксономии articles - если в навигации на него нажать, попадаем на страницу раздела articles с таким видом: сайт/articles, там все нормально все индексируется...
2. так как статей больше 10 (например 15), то появляется внизу ссылка "2" на продолжение, нажимаем и попадаем на страницу вида: сайт/articles?page=1
И вот в этой то странице в исходном коде и прописано в robots: meta name="robots" content="noindex,follow"

И так с каждым термином таксономии, у которого более 10 статей, вторые и третьи страницы в роботс стоит не индексировать.

Подскажите кто понимает где я накосячил и как исправить (сам ничего в роботс не запрещал).

Ключевые слова: 
0 Спасибо

WiseMan Пт, 24/10/2008 - 21:18

Мультисайтинг и robots.txt - простое решение

Всем кто знает зачем нужен robots.txt и насколько он важен для продвижения.

Нашел довольно простой способ как управлять файлом robots.txt в мультисайтинге, делая его уникальным под каждый сайт. Как раньше не догадался, а решение-то на поверхности.

Просто берем и используем SSI. Если у вас Apache.

Другими словами в robots.txt прописываем следующее:

Ключевые слова: 
Версия Drupal: 
0 Спасибо

klerk2007 Чт, 25/09/2008 - 16:51

Как "урезать" доступ ботам к сайту

Всем привет, в общем проблема такая:

У меня сайт www.gdegde.kz (движок - drupal 5.3, средняя посещаемость 2700-3000 хостов/день, максимум пользователей сколько я видел на сайте одновременно было 44, не считая гостей), на сайте часто бывает очень много анонимов(гостей, максимум сколько я видел было 250). Есть подозения что это роботы(боты) поисковиков.

Кто нибудь стлкивался с такой проблемой? Может дело в robots.txt (у меня стандартный друпаловский)? Помогите настроить.

Еще здесь читал может быть дело в ошибках 404,403 и т.д. Как их правильно настроить?

Так же дело может быть с одинаковыми страницами. Как проверить есть ли дубли страниц на сайте?

Может быть еще это с чем то связано...

Помогите кто чем может... Заранее спасибо.

Версия Drupal: 
0 Спасибо

andron13 Чт, 24/07/2008 - 17:56

Стой Яндекс стой, не вали мои сайты - заходи попозжей

robotsНе секрет, что другой раз поисковик может положить сайт на лопатки. Яндексу теперь можно запрещать насиловать сайтег. Да, свершилось. Яндекс научился читать Crawl-delay. Не пройдёт и полу-года и яндекс действительно сможет нагуглить всё.

Директива Crawl-delay и поддержка GZIP

1. Теперь вы можете управлять таймаутом, с которым поисковый робот Яндекса закачивает страницы с вашего сервера (Crawl-delay).

0 Спасибо

andron13 Вс, 11/05/2008 - 12:35

Мультисайтинг и .htaccess: robots.txt

robots.txtДля того чтобы в мульти-инсталляциях поисковики находили robots.txt делается следующее:

в корневой папке мульти-инстяллации, допустим это (как видно в ftp)

/multi/

Для начала в корневой папке создается файл robots.php со следующим содержанием:

0 Спасибо