[Решено] Ответ Яндекса и модуль Boost

Главные вкладки

Аватар пользователя yavor yavor 27 октября 2012 в 11:52

Доброго времени суток!

Три месяца назад мы задали вопрос Платонам об отсутствии индексации новых материалов на сайте. Ответ бык крайне вежлив и доброжелателен, санкций не было, страницы есть в индексе, по мере обхода робота будут проиндексированы. Запаслись терпением, проблемные страницы не трогали. На днях снова написали Платону. Объяснили в частности, что в панели ВМ появились странные названия страниц типа:

CGIWrap Error: Script Execution Failed
www.(сайт).com/content/(название ЧПУ страницы)

Еще пара таких страниц исчезла с поиска. Привожу краткий ответ СП Яндекса

«Мы проанализировали ситуацию с индексированием Вашего сайта более подробно. Дело в том, что на запрос страниц передача данных от Вашего сервера заканчивается до передачи текста сообщения. Ошибку можно увидеть, например, с помощью программы curl:

curl --compressed -i www.rivitalia.com/ > file.txt
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
24 65455 24 15756 0 0 3376 0 0:00:19 0:00:04 0:00:15 4382
curl: (18) transfer closed with 49699 bytes remaining to read

Проблема наблюдается при запросе именно сжатого контента. Ваш сервер возвращает в заголовке один размер документа:
(далее - статистика запроса к серверу)
Для главной страницы Content-Length: 65455 , при этом возвращает только 15756 байт. Рекомендую Вам обратиться к администратору Вашего сервера или сайта по вопросу устранения этой проблемы.»

Мы благодарны Платонам за подробный ответ. Теперь собственно вопросы:

Примерно за две недели до случая мы установили Boost со сжатием файлов. Долго возились с настройкой, но все пошло. Странно, что эта проблема только для робота Яндекса (в Гугле и Бинге все индексируется). На всякий скучай полностью сбросили кеш модуля и отключили Gzip page compression в настройках модуля.

У вас было такое?
Прежде чем дразнить техников хостера, хотели бы услышать ваши советы.
Премного благодарны будем!

Комментарии

Аватар пользователя yavor yavor 16 ноября 2012 в 23:50

Закрываю тему, но открываю предостережения. Итак, переписка с Яндексом дала понять, что проблема либо в хостере, либо на сайте, либо и то, и другое. Всем, кто установил модуль Boost на шареном хостинге, хочу дать совет. Модуль сложен, непредсказуем и не всегда согласуется с требованиями хостинга. К сожалению, пока вы не спросите у хостера, он вам об этом не скажет. Итак, картина следующая. Друпал кеширует и сжимает страницы (это разные вещи, если кто не разобрался). При установке Boost выключается сжатие Друпала, но Boost предлагает сжатие Gzip. Полезно, но если хостер уже сжимает файлы, то для декомпрессии используется механизм, который браузеры понимают, а боты Яндекса - не всегда. Двойной Gzip и двойной механизм Unzip - это повод для ботов Яндекса обойти сайт по причине нонсенса. Это хуже, чем запретить файлы в robots.txt. Теперь представьте себе, что новички при этом еще включают ядерное сжатие в друпале. Какой робот это будет разжимать и зачем ему это? Результат - тихо и плавно страницы выбрасываются из индекса ПС. На практике это выглядит так, как мы описали выше: сервер выдает и умывает руки, бот получает, но не все, и тоже умывает руки. Ваш сайт "летает", а в индексе вываливаются страницы и попадается запись CGIWrap Error: Script Execution Failed вместо заголовка страницы в панели ВМ.

Мы убрали Boost. Выключили сжатие Друпала и установили модуль Cach Router с опцией сохранения "файл". При запуске cron или обновлении сайта кеш стирается. Это неудобство, но его легко преодолеть запуском краулера. Самый простой способ - модуль XML sitemap (он так и так полезен). Просто включаем rebild links и через полминуты кеш восстановлен. Это можно настроить. Итого. Boost прожорливый и "ежистый" модуль, несмотря на 1025 настроек и вариантов. Он грузит БД, но не гарантирует совместимости с хостингом, уж не говоря о ПС.

Результат. Страницы вернулись в индексе Я. за 3 дня. Вас такое не устраивает? После трехмесячной головоломки? Прошу теоретиков не критиковать, ибо тема была создана 3 недели назад. А вот практика безмилостна.