Сбор информации со страниц

Главные вкладки

Комментарии

Аватар пользователя Макс К. Макс К. 28 сентября 2007 в 11:45

venom280 пишет: "Есть ли модуль, который по заданным адресам, выдергивает текст со страницы?"

Любой офф-лайновый браузер делает это.

Если Вам нужно не только дергать текст со страницы, но и публиковать его на Вашем сайте, то это может выйти боком для сайта. Особенно если владелец сайта-источника не давал на это разрешения.

Например, если хотите выдергивать выдачу поисковика Google.com и сделать на плечах Google.com на своем сайте поисковик, то рискуете нарваться на проблемы. Аренда Google.com как поисковика стоит несколько десятков тысяч долларов, ровно настолько Google.com и отомстит.

Есть более мягкий вариант, модуль Leech. Берет текст из RSS-канала с чужого сайта и публикует на своем сайте в виде полноценной статьи, можно указать ссылку на сайт-источник. В этом варианте больших обид у владельца сайта-источника нет, он ведь сам открыл RSS-канал для открытого использования. Обратная ссылка поставлена, народ может пройти на сайт-источник, дополнительный трафик сайт-источнику не помешает.

Аватар пользователя venom280 venom280 28 сентября 2007 в 14:39

Ну причем здесь оффлайновый браузер, я же говорю что для Друпала надо, тем более при чем здесь поиск google.

Поясню суть вопроса.

Есть Яндекс.Маркет. При поиске товара, показываются позиции, и у каждой позиции "цена от и цена до". Вот эти цены мне и нужны.

Меня интересует есть ли что-то подобное, как сделать самому я уже придумал. Просто не хотелось на это время тратить.

Аватар пользователя beer_destroyer beer_destroyer 28 сентября 2007 в 14:39

Вам нужно распарсить выдачу, скажем, раз в сутки и загнать это в БД. А оттуда извлекать скриптом. Загонять, в принципе, можно любым способом, я бы даже советовал Друпал к этому не приплетать. А извлекать сниппетом или как вам там угодно.

Аватар пользователя Макс К. Макс К. 28 сентября 2007 в 18:24

venom280 пишет: "при чем здесь поиск google. Есть Яндекс.Маркет. При поиске товара, показываются позиции, и у каждой позиции "цена от и цена до". Вот эти цены мне и нужны."

Что в Гугле, что в Яндексе - в обоих поисковиках нервно относятся к тому, что кто-то пытается паразитировать на их движках.

Как только Вы начнете показывать результаты выдачи Яндекса на своем сайта, на следующий же день Ваши конкуренты пойдут стучать по E-mail partner@market.yandex.ru или телефону +7 (495) 739-22-22 , что Вы пользуете движок Яндекс.Маркет без оплаты.

Или через пару дней при анализе логов сисадмины Яндекса увидят, как с какого-то IP старательно делают сотни разных запросов на Яндекс.Маркет.

Минимум, что Вы получите - это занесение Вашего сайта навечно в черные списки Яндекса.

Вот что Яндекс пишет для таких как Вы:

Лицензия на использование Яндекса:
Вы не имеете права делать автоматические запросы в Яндексе иначе как с соблюдением требований, изложенных в лицензии проекта Яндекс.XML, в частности, предварительно зарегистрировав IP-адрес вашего автомата.

Лицензия проекта Яндекс.XML:
Вы имеете право осуществлять автоматические запросы к Яндексу для получения результатов поиска с помощью XML-запроса после регистрации вашего IP-адреса. Делать автоматические запросы к Яндексу любым другим способом запрещено без предварительного согласия Яндекса.

Обратите внимание, что Яндекс даже не говорит о том, как именно можно использовать скачанную автоматически информацию или нет. Нельзя даже автоматически скачивать. А если незаконно автоматически скачаете и еще и выставите на сайте - то получите от Яндекса так, что мало не покажется.