Антипарсинг статей

Главные вкладки

Аватар пользователя vic7 vic7 9 мая 2011 в 18:04

Подскажите пожалуйста, как защитить любые типы материалов от парсинга ботами?

Возможно ли сделать доступ на просмотр статьи (материала) с использованием CAPTCHA?

Комментарии

Аватар пользователя vic7 vic7 9 мая 2011 в 18:19

"RxB" wrote:
Сделай статьи только авторизованным,....

меня это не устраивает,
я не хочу ограничивать доступ к контенту

Аватар пользователя vic7 vic7 9 мая 2011 в 18:49

как вариант, который может затруднить парсинг:
возможно ли сделать вывод тела (body) материала с помощью AJAX?
т.е. запугать парсер javascriptОМ

Аватар пользователя v1adimir@drupal.org v1adimir@drupal.org 9 мая 2011 в 19:03

Предлагаю решение.

Сочиняется собственная кодировка. Под эту кодировку делается шрифт. После чего при попытке скачать с сайта текст получается что-то невообразимое. А при просмотре в браузере подгружается "правильный" шрифт, который этот ужас показывает как нормальный текст.

Причем, можно сделать, чтобы работал Ctrl-C. Нужно на этот шорткак повесить обработчик, который на лету будет перекодировать выделеный текст.

Причем перекодировку utf8 -> secret_encoding можно делать на лету через input filter.

Аватар пользователя sibero sibero 9 мая 2011 в 19:09

"vic7" wrote:
Возможно ли сделать доступ на просмотр статьи (материала) с использованием CAPTCHA?

Если материал не архи полезный, то сомневаюсь, что кто то будет вводит капчу на каждой странице. Изврат.

100 % способов защиты нет, на крайний случай материал с сайта будут тащить ручками. Или наймут кликальщиков, которые за 10 центов будут парсить вручную 1000 статей))

Аватар пользователя Shift-Web Shift-Web 9 мая 2011 в 19:23

"<a href="mailto:v1adimir@drupal.org">v1adimir@drupal.org</a>" wrote:
Сочиняется собственная кодировка. Под эту кодировку делается шрифт. После чего при попытке скачать с сайта текст получается что-то невообразимое. А при просмотре в браузере подгружается "правильный" шрифт, который этот ужас показывает как нормальный текст.

Жесть

Аватар пользователя vic7 vic7 9 мая 2011 в 19:35

я не ищу 100% защиты!
я хочу CAPTCHA на просмотр или хотя бы отображение содержимого с помощью AJAX

Примечание: я не программист, т.е. хотелось бы получить готовые решения, а не "постановку задачи" неразрешимую для меня

Аватар пользователя v1adimir@drupal.org v1adimir@drupal.org 9 мая 2011 в 19:57

vic7 wrote:
...я не программист, т.е. хотелось бы получить готовые решения...

без шансов. даже если и есть такой модуль, то уверен, что он потребует шаманства с настройкой и т.п..

Аватар пользователя Crea Crea 9 мая 2011 в 19:47

Найти программиста и заплатить за решение - разрешимая для вас задача ?))
Готового нет, т.к. задача весьма специфична

Аватар пользователя Ильич Рамирес Санчес Ильич Рамирес Санчес 9 мая 2011 в 20:54

"Crea" wrote:
Готового нет, т.к. задача весьма специфична

есть ваирант все перевести в картинки и потерять в поиске - он не будет это говно индексировать.
все остальные варианты приведут в конечном итоге к извлечению текста.

А вот если контент будет интересный - то забить болт. еще вариант - внутрь статей втыкать копирайты и ссылки на себя любимого перекрыв их видимость через CSS. новостные портлы врое так делают

Аватар пользователя Shift-Web Shift-Web 9 мая 2011 в 21:20

"Ильич Рамирес Санчес" wrote:
есть ваирант все перевести в картинки и потерять в поиске - он не будет это говно индексировать.
все остальные варианты приведут в конечном итоге к извлечению текста.
А вот если контент будет интересный - то забить болт. еще вариант - внутрь статей втыкать копирайты и ссылки на себя любимого перекрыв их видимость через CSS. новостные портлы врое так делают

Клоака. Мониторить труЪ списки IP кроулеров ПС и выдавать им самый минимальный набор данных. даже тупо без оформления. HTML + Минимальный CSS. Главное линковку сохранить и всё остальное. Но мониторить и обнвлять списки придётся регулярно + есть шанс на какогонить яшиного джеймса бонда нарваться и поиметь проблем.

Ну а то что там у не входящих в список происходит в принципе пофигу -- можно сделать хитрую логику какую-то.

Думаю, если ресурс стоящий и ни никаких обманных манёвров, то и возможные проблемы можно будет решить простой беседой с сапортом, как вариант.

Так что вопрос в том как эти вещи растащить. Можно конечно не париться, но в идеале запара стоит свеч.

В частности можно применять свои какие то методики оптимизации и не палить их широкой публике, если они есть конечно. как-то так

Аватар пользователя Shift-Web Shift-Web 9 мая 2011 в 21:22

"Ильич Рамирес Санчес" wrote:
то можно просто забить болт.

с нашим то яшей? Acute есть такой шанец что потом этим же болтом будет бить по лбу. можно конечно и на него забить Smile я бы с удовольствием, если честно. у них кстати проблемы в последнее время

Аватар пользователя vic7 vic7 11 мая 2011 в 0:55

Решил проблему с помощью гугла, документации по PHP и javascript Sad

Для предпросмотра сделал отображение картинкой (php imagettftext),
для просмотра использовал извращенно-заполненный массив (PHP) , который разворачиваю на стороне клиента javascriptОМ

Аватар пользователя Ильич Рамирес Санчес Ильич Рамирес Санчес 11 мая 2011 в 1:01

"vic7" wrote:
Для предпросмотра сделал отображение картинкой (php imagettftext),
для просмотра использовал извращенно-заполненный массив (PHP) , который разворачиваю на стороне клиента javascriptОМ

да это старый способ антикопипаста.
ты в индексации проиграешь. гугл не будет видеть текста в теле страниц. ЖОПА одним словом.

а спиздить контент у тебя будет раз плюнуть слегка дополнив парсер Ж)

Аватар пользователя vic7 vic7 11 мая 2011 в 1:06

"Ильич Рамирес Санчес" wrote:
ЖОПА одним словом.
не совсем, контент своеобразный,т.е. мне пох.. на индексацию

"Ильич Рамирес Санчес" wrote:
а спиздить контент у тебя будет раз плюнуть слегка дополнив парсер Ж)
не спорю, мне главное школоту отсеять