"Eureka! Science News" - сайт новостей мира науки. На первый вгзляд ничего особенного, ещё один сайт на друпале, но по заявлению авторов на сайте нет людей-редакторов. AI Eureka собирает новости науки, категоризирует их, находит связи между статьями, публикует. Полностью автоматический цикл, люди пока ещё нужны для чтения статей, но это полагаю исправят в будущем.
Сделано на Drupal 5 и следующем наборе модулей:
- Simplefeed
- Views
- CCK
- Pathauto
- Global Redirect
- Imagecache
- Forward
- Panels (1.x as 2.x came a bit late for us to use, sadly)
- jLightbox
- Taxonomy access control
- Quickstats
- CAPTCHA
- Service Links
Использован SPHINX для поиска. Подробности про создание сайта в том числе про систему искусственного интеллекта читайте на drupal.org: http://drupal.org/node/261340
Комментарии
Колоночки-колонокчки-колоночки. Колоночки рулят, все должно быть в колоночках.
Много колоночек - хорошо.
Перелинковка...
интересная штука - автоматизированный сбор контента
И кстати у автора есть хорошая статья про оптимизацию загрузки сайта (YSlow) под друпал - полезно почитать
А не могли бы дать конкретный адрес?
Сильная структура
Так наши люди уже давно научились статьи автоматически тырить. Что тут особенного. Было бы по-настоящему круто, если бы искусственный интеллект писал для сайта статьи.
Сплог, в красивой обертке... И что?
А мне понравилось ) Кнопки, колонки)_
а что Simplefeed через адрес в rss-ке вытягивает всю статью с другого сайта? или это пришлось дописывать?
и еще - как он находит сам связи между статьями?
Очень красивый и продуманный сплог.
__________________________
Пенза GSM - ОПСОС Пензы
Хороший форум о мобильной связи
как он находит сам связи между статьями? - вот пожалуй самый сложный вопрос
а также теги - как прописываются теги автоматически?
P.S. хочу граббер по RSS
очень интерисует вопрос - посмотрел на Simplefeed и не понял - у вас статьи как бы полностью с дугого сайта, а Simplefeed умеет вытягивать только то что есть в RSS и не идет по ссылкам, подскажите пожалуйста - это вы просто нашли такие RSS-ки в которых статьи целиком идут или дописки делали?
Оригинал надо читать... Где автор нашел стока ссылок с полными новостями в rss - хз... Возможно, в английском сегменте хватает.
Насчет связей между статьями - опять же читаем оригинал. Вкратце - сплошная вышка (вроде на основе Теоремы Байеса — одна из основных теорем элементарной теории вероятностей, которая определяет вероятность наступления события в определенных условиях + кластеризация контента).
за связи отвечает специальный модуль - только его нет на друпале
В общем используют 2-3 модуля, только их нет в открытом доступе
Полные тексты по rss. Палю тему. Записывайте:
Есть feed. в нём есть кусок статьи и ссылка на страницу.
Выкачиваем эту страницу.
Находим 2-3-4 элемента на одном уровне в DOM-дереве в которых получается больше всего контента текстового.
Далее - из этих кандидатов выбираем тот в который попадает наш текст из rss-фида.
выбрали.
Далее получившуюся область хорошо бы "сузить". Например взяв текстовый контент в ней за 100% последовательно сужать область и смотреть "сколько пропадёт". При этом вполне можно предположить что выкрутасов CSS с перестановкой блоков нет (всётаки это уже контентная область), пожтому вполне уместно отбрасывать блоки с конца области.
Итерации будут выглядеть примерно так: сначала будет выбор между лёгкими блоками и одним тяжелым (вкоторый и попадает весь наш контент). А потом - когда опустимся достаточно глубоко - останутся только тяжелые блоки - например абзацы. ВОт тут и надо остановится и очертить границы области.
А что дальше. Дальше: начало области есть, конец области есть. Можно вырезать куски самому, а можно пойти дальше и чтобы не палиться - автоматически из шаблона сформировать трубу в йаху - он будет парсить, ну а нам останется только сливки снимать в виде rss.
Некоторые моменты опущены но додумать труда не составит.
А вобще - давно вынашиваю мысль сделать эдакий fullfeeds для сплогеров и честных людей....но гуманизм пока побеждает - в сети и так становится всё тяжелей и тяжелей искать информацию - многие области забиты мусором по самое немогу.
а я вот интересуюсь сколько будет стоить такой модуль
Даже тему открыл
дубль
Спасибо, интересный сайт.
А кто автор данного поста, неужели Axel переименовался?
Робот Admin
Но можно пойти и по простому пути.
Если человек хочет просто "тупо" сплог который черпает из десятка другого фидов контент, то можно доработать SimpleFeed (или FeedApi) таким образом чтобы при добавлении фида админ указывал регексп (или пару начальная-конечная лексема) (сделать это будет несложно)
ну и вставка в процесс сбора - чтобы робот при обработке записей фида ещё и тянул с источника страницу и вырезал по указанным выше шаблонам.
Т.к. это товар штучный и работа ручная - вполне вариант пойдёт
Вот я хочу тупо освободить лично себя от тупого копипастинга
Тему создал, пока никто не отвечает
Типа сплога что-то....