Новости науки от роборедакторов

Главные вкладки

axel 26 мая 2008 в 3:02

"Eureka! Science News" - сайт новостей мира науки. На первый вгзляд ничего особенного, ещё один сайт на друпале, но по заявлению авторов на сайте нет людей-редакторов. AI Eureka собирает новости науки, категоризирует их, находит связи между статьями, публикует. Полностью автоматический цикл, люди пока ещё нужны для чтения статей, но это полагаю исправят в будущем.

Сделано на Drupal 5 и следующем наборе модулей:

Simplefeed
Views
CCK
Pathauto
Global Redirect
Imagecache
Forward
Panels (1.x as 2.x came a bit late for us to use, sadly)
jLightbox
Taxonomy access control
Quickstats
CAPTCHA
Service Links

Использован SPHINX для поиска. Подробности про создание сайта в том числе про систему искусственного интеллекта читайте на drupal.org: http://drupal.org/node/261340

Drupal5

Так наши люди уже давно научились статьи автоматически тырить. Что тут особенного. Было бы по-настоящему круто, если бы искусственный интеллект писал для сайта статьи.

Resistant 27 мая 2008 в 19:02

Сплог, в красивой обертке... И что?

Скидка (не проверено) 28 мая 2008 в 7:50

А мне понравилось ) Кнопки, колонки)_

kiev1 29 мая 2008 в 14:39

а что Simplefeed через адрес в rss-ке вытягивает всю статью с другого сайта? или это пришлось дописывать?
и еще - как он находит сам связи между статьями?

BSVC 5 июля 2008 в 10:30

Очень красивый и продуманный сплог.

__________________________
Пенза GSM - ОПСОС Пензы
Хороший форум о мобильной связи

Valeratal 3 июня 2008 в 12:06

как он находит сам связи между статьями? - вот пожалуй самый сложный вопрос

Valeratal 3 июня 2008 в 12:17

а также теги - как прописываются теги автоматически?
P.S. хочу граббер по RSS

kiev1 5 июня 2008 в 19:32

очень интерисует вопрос - посмотрел на Simplefeed и не понял - у вас статьи как бы полностью с дугого сайта, а Simplefeed умеет вытягивать только то что есть в RSS и не идет по ссылкам, подскажите пожалуйста - это вы просто нашли такие RSS-ки в которых статьи целиком идут или дописки делали?

KCEOH 5 июня 2008 в 21:07

Оригинал надо читать... Где автор нашел стока ссылок с полными новостями в rss - хз... Возможно, в английском сегменте хватает.
Насчет связей между статьями - опять же читаем оригинал. Вкратце - сплошная вышка (вроде на основе Теоремы Байеса — одна из основных теорем элементарной теории вероятностей, которая определяет вероятность наступления события в определенных условиях + кластеризация контента).

Valeratal 6 июня 2008 в 9:47

за связи отвечает специальный модуль - только его нет на друпале
В общем используют 2-3 модуля, только их нет в открытом доступе

Идиот (не проверено) 6 июня 2008 в 23:44

Полные тексты по rss. Палю тему. Записывайте:
Есть feed. в нём есть кусок статьи и ссылка на страницу.
Выкачиваем эту страницу.
Находим 2-3-4 элемента на одном уровне в DOM-дереве в которых получается больше всего контента текстового.
Далее - из этих кандидатов выбираем тот в который попадает наш текст из rss-фида.
выбрали.
Далее получившуюся область хорошо бы "сузить". Например взяв текстовый контент в ней за 100% последовательно сужать область и смотреть "сколько пропадёт". При этом вполне можно предположить что выкрутасов CSS с перестановкой блоков нет (всётаки это уже контентная область), пожтому вполне уместно отбрасывать блоки с конца области.
Итерации будут выглядеть примерно так: сначала будет выбор между лёгкими блоками и одним тяжелым (вкоторый и попадает весь наш контент). А потом - когда опустимся достаточно глубоко - останутся только тяжелые блоки - например абзацы. ВОт тут и надо остановится и очертить границы области.

А что дальше. Дальше: начало области есть, конец области есть. Можно вырезать куски самому, а можно пойти дальше и чтобы не палиться - автоматически из шаблона сформировать трубу в йаху - он будет парсить, ну а нам останется только сливки снимать в виде rss.

Некоторые моменты опущены но додумать труда не составит.

А вобще - давно вынашиваю мысль сделать эдакий fullfeeds для сплогеров и честных людей....но гуманизм пока побеждает - в сети и так становится всё тяжелей и тяжелей искать информацию - многие области забиты мусором по самое немогу.

Valeratal 7 июня 2008 в 9:38

а я вот интересуюсь сколько будет стоить такой модуль
Даже тему открыл

Valeratal 7 июня 2008 в 9:40

дубль

Dimm 7 июня 2008 в 10:20

Спасибо, интересный сайт.
А кто автор данного поста, неужели Axel переименовался?

axel 21 июня 2008 в 12:11

Робот Admin

Идиот (не проверено) 8 июня 2008 в 22:33

Но можно пойти и по простому пути.
Если человек хочет просто "тупо" сплог который черпает из десятка другого фидов контент, то можно доработать SimpleFeed (или FeedApi) таким образом чтобы при добавлении фида админ указывал регексп (или пару начальная-конечная лексема) (сделать это будет несложно)
ну и вставка в процесс сбора - чтобы робот при обработке записей фида ещё и тянул с источника страницу и вырезал по указанным выше шаблонам.
Т.к. это товар штучный и работа ручная - вполне вариант пойдёт

Valeratal 9 июня 2008 в 9:54

Вот я хочу тупо освободить лично себя от тупого копипастинга
Тему создал, пока никто не отвечает

sayw (не проверено) 9 июня 2008 в 20:39

Типа сплога что-то....

Drupal Drupal на русском

Новости науки от роборедакторов

Главные вкладки

Комментарии