Новости науки от роборедакторов

Главные вкладки

Аватар пользователя axel axel 26 мая 2008 в 3:02

Eureka Sciense News"Eureka! Science News" - сайт новостей мира науки. На первый вгзляд ничего особенного, ещё один сайт на друпале, но по заявлению авторов на сайте нет людей-редакторов. AI Eureka собирает новости науки, категоризирует их, находит связи между статьями, публикует. Полностью автоматический цикл, люди пока ещё нужны для чтения статей, но это полагаю исправят в будущем.

Сделано на Drupal 5 и следующем наборе модулей:

  • Simplefeed
  • Views
  • CCK
  • Pathauto
  • Global Redirect
  • Imagecache
  • Forward
  • Panels (1.x as 2.x came a bit late for us to use, sadly)
  • jLightbox
  • Taxonomy access control
  • Quickstats
  • CAPTCHA
  • Service Links

Использован SPHINX для поиска. Подробности про создание сайта в том числе про систему искусственного интеллекта читайте на drupal.org: http://drupal.org/node/261340

Комментарии

Аватар пользователя Valeratal Valeratal 26 мая 2008 в 14:01

интересная штука - автоматизированный сбор контента
И кстати у автора есть хорошая статья про оптимизацию загрузки сайта (YSlow) под друпал - полезно почитать

Аватар пользователя Nick.Tereh Nick.Tereh 27 мая 2008 в 16:54

Так наши люди уже давно научились статьи автоматически тырить. Что тут особенного. Было бы по-настоящему круто, если бы искусственный интеллект писал для сайта статьи.

Аватар пользователя kiev1 kiev1 29 мая 2008 в 14:39

а что Simplefeed через адрес в rss-ке вытягивает всю статью с другого сайта? или это пришлось дописывать?
и еще - как он находит сам связи между статьями?

Аватар пользователя kiev1 kiev1 5 июня 2008 в 19:32

очень интерисует вопрос - посмотрел на Simplefeed и не понял - у вас статьи как бы полностью с дугого сайта, а Simplefeed умеет вытягивать только то что есть в RSS и не идет по ссылкам, подскажите пожалуйста - это вы просто нашли такие RSS-ки в которых статьи целиком идут или дописки делали?

Аватар пользователя KCEOH KCEOH 5 июня 2008 в 21:07

Оригинал надо читать... Где автор нашел стока ссылок с полными новостями в rss - хз... Возможно, в английском сегменте хватает.
Насчет связей между статьями - опять же читаем оригинал. Вкратце - сплошная вышка (вроде на основе Теоремы Байеса — одна из основных теорем элементарной теории вероятностей, которая определяет вероятность наступления события в определенных условиях + кластеризация контента).

Аватар пользователя Valeratal Valeratal 6 июня 2008 в 9:47

за связи отвечает специальный модуль - только его нет на друпале Lol
В общем используют 2-3 модуля, только их нет в открытом доступе

Аватар пользователя Идиот Идиот (не проверено) 6 июня 2008 в 23:44

Полные тексты по rss. Палю тему. Записывайте:
Есть feed. в нём есть кусок статьи и ссылка на страницу.
Выкачиваем эту страницу.
Находим 2-3-4 элемента на одном уровне в DOM-дереве в которых получается больше всего контента текстового.
Далее - из этих кандидатов выбираем тот в который попадает наш текст из rss-фида.
выбрали.
Далее получившуюся область хорошо бы "сузить". Например взяв текстовый контент в ней за 100% последовательно сужать область и смотреть "сколько пропадёт". При этом вполне можно предположить что выкрутасов CSS с перестановкой блоков нет (всётаки это уже контентная область), пожтому вполне уместно отбрасывать блоки с конца области.
Итерации будут выглядеть примерно так: сначала будет выбор между лёгкими блоками и одним тяжелым (вкоторый и попадает весь наш контент). А потом - когда опустимся достаточно глубоко - останутся только тяжелые блоки - например абзацы. ВОт тут и надо остановится и очертить границы области.

А что дальше. Дальше: начало области есть, конец области есть. Можно вырезать куски самому, а можно пойти дальше и чтобы не палиться - автоматически из шаблона сформировать трубу в йаху - он будет парсить, ну а нам останется только сливки снимать в виде rss.

Некоторые моменты опущены но додумать труда не составит.

А вобще - давно вынашиваю мысль сделать эдакий fullfeeds для сплогеров и честных людей....но гуманизм пока побеждает - в сети и так становится всё тяжелей и тяжелей искать информацию - многие области забиты мусором по самое немогу.

Аватар пользователя Идиот Идиот (не проверено) 8 июня 2008 в 22:33

Но можно пойти и по простому пути.
Если человек хочет просто "тупо" сплог который черпает из десятка другого фидов контент, то можно доработать SimpleFeed (или FeedApi) таким образом чтобы при добавлении фида админ указывал регексп (или пару начальная-конечная лексема) (сделать это будет несложно)
ну и вставка в процесс сбора - чтобы робот при обработке записей фида ещё и тянул с источника страницу и вырезал по указанным выше шаблонам.
Т.к. это товар штучный и работа ручная - вполне вариант пойдёт