Библиотеки для парсинга вместе с drupal.

Главные вкладки

Аватар пользователя Moel Moel 8 октября 2014 в 9:29

Использовал кто нить библиотеки типо phpquery и т.д. для парсинга через сайт? Если да то какие впечатления. Может тестировал кто-нить. Я пользую phpquery через queue API. 130-150 страниц за 2 минуты. Это два селектора + сохранение. Норм скорость или можно быстрее?

Комментарии

Аватар пользователя Moel Moel 8 октября 2014 в 23:11

"drupby" wrote:
на питоне раз в 100 быстрее чем на пыхе парсят?

Да я кстати читал вроде не очень там все хорошо с парсингом. Вообщем не лучше.
"Plazik" wrote:
http://xandeadx.ru/blog/drupal/391 использует phpquery.

Я в курсе я смотрел его код. Токо он вроде батч пользует, я queue. И много лишнего конкретно для моих задач. Проще было свои 400 строк написать.

Аватар пользователя drupby drupby 8 октября 2014 в 23:18

"ХулиGUN" wrote:
Те бенчмарки сделать?

так смотря как ты собрался парсить, может ты банально регулярками на питоне воспользуешься и будешь потом козырять, забыв в своем бенче отразить потребляемые ресурсы