Использовал кто нить библиотеки типо phpquery и т.д. для парсинга через сайт? Если да то какие впечатления. Может тестировал кто-нить. Я пользую phpquery через queue API. 130-150 страниц за 2 минуты. Это два селектора + сохранение. Норм скорость или можно быстрее?
Комментарии
http://xandeadx.ru/blog/drupal/391 использует phpquery.
на питоне раз в 100 быстрее чем на пыхе парсят?
Да я кстати читал вроде не очень там все хорошо с парсингом. Вообщем не лучше.
Я в курсе я смотрел его код. Токо он вроде батч пользует, я queue. И много лишнего конкретно для моих задач. Проще было свои 400 строк написать.
так смотря как ты собрался парсить, может ты банально регулярками на питоне воспользуешься и будешь потом козырять, забыв в своем бенче отразить потребляемые ресурсы
Будет свободное время nodejs + cheerio попробую. Вроде это все дело можно с друпалом сцепить.