Как разобрать PDF на текст и картинки

Главные вкладки

Комментарии

Аватар пользователя Gans-S Gans-S 11 марта 2010 в 23:43

1. Отношу скорее по неопытности.Нужен такой функционал для сайта на Drupal: вытащить и собрать по новой - текст и картинки, без форматирования.
2. Это Perl? Незнакомы...

Аватар пользователя mensh@drupal.org mensh@drupal.org 12 марта 2010 в 12:43

"Gans-S" wrote:
2. Это Perl? Незнакомы...

Пакет poppler (в некоторых дистрибутивах -- poppler-utils).

Этот пакет содержит утилиты: pdftops (конвертер PDF в PostScript), pdfinfo (извлекает информацию о документе из PDF), pdfimages (извлекает изображения из PDF), pdftohtml (конвертер PDF в HTML), pdftotext (конвертер PDF в текст), и pdffonts (анализатор шрифтов PDF).