Модуль Import HTML

Главные вкладки

Аватар пользователя B.X B.X 21 июня 2007 в 1:01

Итак, вы собираетесь перейти на CMS c обычного HTML-сайта? Если бы у меня кто-то такое спросил, я бы удивился. Неужели, подумал бы я, кто-то ещё создаёт свои сайты с помощью обычного HTML? И тем не менее, это так. Такие люди есть. Но даже если бы их не было, согласитесь, что иногда нужно добавить страницу или несколько страниц в Друпал. Обычных html-страниц, на которых уже есть вся информация и которую не хочется ни редактировать, ни превращать в текст, ни тем более добавлять по одной...

Совсем недавно, разговора о том, как это сделать вообще бы не было, поскольку отсутствовал модуль ответственный за импорт html-страниц, но сейчас он появился, а так как настройка его - это не совсем простая задача, то я попробую объяснить, что именно нужно сделать, чтобы этот модуль заработал. Нормально (с поддержкой всех функций) мне его заставить работать не удалось, но главную свою задачу, а именно, импорт html-файлов он выполняет, а мне больше ничего и не надо было. Самое главное, это конечно, сам модуль [url=http://drupal.org/project/import_html]Import HTML[/url]. Скачайте и установите его обычным образом. Все установки лучше делать на локальном сервере. Рассмотрим настройку этого модуля на примере локального сервера для MS Windows [url=http://www.denwer.ru]Денвер[/url].

Первым делом, установите самый новый PHP в [url=http://www.denwer.ru/dis/PHP4]Денвере[/url] (скачайте, он установит его туда, где у вас Денвер): последний файл нам и нужен... Потом найдите в \WebServers\usr\local\php\ (установочной папки Денвера) файл php.ini и раскомментируйте (уберите двоеточие) перед двумя строчками, перед extension=php_domxml.dll и extension=php_xslt.dll после этого, сохраните файл и перезапустите сервер. Далее, вам нужен Tidy. Вот [url=http://prdownloads.sourceforge.net/int64/tidy-060405-exe.zip?download]отсюда[/url] скачайте и распакуйте этот файл в папку \WebServers\usr\local\bin\.

Когда всё будет работать, просто поиграйтесь с настройками. Посмотрите, что получится, если включить или выключить ту или иную опцию. Подобавляйте контент, что не нужно удалите. Посмотрите как всё это работает. Для модуля Import_html также нужен модуль Path (входит в стандартную поставку, просто включите его на странице модулей). Вот как я всё поставил:

##########################################################
На странице Import HTML Site:

Site Root on the Server:
C:/WINDOWS/WebServers/home/localhost/www/drupal5/files/docs/
Смотря где у вас находится Денвер, если на C:/WebServers, то лишнее уберите...

Subsection to list:
Здесь оставил пусто как и было...

Зато, например, другая важная опция
Add each page to menu
requires menu.module(installed)

Работает, её нужно отключить, если вы не хотите, чтобы все материалы появились в меню (потом можно с ума сойти, чтобы тысячи материалов из одного меню перевести в другое), легче потом из таксономии создать новое меню и всё... (смотрите на скриншоте, там видно, что в меню появилось много файлов) так же, у меня не сработали сокращённые версии, он их почему-то не добавляет, но после того, как вы добавите все файлы на главную (смотрите ниже по тексту, я там написал об этом), то все сокращённые версии будут созданы автоматически, если вначале файла у вас много хтмл-тегов, то необходимо увеличить количество символов в сокращённой версии, так как хтмл-символы (хотя они и не показываются, тоже считаются)... настройки этого параметра здесь /admin/content/node-settings.

##########################################################
На странице Import HTML Settings:

в Import and Content Analysis Options у меня были такие настройки:

HTML Translation Template:
html2simplehtml.xsl (как было)

Content Tag ID:
main (как было)

Node Type for new pages:
Story

Default Input Filter:
Filtered Html (если ссылки в файлах есть, то они останутся, а всё лишнее уберётся, иначе придётся форматировать файлы отдельно, убирать лишние теги и тд, с этой настрой этого делать не надо)...

Default Document:
index.htm (как было)

File Exclusion Pattern:
(оставил как есть)

Remove table markup
Поставил галку, удаляет таблицы, если у вас там таблиц много, то тогда ставить не надо...

---------------------------------------
---------------------------------------
в Replication Options
Выключил все галки, они там, по моему, ничего не делают, но можете попробовать...

Extra File Storage Path:
files/imported/ (как было)
Надо и создать эту папку тоже, по этому пути, то есть в папке files...

Import Site Prefix:
Очистил эту опцию, ничего здесь не указывал, а то что было убрал...

У меня не заработали, например:
Imported nodes are Published?
Sets the node status. Check to have nodes published.
Imported Nodes are Promoted to front page?
Sets whether or not imported nodes are promoted to the front page.

Добавляют страницы сразу на главную и публикуют их. Не знаю почему не работает, но это не так важно. После добавления, пройдите по адресу admin/content/node (или Управление Сайтом/Содержание) и поставьте галки на всей странице и выберите Поместить на главную (одновременно и опубликуется).

User to create nodes as:
Это по умолчанию, под каким пользователем публикуются материалы, я оставил админом, а вы сами смотрите, если нужно можно публиковать под разными пользователями (для этого надо их добавить в /admin/user/user )

--------------------------------------------
---------------------------------------------
Advanced Import Tuning
Duplicate Handling:
owerwrite/merge (как было)
Эта опция позволяет или перезаписывать при добавлении такого же файла или не перезаписывать.

No Title:
set to placeholder value
Поставил это, иначе он добавляет туда лишние значения, иногда не нужно...

##########################################################
На странице Static HTML Settings:

Static file location:
files/docs/
Вообще, должно у вас быть в папке files ещё две папки, это docs (где вы будете складывать все файлы (они потом будут показаны по ссылке archive в каждом добавленном документе, поэтому удалять их отсюда не нужно) и вторая папка - это imported, туда будут добавляться другие файлы (перезаписываться из папки docs, но это будут всякие графические файлы и тд.)...

Synchronization Behaviour:
Я поставил Write on save, Read Only if file time has changed

Node Types to apply to:
Story

Show link to archive file on page
Не работает... не включай, или включай, всё равно ссылку показывает...

Use import HTML processing
Поставил сюда галку...

###################################################################

Да, кстати, вам нужно все файлы перекодировать в utf-8, это единственная кодировка, которую Друпал поддерживает. Возьмите редактор файлов [url=http://www.roxton.kiev.ua/tea_w32.html]TEA[/url] - он единственный перекодировывает (который мне известен) файлы массово. Перекодировывать там просто: Файл >> Кодировки >> Перекодировать массово. Также существует и Линукс-версия. Но с Линуксом вообще всё намного проще.

Вот собственно и всё. Вроде обо всём упомянул. Посмотрите скриншоты, быть может вам станет более наглядны некоторые моменты в настройке (на скриншотах не всегда те настройки, которые я указал в окончательных настройках выше). Да и ещё про комментарии, они почему-то остаются выключенными, несмотря на то, что для Story они включены по умолчанию. Поэтому если вам будут нужны, то придётся для каждого документа их включить (на странице документа вкладка Редактировать и внизу после формата ввода, есть меню Установки комментариев)...

Комментарии

Аватар пользователя SadhooKlay SadhooKlay (не проверено) 21 июня 2007 в 1:12

Хорошая статья.
Всё ясно и понятно.

Как всегда, вы впереди планеты всей : )

Аватар пользователя B.X B.X 21 июня 2007 в 1:41

Да самому когда-то надо было. А потом люди спросили как настраивается. Им совсем непонятно, а я всё же в Друпале немного разбираюсь, вот и попробовал. Даже сам удивляюсь, как много напечатал текста. Надеюсь, в будущих версиях этот модуль будет получше, а то половина функций почему-то не работает. Хотя, может Tidy не тот, но с другими версиями Tidy этот модуль не работал вообще.

Аватар пользователя Valeratal Valeratal 22 июня 2007 в 16:04

спасибо большое за инструкции

Несколько вопросов
Если у меня сайт уже работает на друпале и соответственно есть уже материалы
Но плагин Tidy я скорее всего не смогу поставить
Получается мне нужно сначало скопировать базу своего сайта, затем воткнуть в денвер, провести импорт а затем залить базу обратно на хостинг?

Аватар пользователя Valeratal Valeratal 22 июня 2007 в 16:58

понятно
Еще вопрос, а материалы для импорта должны быть в HTML какого вида, в смысле с тайтлами, с боди и тд? или можно просто голый код конента?

Аватар пользователя B.X B.X 22 июня 2007 в 22:30

"в смысле с тайтлами, с боди и тд? или можно просто голый код конента?"

читайте выше, я там вроде обо всём сказал:
Default Input Filter:
Filtered Html (если ссылки в файлах есть, то они останутся, а всё лишнее уберётся, иначе придётся форматировать файлы отдельно, убирать лишние теги и тд, с этой настройкой этого делать не надо)...

"Спасибо Владимир, хоть кто-то в этом разбирается"

в принципе, там ничего сложного, просто так получилось, что я всем этим когда-то занимался (и Денвером и Друпалом и прочими вещами), кто-то занимался другим... а когда уже примерно знаешь откуда копать, легче понять...

Аватар пользователя surok surok (не проверено) 23 июня 2007 в 11:25

Добрый день.

Спасибо большое за статью очень помогла запустить модуль, без неё врятле я его увидел в действии.

Drupal поставил недавно поэтому ещё плохо в нем разбираюсь.
С помощью модуля import html решил перенести свой статичный сайт.
Появилась проблема там стоит ограничение по времени на выполнение скрипта в 30 секунд естественно он за это время не успевает выполнить процесс а как убрать ограничение немогу понять.

Выдает следующие :

Fatal error: Maximum execution time of 30 seconds exceeded in z:\home\******\www\modules\import_html\import_html.module on line 1126

Fatal error: Maximum execution time of 30 seconds exceeded in z:\home\*******\www\modules\import_html\coders_php_library\tidy-functions.inc on line 147

И как я понял тег noindex непонимает

Config: unknown option: -mark
line 108 column 19 - Error: is not recognized!

: in debug_pre(), line 95 debug.inc : in xml_tidy_file(), line 155 tidy-functions.inc : in parse_in_xml_file(), line 66 xml-transform.inc : in _import_html_process_html_page(), line 1705 import_html.module : in _import_html_import_files(), line 1513 import_html.module : in import_html_import_files_page(), line 1252 import_html.module : in menu_execute_active_handler(), line 418 menu.inc 8.57s elapsed. (856 total)

Аватар пользователя vadbars@drupal.org vadbars@drupal.org 23 июня 2007 в 12:03

Появилась проблема там стоит ограничение по времени на выполнение скрипта в 30 секунд естественно он за это время не успевает выполнить процесс а как убрать ограничение немогу понять.
Если есть доступ к php.ini, то измените параметры:
max_execution_time = 160 ; Максимальное возможное время выполнения сценария в секундах.
max_input_time = 160 ; Maximum amount of time each script may spend parsing request data

Если нет доступа,то можно добавить в скрипт модуля ini_set('max_input_time', '160');
160 - число условное, подберите нужное значение.

Аватар пользователя Surok Surok 23 июня 2007 в 23:07

Спасибо за ответ.
В php.ini я менял значения, вот только сервер не перезапустил поэтому значение не сменилось.
Сейчас всё заработало.

Аватар пользователя B.X B.X 24 июня 2007 в 18:23

Да, это я тоже забыл указать, но в принципе, PHP сам обо всём говорит, так что, там было понятно... А сервер, конечно, надо всегда перезапускать, после каждых изменений в настройках.

Аватар пользователя xseed xseed 25 июня 2007 в 11:33

Владимир, вот у меня при создании резервной копии с помощью Syphex Dumper Lite выскакивает ошибка. То есть захожу под своей учетной записью, дальше выбираю Backup / Создание резервной копии БД, метод GZip, степень 7, поле фильтр оставляю пустым. После нажатия применить получаю:
-----------------------
2007.06.25 10:32:22
Возникла ошибка!
fopen() [function.fopen]: Unable to access backup/dumper.cfg.php (2).

Где взять этот dumper.cfg.php?
Может фильтр какой нужен?
-----------------------
"Неужели ... кто-то ещё создаёт свои сайты с помощью обычного HTML? ... Такие люди есть."
-----------------------
Да, а так же еще есть люди типа меня, которые до этого не знавши о CMS, пользовались заметочными утилитами типа Mybase Desktop Edition (http://www.wjjsoft.com). Эта утилита имеет удобный интерфейс по созданию одноуровневой древовидной иерархии документов, типа Проводника, но не более. Позволяет прикреплять файлы, захватывать html. Это я, прочитав статью Сергея Голубицкого из "Компьютерры", перешел на нее 2 года назад. Вот и насохранял несколько тысяч html'ек.
Потом Сергей Голубицкий перешел на более мощный ContentSaver (многоуровневую иерархию), а оказался пасс и просто стал интересоваться технологиями сбора данных, и CMS. И вот так вышел на Drupal.

Аватар пользователя xseed xseed 25 июня 2007 в 11:39

Достоинство таких утилит - удобство для пользователя, и то не всегда. Недостатков очень много: проприетарный формат базы документов, отсутствие единого стилевого оформления, в конце концов отсутствие поддержки веб-технологий для организации материалов и др., пр., тр.

Аватар пользователя B.X B.X 25 июня 2007 в 19:19

"Возникла ошибка!
fopen() [function.fopen]: Unable to access backup/dumper.cfg.php (2)."

скорее всего у вас или не настроены права или Save Mode в PHP включен или не настроены временные пути (хотя, это сомнительно)...

прочитайте документацию по скрипту Sypex Dumper на странице разработчика...

"Достоинство таких утилит - удобство для пользователя, и то не всегда. Недостатков очень много: проприетарный формат базы документов"

это вы про какие утилиты говорите? ContentSaver? Первый раз слышу о нём, так что ничего не могу сказать по этому поводу.

Аватар пользователя xseed xseed 29 июня 2007 в 12:57

"2007.06.25 10:32:22
Возникла ошибка!
fopen() [function.fopen]: Unable to access backup/dumper.cfg.php (2)."
----------------------
Нашел причину: надо было просто создать поддиректорий backup...

Аватар пользователя xseed xseed 29 июня 2007 в 14:03

Вот какая проблема с этим меня волнует уже наверное месяцев пять, пока я изучаю Drupal - это другая ошибка. Как говоришь - у вас все заработало. А у меня почему-то не работает этот Tidy ни дома, ни на работе.
Когда tidy.exe в папке usr/local/bin нет - пишет:
HTMLTidy executable is not available. Couldn't find tidy binary anywhere!
Когда tidy в папке есть - пишет:
HTMLTidy executable is not available. Found 'tidy' binary, but it didn't run right. /usr/local/bin/tidy.exe -v failed to respond correctly.
Пробую запустить файл из командной строки:
tidy -v
- все нормально, отклик проходит - пишет: HTML Tidy for Windows released on 14 February 2006.
Причем пробовал под denwer и даже специально ставил drupal под XAMPP (правда там пути шли относительно папки htdocs) - все равно одно и то же.
Я уже просто отчаялся с этим модулем, никак не могу его запустить, - может что блокирует этот tidy.exe-файл. Может, что с правами на папки?
Обновил PHP до версии 4.4.4 2006-12-18, как и требовалось. Может быть нужен PHP5?

Аватар пользователя xseed xseed 29 июня 2007 в 13:43

Думал, что с правами администратора. Пробовал сначала с правами первого пользователя сайта, потом создал роль администратора, отметил все галки на странице изменения прав - не помогает.
Будем пытаться дальше...
HTMэля у меня много, надо же его как то упорядочить - я же хочу использовать Друпал и для собственных целей, как заметочную утилиту для упорядочивания найденного, будем к этому стремиться.

Аватар пользователя xseed xseed 30 июня 2007 в 15:05

Почти нашел причину.

WINXP ver.32
AMD_XP Processor

Перешел на PHP5, - не помогло. Но нашел, проблема была в том, что был включен безопасный режим в php.ini. После установки safe_mode=off заработало, ошибка Found 'tidy' binary, but it didn't run right исчезла.

--На PHP4 не проверял.--

На всякий случай скопировал php_tidy.dll с сайта ru.php.net (вышел через http://www.coggeshall.org/oss/tidy/) как раз для версии PHP 5.1.2, что в составе Денвера.

На всякий случай также поставил:
disable_functions = cmd,passthru,proc_open,shell_exec
; ,system <= this is what I commented out : - )
- Эти функции не будут выполняться при отключенном безопасном режиме.

Но на XAMPP это не прокатило. Кстати, корневой каталог там /XAMPP, а не /htdocs, и ошибка остается, без safe_mode не рбт.

Да, в дистрибутиве Денвера PHP_5.1.2 отсутствует модуль php_domxml.dll. Я скопировал его из XAMPPа, но когда раскомментировал строку в php.ini и перезапустил сервер - импорт выдал fatal error. Мне кажется, этот модуль отвечает за DOM очистку страницы? Пришлось его закомментировать, надо посмотреть еще этот модуль в официальном дистрибутиве php.

Аватар пользователя B.X B.X 1 июля 2007 в 2:08

ну, вот и хорошо, разобрались... а Safe Mode надо действительно отключать сразу же... совершенно ненужная функция, тем более для локального сервера...

Аватар пользователя xseed xseed 7 сентября 2007 в 15:37

Вот еще одна проблема, которая возникла у меня из-за неправильной работы PECL расширения domxml.dll. Дело в том, что при включении этого расширения импорта не происходит, а после выбора файлов и нажатия кнопки "Import" (в /admin/import_html/list_filesystem) выскакивает белый экран по адресу /admin/import_html/import_files.
Как говорил выше, не получилось у меня с импортом в php4, поставил себе php5.
Да, в php5 отсутствует модуль xslt.dll (php или pecl - не понял), но зато есть php-модуль xsl.dll, который вроде его заменяет. Как заверяет разработчик Import_HTML Dan Morrison, что при php5 с данным модулем меньше проблем. Вобщем, импорт у меня произошел только при включении расширения xsl.dll в php-ini: без него сразу требует "Need to try and dynamically load XSL extension". Включил xsl и вот посыпались ошибки:
trouble-0004.png
trouble-0005.png
При этом логах сервера пишет:
PHP Fatal error: Call to undefined method domdocument::loadXML() in I:\\drupal-on-a-stick\\var\\www\\sites\\all\\modules\\import_html\\coders_php_library\\xml-transform.inc on line 96, referer: _http://localhost/admin/import_html/list_filesystem
Включил DOMXml. Результат - белый экран, - и импорта нет, и все равно в логах Апача следущее:
...
[Thu Sep 06 23:06:50 2007] [notice] Disabled use of AcceptEx() WinSock2 API
PHP Notice: Constant XML_ELEMENT_NODE already defined in Unknown on line 0
PHP Notice: Constant XML_ATTRIBUTE_NODE already defined in Unknown on line 0
PHP Notice: Constant XML_TEXT_NODE already defined in Unknown on line 0
... много таких строк
[Thu Sep 06 23:06:50 2007] [notice] Child 1300: Child process is running
[Thu Sep 06 23:06:50 2007] [notice] Child 1300: Acquired the start mutex.
[Thu Sep 06 23:06:50 2007] [notice] Child 1300: Starting 42 worker threads.
[Thu Sep 06 23:06:50 2007] [notice] Child 1300: Listening on port 80.
И опять:
[Thu Sep 06 23:08:04 2007] [error] [client 127.0.0.1] PHP Fatal error: Call to undefined method domdocument::loadXML() in I:\\drupal-on-a-stick\\var\\www\\sites\\all\\modules\\import_html\\coders_php_library\\xml-transform.inc on line 96, referer: _http://localhost/admin/import_html/list_filesystem
----------------------
Я правильно понял, что предупреждения вида DOMDocument::loadXML() происходят из-за отсутствия domxml.dll?
Как правильно установить расширение domxml? Нужно ли прописывать какие-то конкретные параметры директивы в php-ini для корректной работы этого расширения? В каком порядке должны следовать строки extension=php_xsl.dll и extension=php_domxml.dll. Может, у кого под Линуксом пашет без ошибок - там же другие:
extension=xsl.so и extension=domxml.so,
или типы расширения (.dll/.so) и ОС для php не играют никакой роли?
Вот еще есть модуль PHP - php_tidy.dll - его нужно включать в php.ini и какие у него параметры работы?
----------------------
Но при отключенном domxml импорт происходит - видно, tidy работает, вот примеры:
1. Удаляет пробелы между тэгами:
< /р> <р>Итак, вы собираетесь перейти ...
< /р><р>Итак, вы собираетесь перейти ...
2. Завершает тэги:
Extra File Storage Path:<Ьr>
Extra File Storage Path:<Ьr/>
3. Меняет тэги местами:
< sмаll><р>Администратор сайта «Drupal — Россия»< /р>< /sмаll>
<р>< sмаll>Администратор сайта «Drupal — Россия»< /sмаll>< /р>
...
и т.д.
Т.е. делает импортируемый html чище.
Но кажется, с DOMXml он работал бы лучше... Вот эта ошибка например, с чем связана, не ясно:
trouble-0006.png
----------------------
Кто знает, можно ли (и как) настроить фильтры входного html кода. Я правильно понимаю, что это делается с помощью xsl шаблонов, расположенных в папке модуля Import HTML? И вообще, как происходит фильтрация, использует ли tidy xsl или сам подбирает шаблоны, подгоняя код под стандарты W3C? Можно ли в дополнение к tidy использовать свои фильтры? Вот хотелось бы узнать, как, конкретно, удалить из кода аттрибут class="", про использование регулярных выражений и т.д.
У кого какие мысли. Кто чем может поделиться по этому поводу?
PS: Ну то, что импортируемые файлы никаким боком не прицепляются к модулю upload, это как и для других внешних модулей (типа импорта изображений), не есть гуд. Сразу стало понятно, что при удалении материалов придется эти файлы удалять вручную. Главное что импорт HTML есть, я уже только этому рад.

Аватар пользователя B.X B.X 7 сентября 2007 в 21:36

Вообще, я бы вам советовал заранее очистить HTML код от мусора, лишних class, ID и тому подобного. Сделать это можно всё тем же редактором ТЕА, но есть и другие инструменты.

Вообще же, я привёл точные действия, которые нужно осуществить, чтобы всё заработало. Вы работали на другой платформе вообще, с другими параметрами. Как я вам могу сказать, что у вас не работает и какие у вас кофигурации? Тест проводился совсем по-другому, я всё подробно описал. Тестов от разработчика нет, нет даже вменяемого README. Так что, сомневаюсь, что я могу вам чем-то помочь.

Аватар пользователя xseed xseed 8 сентября 2007 в 17:51

А у вас-то заработало вместе с модулем domxml? Белый экран - это, наверное для php мало памяти... Хотя пишут, что php is CPU limited, при чем тут память... Как поставить, помогите, плиз... киньте линку

Аватар пользователя B.X B.X 8 сентября 2007 в 19:29

Вы статью внимательно читали?

"Потом найдите в \WebServers\usr\local\php\ (установочной папки Денвера) файл php.ini и раскомментируйте (уберите двоеточие) перед двумя строчками, перед extension=php_domxml.dll и extension=php_xslt.dll после этого, сохраните файл и перезапустите сервер."

Аватар пользователя igdrasil@drupal.org igdrasil@drupal.org 8 сентября 2007 в 19:34

во-первых: пхп4 уже неактуален, оффициально объявлено о прекращении его поддержки
во-вторых: друпал7 будет разрабатываться для пхп5.2 (или 6?)
в третьих, все ошибки дампера связаны только с настройками вашего хостинга (или локалхоста)
но уж на домашнем компе получать белый экран мне не удавалось...

Аватар пользователя B.X B.X 8 сентября 2007 в 20:25

Причём здесь пхп4 и его неактуальность? Речь о модуле импортирования и связанных с ним проблемах. Друпала 6 есть ещё нету, а вы о Друпале 7... кто о чём...

Аватар пользователя igdrasil@drupal.org igdrasil@drupal.org 8 сентября 2007 в 21:00

2B.X
просто я не яляюсь яростным противником разгонки, и 70% его высказований мне нравятся, а в остальных, при любом упоминании о нем - сразу открываю корзину

Аватар пользователя B.X B.X 8 сентября 2007 в 21:28

Хм... или я чего-то не понимаю или мы говорим на разных языках...
Причём тут Макс? Где он тут упоминался? И как это связано с предыдущим комментарием о неактуальности пхп4, а также с темой?

Аватар пользователя xseed xseed 1 октября 2007 в 13:56

"Вы статью внимательно читали?"
----------------
php_xslt.dll есть только в php4. В php5 его нет.
B.X, я же написал, что пробовал расскомментировать.
Да, вы правы: если импортируемый html более менее чистый - то красные warnings при импорте пропадают.
PPS: Да, импорт файлов не будет производится, если путь к папке импортируемого сайта лежит вне пути к системной папке files:

trouble-0001.png,

поэтому весь импортируемый сайт нужно предварительно засунуть в эту папку или любую подпапку.
Хоть у меня на заглавную страницу тизеры и помещает, но ссылка на ноду неправильная http://localhost/index.html, где index.html - название импортируемого html файла. Почему у вас-то не помещает?

Сделал memory_limit = 32M побольше памяти в php.ini и грузится стало шустро, но... Включаю domxml.dll и на странице admin/import_html/settings сразу "выезжает" такое сообщение:

trouble-0000.png

При попытке сохранить настройки на этой странице - белый экран. И при импорте - снова белый экран. В логах то же самое [29-Sep-2007 13:42:15] PHP Fatal error: Call to undefined method domdocument::loadXML() in C:\drupal-on-a-stick\var\www\sites\all\modules\import_html\coders_php_library\xml-transform.inc on line 96 (правда почему без двойных \\ и referer - не известно).
Пришлось все-таки этот domxml отрубить до времен дальнейшего понимания процесса импорта и фильтрации этим модулем и того, как его использует Import_HTML. Короче, этот domxml больше конфликтует с Import_HTML, нежели поддерживает и расширяет его возможности...

Вы говорите, какая еще разная платформа? Программная? Вы же пишете, что сами использовали Win32. Далее - пакет. Я пробовал и XAMPP, и потом перешел на Денвер и работал на нем основное время, и теперь вот Drupal on a Stick хожу с флешкой, на работу - домой (запарил backup). Более менее Нормально работает только на PHP5, пакет и Mysql не влияют. Или вы имели ввиду аппаратную платформу... Что, AMD коряво обрабатывает PHP? Или домашний ПК с 512M памяти не годится для Друпала (localhost)? Сервак рекомендуете за 2-3 тыщи баксов покупать?

Аватар пользователя Valeratal Valeratal 13 октября 2007 в 15:33

Еще вопрос
В обычных HTML файлах сайта будет наверно находится и тексты шапки, меню, боковых колонок и тд
Как этот вопрос решается?

Аватар пользователя xseed xseed 16 октября 2007 в 12:43

Используйте плагин scrapbook для Firefox. Он сохраняет странички уже в utf-8. Если необходимо перевести в utf-8 уже существующие страницы, нужно использовать либо бесплатный tea, либо супер шароварный фильтр textpipe.

Аватар пользователя Makpal Makpal (не проверено) 3 апреля 2008 в 9:55

А как можно дастать все коды для Drupal? (РНР, HTML)
Если возможно скиньте, пожалуйста на мыло.

Аватар пользователя Makpal Makpal (не проверено) 3 апреля 2008 в 10:00

Как и где можно достать теги Друпала на php, и html?
Если возможно скиньте на мыло, пожалуйста!

Аватар пользователя Portnov Portnov (не проверено) 25 апреля 2008 в 10:48

А я вот переносил тупо копипастом (copy/paste). Благо, текста было не так много, да еще Файрфокс при копировании текста со страницы и вставлении его в FCKeditor не теряет форматирование (просто копирует html).

Аватар пользователя B.X B.X 23 июля 2008 в 21:36

http://harzah.net/node/869

вот ветка по этой проблеме, там мы обсуждали этот вопрос...
в пхп 5 этого нету, действительно...
я использовал Денвер2 и пхп4 для него...

вместо Денвера ещё можно установить topserver, как я понял, там всё работает и этот модуль можно использовать...

Аватар пользователя mail_fish mail_fish 21 февраля 2009 в 2:53

Спасибо. Благодаря статье все получилось. Но есть неприятные моменты в работе модуля.

line 68 column 12 - Error: < mscorlib.dll > is not recognized!
(ошибка во время импортирования)

warning: DOMDocument::loadXML() [function.DOMDocument-loadXML]: Premature end of data in tag meta line 7 in Entity, line: 304 in Z:\...\sites\all\modules\import_html\coders_php_library\xml-transform.inc on line 96.
(отображается после, страница не может быть импортирована)

В общем, если в тексте встречается < слово >, то всплывает ошибка.. Кто-нибудь встречался с подобным? Помогите советом

Аватар пользователя gerboss gerboss 23 ноября 2010 в 16:14

пытаюсь запустить на Денвере и php5, tidy скачал, в папку local/bin/ кинул, в php.ini раскоментировал строчку extension=php_xsl.dll нашел в инете саму php_xsl.dll, закачал ее в \local\php5\ext
при импорте на шаге 2 вижу (ставлю галки) импортируемой страницы и картинок к ней.
нажимаю "импорт", выдается ошибки:
* user error: No XSL library support at all on this server! in Y:\home\test22\www\sites\all\modules\import_html\coders_php_library\xml-transform.inc on line 38.
* user error: Sorry, with no XML support there will be no content scanning AT ALL. Aborting process. See the import_html_help.htm for info on enabling XML under PHP. in Y:\home\test22\www\sites\all\modules\import_html\import_html_process.inc on line 507.