Хранение большого количества книг в html в базе, в текстовом поле - что будет с сайтом?

Главные вкладки

Аватар пользователя yfedorov yfedorov 24 ноября 2012 в 17:33

Коллеги, нужен совет по архитектуре сайта.
Есть специализированный сайт-библиотека www.geokniga.org, на нем размещено много отсканированных книг, больше 1000, рассчитываем в течении года перевалить за 3000.
Есть мысль автоматического распознавания закачанных книг с помощью finereader CE и выкладки материала в виде html на сайт.
Вопрос: как именно выкладывать, т.е. либо хранить html отдельно в файлах и подгружать, при отображении ноды, либо запихивать html в текстовое поле.

И вот тут вопрос - finereader генерит очень грязный html код, размер каждой книги получается около 3 мб (это только html).
Нехитрый подсчет - 3000 книг по 3 мб = 9 гб html в базе через год. Что будет с производительностью? Я не профи в БД, не могу понять какую это нагрузку даст.

Если же хранить не в базе, то я не понимаю как реализовать редактирование распознаных книг. Понятно, что ошибок много, хотелось бы чтобы пользователи портала, найдя ошибку, правили материал (будут или нет - это отдельный вопрос, но функционал должен быть). И при этом нужно сохранить версионность для отката изменений, на случай, если удалили что-то не то.

Как быть?

Комментарии

Аватар пользователя yfedorov yfedorov 24 ноября 2012 в 18:20

<a href="mailto:volocuga@drupal.org">volocuga@drupal.org</a> wrote:
Чем книга отличается от обычного документа?

9гб - не так уж и много. Здесь вопрос в хостинге.

Отличия только в объемах. Книга - 3мб, обычная page - около 30к.

А какие требования к хостингу возрастут?
сайт крутится на выделенном сервере, mysql на нем же.
В дисковом пространстве практически не ограничен.