Коллеги, нужен совет по архитектуре сайта.
Есть специализированный сайт-библиотека www.geokniga.org, на нем размещено много отсканированных книг, больше 1000, рассчитываем в течении года перевалить за 3000.
Есть мысль автоматического распознавания закачанных книг с помощью finereader CE и выкладки материала в виде html на сайт.
Вопрос: как именно выкладывать, т.е. либо хранить html отдельно в файлах и подгружать, при отображении ноды, либо запихивать html в текстовое поле.
И вот тут вопрос - finereader генерит очень грязный html код, размер каждой книги получается около 3 мб (это только html).
Нехитрый подсчет - 3000 книг по 3 мб = 9 гб html в базе через год. Что будет с производительностью? Я не профи в БД, не могу понять какую это нагрузку даст.
Если же хранить не в базе, то я не понимаю как реализовать редактирование распознаных книг. Понятно, что ошибок много, хотелось бы чтобы пользователи портала, найдя ошибку, правили материал (будут или нет - это отдельный вопрос, но функционал должен быть). И при этом нужно сохранить версионность для отката изменений, на случай, если удалили что-то не то.
Как быть?
Комментарии
Чем книга отличается от обычного документа?
9гб - не так уж и много. Здесь вопрос в хостинге.
Отличия только в объемах. Книга - 3мб, обычная page - около 30к.
А какие требования к хостингу возрастут?
сайт крутится на выделенном сервере, mysql на нем же.
В дисковом пространстве практически не ограничен.
Вычищайте html от этого мусора и храните всё в БД.
Дедика хватит