ЛИТЕРАТУРА >>
тема: djvu/PDF или OCR?
автор темы:
Айы
цитировать
Есть у меня несколько книг по тематике моего сайта отсканированных и вот думаю, а надо ли OCR делать? канал почти у всех сейчас хороших, может просто djvu или PDF с отсканированными страницами выложить?

Вы бы что предпочли, чтобы на сайте по интересной вам тематике сразу появилось много сканов книг или чтобы книги появлялись 1 в месяц, но в виде нормального текста с картинками, который можно скопировать, спокойно распечатать с любым размером шрифта и т.п.?

Тема создана: 2007.06.10 13:28 MSK
Administrator цитировать
Если книга без иллюстраций и в хорошем состоянии, то скорость OCR = скорости сканирования. Даже быстрее - на современном компьютере распознание текста идет быстрее, чем возвращается каретка обычного сканера. Минимальная правка, вычитка не нужна и книгу в виде нормального текста можно выкладывать. При сноровке в день легко можно делать 500-700 страниц.
DJVU полезен тогда, когда книга имеет много иллюстративного материала: картинок, таблиц, символов и пр. При этом он все равно требует сканирования книги и минимальных усилий по чистке сканов: удаление шума, границ и далее оптимизации размера конечной DJVU-книги (а по нормальному, еще минимального редактирования: внедрения OCR-слоев, ссылок и пр.) Знаний при этом требуется не меньше, чем для освоения FineReader-а. Полученная книга в формате DJVU не очень удобна для чтения: шрифт нечеткий, особенно если изначально книга плохо пропечатана, смене/увеличению не поддается, поиска нет, цитирование невозможно, дальнейший OCR затруднен, иллюстрации чаще всего расплывчаты, размеры книги подчас велики, для чтения нужны специальные программы. Короче, "книжка для бедных".
И самое главное: развивать библиотеку на формате DJVU нельзя, т.к. это коммерческий формат, за его использование нужно платить отчисления.
Для ч/б графики существует старая добрая неплохая альтернатива DJVU: многостраничный TIFF сжатия CCITT3 (это то сжатие, что использует в пакете FineReader). Несколько нажатий кнопок в ACDSee (для склеивания изображений в один файл) и имеем на выходе файл, читаемый стандартными средствами MS Windows, размера не больше DJVU и при этом сжатие без потерь (в дальнейшем при желании можно сделать OCR).
Что же касается PDF, это формат, "заточенный" для полиграфии, а не для чтения. Хотя лишен многих недостатков DJVU (если изначально PDF верстался, а не просто в PDF конвертированы картинки). В частности, есть хорошие шрифты для чтения, легко сделать поиск, цитирования и OCR, более стандартизован.
Поэтому не надо противоставлять одно другому: DJVU-библиотек "обычных" книг не появиться, потому что они проигрывают "обычным" библиотекам с HTML/DOC/FB2/TXT и пр. форматам.

Сообщение создано: 2007.06.13 16:42 MSK | Исправлено: 2007.06.14 14:00 MSK
ПРИНИМАТЬ УЧАСТИЕ В ВИРТУАЛЬНЫХ КОНФЕРЕНЦИЯХ (ФОРУМАХ), ВЫ СМОЖЕТЕ ТОЛЬКО ПОСЛЕ ТОГО, КАК СТАНЕТЕ ЗАРЕГИСТРИРОВАННЫМ ЧИТАТЕЛЕМ
ЗАПИСАТЬСЯ В БИБЛИОТЕКУ

ЕСЛИ ВЫ ЯВЛЯЕТЕСЬ ЗАРЕГИСТРИРОВАННЫМ ЧИТАТЕЛЕМ, ТО ВАМ НЕОБХОДИМО ВОЙТИ В СИСТЕМУ СО СВОИМИ УЧЕТНЫМИ ДАННЫМИ
ВХОД В БИБЛИОТЕКУ