fractal

Иван Сторожев


Previous Entry Share Next Entry
fractal

Вопросы тем, кто скачивает мои DJVU

Прошу ответить, мне это важно для работы.
Почти в каждую книжку я вставляю raw OCR и TOC.

Raw OCR — это распознанный, но совершенно не вычитанный текст книги. Я его внедряю в DJVU как текстовый слой. Он увеличивает размер файла, примерно на 10-30%. Позволяет делать копипаст. Кроме того некоторые локальные и серверные поисковики, например Архивариус, умеет индексировать текстовый слой. От меня усилий требует немного, но время обработки увеличивает существенно, т.к. распознавание — это процесс довольно медленный.

TOC — это оглавление, позволяющее переходить на соответствующие разделы книги одним кликом. Видно в правой панели WinDJVU или djview. Размер файла увеличивает мизерно.

Создание и того, и другого занимает у меня время, причем TOC даже больше, поскольку оглавление надо вычитывать, прежде, чем внедрять в файл.
А теперь вопрос. Кому-то эти фишки действительно нужны? Или лучше я буду делать книги быстрее и больше, но без этих фич?

Просьба ответить раздельно по Raw OCR и TOC.


  • 1
ivanov_petrov January 31st, 2012
точно не помню, кажется, я несколько раз скачивал предлагаемые книги.
Опять же не помню, пользовался ли именно при их чтении текстовым слоем. Но мне кажется, эти инструменты существенно улучшают файл. Часто можно и без них, но вот захочется скопировать цитату - и очень приятно, когда есть такая возможность. С оглавлением те же рассуждения. Мне кажется, если разница не в разы, не стоит делать больше, но картиночных книг.

hemdall January 31st, 2012
Можно и без фич, но с ними удобнее - и искать и копировать.

То что не вычитано совершенно не страшно - цитату при копировании не проблема сверить с оригиналом.

(Deleted comment)
absurdman January 31st, 2012
А какие книги не пропагандируют чего-то? Снова пытаетесь дискредитировать марксизм? Что взамен, методология "остфоршеров" или "советологов"??? Что за "западническое" отношение к пропаганде...

absurdman January 31st, 2012
Иван, мне кажется, что OCR делать стоит, а вот без TOC можно и обойтись даже в монографиях.

hardal January 31st, 2012
Raw OCR, мне кажется, сильно облегчает работу с текстом. TOC, в принципе, можно и не делать во всех подряд книжках.
PS. В любом случае, спасибо за вашу работу.

steady_man January 31st, 2012
В НЕхудожественных книжках навигация очень важна - часто нужно просто посмотреть какой-то раздел, или поискать, что есть по определенной теме (в том числе по ключевым словам). Иногда даже в читанной книжке пытаешься найти что-то смутно запомненное (чтобы уточнить или переосмыслить) и если чисто картинка, то вообще труба.
То есть оба инструмента востребованы.

Художественную же книжку можно вообще безо всего, так даже стильнее ;) Но их, опять же, обычно приятнее на бумаге читать...

И, да, спасибо за то, что делаете.

revolutionar February 1st, 2012
OCR, на мой взгляд, нужен. ТОС иногда тоже полезен, но не принципиален.

vas_s_al February 11th, 2012
Я считаю, что OCR ОЧЕНЬ нужен.
Он значительно облегчает работу по поиску и копированию.
Особенно поиск!
Прочёл книжку, что-то понравилось, страницу не запомнил - как найти?
Кроме того, слой текста можно экспортировать в .тхт файл и читать его на любой электронной книжке, которая Дежавю не понимает. Там, конечно, очепятки, но если речь не идёт о формулах и математике, всё вполне читабельно (я так сейчас Корнфорта читаю).

TOC, на мой взгляд, не особо нужен.
Можно просто открыть лист с оглавлением.


volklarson February 28th, 2012
Полагаю, что не надо ничего менять ибо данный вариант предоставляет дополнительные удобства пользователю,
чем и отличает Вас в лучшую сторону от других :))
Спасибо за работу!

permbook April 2nd, 2012
Лучше делать и с OCR и с TOC.

  • 1
?

Log in

No account? Create an account