Кто делал электронные книги?

Делали ли вы электронные книги?


  • Total voters
    186
Status
Not open for further replies.

Egoizte

ex-Team DUMPz
Народ часто жалуется на плохой скан книг или еще какие-либо проблемы. Конечно каждый считает, что если уж делать, то делать надо хорошо.

Собственно вопрос такой. Кто своими руками сделал хоть одну электронную книжку? Поделитесь пожалуйста опытом, мыслями, насколько было качественно сделана книга и т.д.?
 
L

landhot

Гость
Есть книги, которых нет в продаже по той или иной причине. Зато они есть у кого то на руках. Для Эстонии такой вариант характерен. Искал книги по настольному теннису, ничего не нашел. Зато у знакомого были аш три книги, сейчас сижу сканю для личных нужд. Качество? Наверное не конфетка, зато инфа под рукой. Формат Dvju по моему не плохо в соотношении качество - размер. Вот так.
Respect.
 

di35e1

Турист
было как то дело, небольшая книшка была, страница 50 наверно, отсканил, распознал, сделал pdf с закладочками на главы, красота :) делал за деньги. вообще я не сторонник эл книг, предпочитаю пойти и купить аналоговую :)

если уж делать, то делать надо хорошо
если бы каждый так считал то наверно бы и делал, мне кажется многие кто делают об этом не задумываются, и сами врядли читают свои книги

а некоторые вообще чайники, посчитали, что купили крутую книгу, вообразили себя мегатимойхакеров и давай наяривать на сканере, понятия не имея даже о форматах графики, о том насколько это будет читабельно и вообще...

и вообще злой я седня
 

nirvan0id

<font color="gray"><b>Почетный форумчанин</b></fon
Я сканил пару книг. Николенко "Практические занятия по JavaScripr" и Кухарчика "PHP обучение на примерах". О качестве вам судить (книги можете найти в соответствующих разделах. Обе сканил, распознавал, проверял (фактически перечитал поновой). Хлопотно? Конечно. Особенно удивляет работа редакторов издательств. Такое количество грамматических и синтаксических ошибок, которые я исправил, ошеломляет...
 

Egoizte

ex-Team DUMPz
nirvan0id, согласен. Качественно сделать книгу - значит ее перечитать.
Я отсканировал уже третью книгу. Первые две были по боевым искусствам, ничего особенного я с ними не делал, просто аккуратно отсканировал и загнал в джвю. Третью книгу, на компьютерную тематику, решил сделать как полагается. Так что сейчас сижу и перечитываю книгу :) , работы много... Отсканировать книгу можно очень быстро, а вот привести ее к хорошему виду еще надо немало потрудиться!
 

Ognev

Premium
Premium
Особенно удивляет работа редакторов издательств. Такое количество грамматических и синтаксических ошибок, которые я исправил, ошеломляет...
Ну вообще то это работа корректоров. А ошибки зачастую идут уже потом - при наборе.

А по теме хочу сказать, что далеко не все можно нормально распознать. Возьмите, например, учебник по матану и попробуйте распознать. Так что, djvu-шный формат (с приемлемым качеством) - оптимальный imho вариант для быстрого создания электронных версий, идентичных хард-копиям. Еще один довод в пользу такого подхода (кроме быстроты) - если кому то нужна удобная навигация, пусть сам ее и делает. Хочет распознает, хочет просто пристраивает оглавление. С точки зрения технологии, это наиболее грамотный подход. ... Хотя, конечно, стремление к прекрасному это здорово :) И каждый между ремеслом и искусством выбирает сам :)
 

Egoizte

ex-Team DUMPz
А по теме хочу сказать, что далеко не все можно нормально распознать. Возьмите, например, учебник по матану и попробуйте распознать.
Конечно есть такие книги, которые лучше только аккуратно отсканировать. Просто у нас в основном книги на компьютерную тематику, а там в принципе все поддается распознаванию.
...имеет ли смысл качать книгу с плохим качеством или заходить на этот форум ради этого (в некоторых книгах где напечатаны исходники отсутствуют знаки, больше тратится время на разбор.....) или купить бумажный вариант?
Для меня имеет. Скачав электронную книгу я уже могу с ней ознакомится, пусть даже она плохого качества. Ознакомившись с книгой я могу понять нужна она мне вообще или нет. В смысле если она мне очень нужна, то стоит ли покупать именно эту книгу. А может мне пригодится из этой книги всего одна глава... Вобщем много причин почему я качаю все книги подряд.
 

Vish666

Турист
Вообще очень приятно видеть хорошосканированную книгу. Осознаёшь сколько труда было потрачено. Когда я учился в институте, для себя я понял, что лучше всего сканить в FineReadere (картинки получаются отчётливые, я думаю там работают достаточно сильные алгоритмы (фильтры), и мало весят речь про jpg). Развиваю тему далее этот jpg надо бы конвертнуть в DjVu. DjVu Editor 5.0 (Pro), вроде это позволяет.
Эту связку я ещё не пробовал, но imho должно получаться отлично.
------------------------------------------------------------------------------------------------
Если очень нужна книга, или какая-то информация из неё, то подойдёт любой формат любого качества. Другое дело, обидно, если появилась книга плохосканированная, то вероятность, что кто-то её пересканирует качественно, сильно падает.
------------------------------------------------------------------------------------------------
Heralt, не могу пробиться до выложенного тобой Архангельского help me
 

Sniper777

Турист
Сканировал не одну книжку и не только (всякие справки, договора, письма и т.д.)

Что можно сказать по данному поводу?

Книги есть с любой, так сказать, фактурой. Есть книги только текстовые (таких мало), есть текстовые с графикой (особенно по граф. прогам 3D Max, Maya, Photoshop и т.п.).
Лично я сканирую несколько раз 1-5 страниц из разных мест и присматриваюсь к качеству скана - тест/картинка, перебирая при этом несколько форматов (jpg(16млн.цветов)/256 цветов(web-оптимизир.)/256 (web-не оптимизир./серый-монохромный). Если меня какой-либо удовлетворяет по качеству скана - останавливаюсь на нем.

Сканирую >300 dpi (чтобы меньше ковыряться в ошибках и тратить время на их исправление). Сканер HP USB (конечно если бы SCSI был, то сканировать было бы одно удовольствие, потому как времени на сканирование в 300 по отношению 200 dpi раза в 2-3 больше уходит).

Как-то сканировал книгу 700 страничнюю в 200 dpi примерно за 3 часа. (Повторюсь) Но количество ошибок при этом порядочно выросло.

Сохраняю скан обычно в jpg (если цветн. картинки), т.к. сжимается лучше (хотя FineReader все равно конвертирует в bmp или tiff), либо в gif или pcx (серый хорошо им сжимается). После распознавания (если такой процесс происходит) в Word и Acrobat.

P.S. Искал как-то одну книжку, а откопал другую. И эта другая (год, правда, не "свежий" :))примерно называется то ли "Профессиональный подход к сканированию", то ли "Сканирование. Профессиональный подход" не помню. Может на эту тему стоит, как моя жена говорит, "забалабасить" :) скан на 300 dpi. А у кого есть желание тот распознает для себя и поделиться с другими.

Ну, что если есть инетрес, то можно и попыжиться. А вы как думаете?
 

nirvan0id

<font color="gray"><b>Почетный форумчанин</b></fon
Vish666 said:
Если очень нужна книга, или какая-то информация из неё, то подойдёт любой формат любого качества. Другое дело, обидно, если появилась книга плохосканированная, то вероятность, что кто-то её пересканирует качественно, сильно падает.
Согласен :) На тот момент, когда на megido появилась книга Ульмана "MySQL" (~360 стр.) (качество вы, наверное, помните :)), я отсканировал и распознал ее уже наполовину... С тех пор до оставшейся половины руки так и не дойдут... :)
 

Brainman

Турист
сканировал книг достаточно много, но в и-нет стал выкладывать недавно, т.к. людям оччень нужна была одна книжка. так как она была нужна срочно, то выложил сырой скан, который в дальнейшем я вычистил и его выложили повторно. Сейчас в работе находится еще несколько книг, но работа над ними встала из-за катастрофической нехватки времени. К тому же в планах к каждой книжке в формате djvu подкладывать еще и OCR, что тоже требует времени.
 

Vish666

Турист
Brainman said:
К тому же в планах к каждой книжке в формате djvu подкладывать еще и OCR, что тоже требует времени.
Вообще OCR это очень хорошо, но каким способом крепить его к DjVu? Самый серьёзный пакет - DjVu Editor 5.0 (Pro), вроде. Распознавал в нём, какой замес он делает из русских и английских символов :) .
Я так и не смог сохранить его прикреплённым к файлу. У меня в опциях сохранения не ставится галочка чтобы сохранить вместе с OCR. Наверно из-за этого, я и не видел ещё книг с OCR.
 

pariman

ex-Team DUMPz
Скан. скан. скан...
Компьютерные книги я не сканировал... еще. Техническая литература, в основном, ну и журналы, которые вы имеете удовольствие (или не удовольствие) читать.
На Медиго, как вы помните, проскакивало очень много хороших книг MS Press и не только, но они были просто ужасного качества. Приходилось их перегонять из Акробата в картинки, а потом загонять в djvu. По размеру в десятки раз меньше, и чистые получаются, поскольку когда делаешь двухтональный, то всякие посторонние цвета уходят.
Если делать скан для последующего распознования, то однозначно меньше 300 dpi делать нельзя. Для журналов делаю разрешение 150 - при последующем перегоне и в Акробат, и в djvu (300 dpi) получается нормальное качество.
Я конечно сам как di35e1 сторонник того, чтобы покупать книги, но комп. книги стоят очень даже немало по сравнению с той же художественной литературой.

Поскольку являюсь по совместительству еще и переводчиком, то редактирование книги обстоит следующим образом:
1. Перевод (проверка и т.п.)
2. Техническое редактирование (где проверяется стилистика, соответствие общих терминов и т.п., а заодно и грамматика).
3. Общая проверка.
4. Верстка (где, в частности, еще раз все проверяется)
5. Печать
6. Выпуск
И все равно бывают много ошибок в результате. После чего по шее получают все :). Я до сих пор вспоминаю книжку одну Роберта Джордана (фэнтази), которая вышла на пике популярности его чикла "Колесо времени", в которой было такое количество ошибок, оЧеПяток, неправильно расставленных абзацев и т.п., что пришлось скачать английский вариант книжки и сравнивать, поскольку целые главы теряли смысл.

Vish666, все очень просто. Можно отсканированную книжку запустить на печать на LizardTech Virtual Printer. Он позволяет делать djvu, причем очень неплохого качества. Но поскольку, как я уже раньше говорил, формат DJVU мне не очень нравиться читать (хотя размер полученных книг значительно меньше Акробата). OCR надо переводить только в PDF, хотя есть возможность делать двухслойные djvu (картинка+текст) - удобный поиск и т.п. Сам еще точно не знаю как это делается, но скоро узнаю...
 

Msha

ex-Team DUMPz
Свой / Own
Ocr однозначно только в Pdf - удобнее, и именно Ocr будет в Pdf занимать возмоно даже меньше места.

Остальные умные мысли выскажу и проголосую завтра, что-то очень спать хочется...
 

Vish666

Турист
pariman said:
Vish666, все очень просто. Можно отсканированную книжку запустить на печать на LizardTech Virtual Printer. Он позволяет делать djvu, причем очень неплохого качества. Но поскольку, как я уже раньше говорил, формат DJVU мне не очень нравиться читать (хотя размер полученных книг значительно меньше Акробата). OCR надо переводить только в PDF, хотя есть возможность делать двухслойные djvu (картинка+текст) - удобный поиск и т.п. Сам еще точно не знаю как это делается, но скоро узнаю...
Я не писал, что не могу создать DjVu, и Virtual Printer для этих целей использовал! Не ясно, то, что Вы хотите скоро узнать.
А именно, как распознанный текст, который я называю "OCR", прикрепить к картинкам (я, кажется, про это писал)?
--------------------------------------------
Вообще надо уточнить, что OCR (Optical character recognition - Оптическое распознавание символов) - это, по сути, преобразование, но для простоты распознанный текст мы называем тоже - OCR.
--------------------------------------------
Вообще будет хорошо, если ABBYY займётся вейвлет преобразованиями и напишет что-нить типа DjVuToOffice или DjVuTransformer. Imho их продукты наиболее продвинутые в области распознавания. И русские символы с английскими они не так путают, как в LizardTech, правда это уже относится к умению работать со словарём.
--------------------------------------------
Только не надо мне обьяснять, как можно распознать DjVu и чем лучше, здесь и так всё ясно, и рассказывать мне про то, что я не спрашивал.
 
Last edited by a moderator:
Status
Not open for further replies.
Top