Кто делал электронные книги?

Делали ли вы электронные книги?


  • Total voters
    186
Status
Not open for further replies.

Alex Penguin

Турист
Как я делаю e-book. Часть 1

В последнее время мне достаточно часто задают вопрос - как я делаю
книги с таким хорошим качеством (насчет качества - это мнение пишущих).
Вот я, по возможности, подробно и описал весь процесс.

Итак.

1. Сканирую с помощью IrfanView (в нем есть функция пакетного
сканирования) в комплекте с родной оболочкой сканера. Можно, конечно,
использовать и встроенные средства FineReader-а, но я как-то привык к
ирфану. Кстати, для OCR вполне достаточно разрешения 300 точек. Это, к
тому же, ускоряет процесс сканирования. У меня выходит в среднем 30
секунд на разворот. Кроме того, перед началом пакетного сканирования
делаю несколько сканов с разными настройками яркости и контрастности
чтобы было меньше мусора и текст читался четко.
2. Определяю в каком формате буду делать книгу. Если много графики или
сложное форматирование с использование нестандартных шрифтов, то делаю
DjVu. Если же графики мало или она в черно-белом формате, то можно
делать PDF.

Вариант 1. Подготовка книги в PDF
- Загоняю отсканированное в FineReader и встроенными средствами
поворачиваю страницы, а затем разбиваю развороты на отдельные
страницы и запускаю анализ макетов всех страниц для автоматического
выравнивания текста по горизонтали. После этого для дальнейшей
обработки в фотошопе беру tiff-овские файлы из пакета FineReader-а и
перегоняю их тем же ирфаном в jpeg-формат (фотошоп не признает tiff-
овские файлы после FineReader-а).
- Делаю пустую стандартную страницу на основе отсканированных
(примерно по размеру обложки за минусом переплета).
- Открываю выдранные из FineReader-а страницы в фотошопе, вставляю их
в шаблонную страницу по центру и сохраняю вновь во временный каталог.
Делаю это для того чтобы после распознавания и сохранения текста в PDF
текст на страницах располагался по центру. Можно, конечно, отценровать
текст и впоследствии при редактировании в Adobe Acrobat-е, но я привык
к такому варианту (да и при использовании быстрых клавиш в
FineReader-е это получается все-таки несколько быстрее).
- Снова загоняю уже отредактированные страницы в FineReader. При этом
страницы окончательно поворачиваются "по курсу".
- Дальнейшая обработка идет в FineReader-е. Запускаю анализ макетов
страниц. После того корректирую макеты вручную (например, удаляю
мусор, принятый программой как текст, или заменяю формат блоков таблиц
на картинки - таблицы FineReader распознает хреновенько, а средств для
их редактирования практически нет).
- Следующий этап - распознавание текста и его проверка встроенными
средствами FineReader-а. После этого вручную редактирую шрифты и
размер заголовков, шапок и номеров страниц.
- После окончания редактирования сохраняю все в PDF.
- Следующий этап - вычитка в Acrobat Reader-е. Сильно не вчитываюсь -
в основном обращаю внимание на оформление. Если что-то нахожу,
исправляю в FineReader-е. После окончания вычитки снова сохраняю все
из в FineReader-а в PDF.
- Дальше открываю текст в Акробате. Дело в том, что при конвертации в
PDF FineReader зачастую неправильно расставляет интервалы между
буквами и словами и текст превращается "вабракадарбу,которуюневозмож-
ночитать". Эту проблему и устраняю, вручную задавая инервалы в
проблемных местах с использованием средств Акробата. Если при этом
дополнительно нахожу какие-либо ошибки в тексте или оформлении,
исправляю их в FineReader-е, сохраняю отдельные страницы в
pdf-формате и заменяю их в Акробате (мой "Акробат 6 про" не дает
возможности редактировать русский текст).
- Ну и последний этап - оптимизирую размер выходного файла с помощью
Акробата и, при желании, задаю ограничения на использование книги.
Хотя снять эти ограничения проще простого - программ для этого в
и-нете достаточно.

Вариант 2. Подготовка книги в DjVu
Это будет во второй части, т.к. пока окончательно не определился с
используемыми программами.

Надеюсь, столь замороченным описанием не отпугну желающих попробовать
себя в скане книг. Можно делать их и попроще, не обращая внимание на
мое стремление доводить все до идеала.

На последок:
"КОМФОРТНОГО И БЫСТРОГО СКАНА ВСЕМ!"
 

Egoizte

ex-Team DUMPz
Alex Penguin, редактированием я занимаюсь только в ворде, в акробат идут уже готовые, отредактированные документы.
 
S

Souldrinker

Гость
Сканировал пару специфических самоучителей по джаззу. Естественно полностью распознавал и загонял в pdf с нотами в хорошем разрешении.

Считаю формат djvu, в том виде в котором его обычно используют, дерьмом. В нераспознаном тексте нельзя сделать электронный поиск. Отстутсвие закладок, кривая нумерацыя страниц. Все достоинства электронных книг сходят на нет. Годиться только для мегараритетов или превью.
 
Last edited by a moderator:

OnThink

Турист
левое распознавание

to Alex Penguin

>беру tiff-овские файлы из пакета FineReader-а и
>перегоняю их тем же ирфаном в jpeg-формат (фотошоп не признает tiff-
овские файлы после FineReader-а).

теперь понятно от чего такое левое распознование
FineReader (и все остальные распознавалки) плохо понимают jpeg,
потому что он смазывает границы

в jpeg нужно перегонять только иллюстрации (и то gif/png часто намного уместнее), тогда всё будет ок
а иначе мы имеем много книг, которые вроде можно читать, но которые текстом уже не являются, что печально,
так как никакого поиска по нему не сделаешь и конвертнуть во что-нибудь - двойная работа

а вообще лучше бы в html перегонял, а потом собирал в chm
htm2chm 3ей версии довольно удобная вещь для этого

или уж раз на то пошло - в doc, хотя и левый формат, зато текстовый

имхо трафик надо беречь

[ADDED=OnThink]1122015713[/ADDED]
PS
уж лучше бы выкладывал архив tiff'ов - и то полезнее будет
 
Last edited by a moderator:

Alex Penguin

Турист
OnThink,
что-то я не понял - при чем здесь "...много книг, которые вроде можно читать, но
которые текстом уже не являются..." и "левое распознавание". Разве я не написал, что распознаю текст и
делаю PDF-файл из которого текст можно выдернуть в любой формат - хошь DOC,
хошь CHM. Да и о размере тоже все предельно ясно сказано. Можешь сравнить
книжку из раздела "Книги по бизнесу..." ("Основы розничной торговли") с аналогичными
по объему материалами с того же Мегидо. Размеры и качество отличаются не в раз,
и не в два...
 
Last edited by a moderator:

OnThink

Турист
замечание было не конкретно о твоих результатах (тем более что оценить их трудно, потому что ты их зачем-то скрываешь от основной массы пользователей), а об общем подходе к сканированию.
Когда сканируют книги, как будто для последующей распечатки, а не для электронного использования.
Я лично не могу читать pdf на компьютере.
Меня раздражает тормозной адобовский ридер и разрывы страниц.
При обычном отсутствии оглавления это делает книгу физически нечитаемой.
Причём на КПК дело намного осложняется.

А простое преобразование PDF в CHM тебе наверное приснилось. Это преобразование скорее напоминает повторное сканирование. Вот откуда высказывание о двойной работе.
Причём с медиговскими книгами и это преобразование становится невозможным.

Повторяю: это замечание не тебе лично. Если бы я хотел написать его тебе, то послал бы персонально. Просто устал я уже от левых сканов. И как-то обидно: люди работают фактически впустую (разве что за бабло :) имхо это не делает работу полезной ). А работают они, как я понял, именно по такому сценарию, как и ты.
 

tranvask

Турист
Может кто-нибудь подскажет, как пользоваться встроенными в Acrobat 7.0 функциями распознавания текста? Там у него русского я не нашел... Может плагин какой существует?
 

DrWKD

Турист
Удивительно... Никого ни в коем случае не хочу обидеть, но почему все из ранее высказавшихся, используют в своих трудах только сканирование? Если текст исходного документа подлежит рапознавнию, то вместо сканера вполне подойдет цифровой фотоаппарат. Я лично для целей создания "ебука" имел опыт общения с 8МегаПиксельным Олимпусом (WideZoom 8080C). Очень хороший агрегат.
Берем этот продукт буржуйского гения, устанавливаем на штатив (ну или как кому удобнее), выбираем максимальное разрешение сьемки в формате tiff, крепим книгу вертикально напротив объектива, "отслюнявливаем" и "отщелкиваем" столько разворотов книги, сколько нам надо (рекомендую обзавестись гиговой CompactFlash). Далее все, что отщелкали сливаем на винт. Далее самое интересное... Предлагаем FineReader-у несколько из получившихся снимков (предварительно в фотошопе доведя dpi до требуемого уровня) . Смотрим на реакцию. Если все сносно распознается - тогда делаем для фотошопа action, увеличивающий dpi, увеличивающий резкость, устраняющий повторяющиеся дефекты и т.п. и прогоняем через этот action все файлы с отснятыми книжными разворотами.
Если в исходной книге картинки не самое главное, а текста дофига, то фотографирование реально экономит время... Главное правильно настроить свет при съемке, зафиксировать книгу и фокус.
 

diorder

Турист
Прошу прошения у всех гуру которые высказывались выше, но помоему четкое опредиление для каких целей нужна книга, существенно облегчает работу со сканером:
1. иструкция
2.Журнал
3.Обычная електроная книга с которой все сталкивались на сетевых библиотеках
Вариант первый Акробат ПРО 7 никаких проблем , все читаемо на 300 и никаких ошибок и в процессе сканирования просто добавляешь новые листы потом раставляешь закладки
Вариант второй Акробат ПРО 7 без коментариев :)))
Вариант три ABBYY FineReader 7.0 Professional Edition распознаешь и проверяешь сразу, потом сохраняешь полное оформление документа в Ворд ,и там продолжаешь долбаться уже с абзацами , шрифтами и приведение документа в приемлимый или общепринятый вид, пробовал по разному, но именно так по аматорски получаються самые оптимальные сканы книг
 

Serg104

Турист
Имхо, хороший справочник стоит очень хороших денег, но это справочник и его не надо _читать_ - раз глянул и закрыл. Для этого подходит любой, хоть эл., хоть бум. вариант, хорошего или не очень качества. Ессно если качество такое, что и текста не разобрать - то это не книга, а зря потраченное время, но если книга полезная, даже терпимого качества, то используйте что есть. И нечего камнями кидать - плохо, все плохо. Мне например больше не нравится когда работа недоделана. Пусть и отлично, но сделай до конца, а то бывает 10 листов недосканил и в комментах пишет: "...а там не интересно было...". А может интересно? Меня например раздражает... А так книга целая, ну больше она Кб на 100-200, потерпим даже пару метров... Так же не нравятся цветные картинки в черно-белом варианте... Экономия или издёвки?
 

Ruslan2000

Турист
Я делал книгу (точнее книги 3)
1 с нуля - в нете ее нет и не будет - Потому что я ее не выложу (ну пока учусь в инсте точно не выложу ибо кофедральная - по Политологии) - Делал ее гдето неделю - Но там реально Все слова распознаны все рисунки и графики перересованы заного (практически) для того чтоб лучше Читалось - Сканил в разрешении 300dpi через Finereader 6.0 - Распозновал все в ручшую (Совет при сканировании Очень плотно прижимать книгу к сканеру так как на изгибе(по середине книги) когда она толстая плохо сканируется и не распознается без ошибок - я всегда правил - так что если есть возможность РАсшивайте книги) Сохранил сначала в Ворд (для исправления граматики - так как не всегда можно про контролировать ошибки граматические - не FineReader тоже проверял но по второму разу я обнаруживал все таки ошибки - еще со временем когда стал перечитывать оказалось не иногда часть предложения начинается с Красной строки - не вовремя нажатый Интер) но потом перевел в pdf с оглавлениями(закладками)
Остальные 2 книги просто переводил из формата DjVu сделал тока закладки распозновать было в лом Тока закладки сделал (да и качество было картинок хорошое изначально)
 

Serg104

Турист
toRuslan2000 "...Сохранил сначала в Ворд (для исправления граматики - так как не всегда можно про контролировать ошибки граматические..." С заметками тоже так поступай, их читать невозможно.
Если в слове ХЛЕБ сделать 4 ошибки, то получится ПИВО
Проверяй орфографию...
 

Ruslan2000

Турист
ну без грамотен я чтож поделать)) - ну все равно вроде понятно написал
 
T

Terabyte

Гость
Хочу оцифровать одну очень инетересную компьютерную книжку =) Из техники есть сканер EPSON Perfection 1670 и фотик Nikon Coolpix 8700 (8-мегапикселей). На каком девайсе лучше делать сканы (для последующего перевода в TXT, т.к. в книге картинок нет): сканер или фотик (быстрее)?

Формат думаю лучше сделать txt, так что наверно тогда нужно будет юзать (тут вроде альтернатив нет?) Abbyy FineReader...
 
Status
Not open for further replies.
Top