Кто делал электронные книги?

Alex Penguin · Jul 17, 2005

Как я делаю e-book. Часть 1

В последнее время мне достаточно часто задают вопрос - как я делаю
книги с таким хорошим качеством (насчет качества - это мнение пишущих).
Вот я, по возможности, подробно и описал весь процесс.

Итак.

1. Сканирую с помощью IrfanView (в нем есть функция пакетного
сканирования) в комплекте с родной оболочкой сканера. Можно, конечно,
использовать и встроенные средства FineReader-а, но я как-то привык к
ирфану. Кстати, для OCR вполне достаточно разрешения 300 точек. Это, к
тому же, ускоряет процесс сканирования. У меня выходит в среднем 30
секунд на разворот. Кроме того, перед началом пакетного сканирования
делаю несколько сканов с разными настройками яркости и контрастности
чтобы было меньше мусора и текст читался четко.
2. Определяю в каком формате буду делать книгу. Если много графики или
сложное форматирование с использование нестандартных шрифтов, то делаю
DjVu. Если же графики мало или она в черно-белом формате, то можно
делать PDF.

Вариант 1. Подготовка книги в PDF
- Загоняю отсканированное в FineReader и встроенными средствами
поворачиваю страницы, а затем разбиваю развороты на отдельные
страницы и запускаю анализ макетов всех страниц для автоматического
выравнивания текста по горизонтали. После этого для дальнейшей
обработки в фотошопе беру tiff-овские файлы из пакета FineReader-а и
перегоняю их тем же ирфаном в jpeg-формат (фотошоп не признает tiff-
овские файлы после FineReader-а).
- Делаю пустую стандартную страницу на основе отсканированных
(примерно по размеру обложки за минусом переплета).
- Открываю выдранные из FineReader-а страницы в фотошопе, вставляю их
в шаблонную страницу по центру и сохраняю вновь во временный каталог.
Делаю это для того чтобы после распознавания и сохранения текста в PDF
текст на страницах располагался по центру. Можно, конечно, отценровать
текст и впоследствии при редактировании в Adobe Acrobat-е, но я привык
к такому варианту (да и при использовании быстрых клавиш в
FineReader-е это получается все-таки несколько быстрее).
- Снова загоняю уже отредактированные страницы в FineReader. При этом
страницы окончательно поворачиваются "по курсу".
- Дальнейшая обработка идет в FineReader-е. Запускаю анализ макетов
страниц. После того корректирую макеты вручную (например, удаляю
мусор, принятый программой как текст, или заменяю формат блоков таблиц
на картинки - таблицы FineReader распознает хреновенько, а средств для
их редактирования практически нет).
- Следующий этап - распознавание текста и его проверка встроенными
средствами FineReader-а. После этого вручную редактирую шрифты и
размер заголовков, шапок и номеров страниц.
- После окончания редактирования сохраняю все в PDF.
- Следующий этап - вычитка в Acrobat Reader-е. Сильно не вчитываюсь -
в основном обращаю внимание на оформление. Если что-то нахожу,
исправляю в FineReader-е. После окончания вычитки снова сохраняю все
из в FineReader-а в PDF.
- Дальше открываю текст в Акробате. Дело в том, что при конвертации в
PDF FineReader зачастую неправильно расставляет интервалы между
буквами и словами и текст превращается "вабракадарбу,которуюневозмож-
ночитать". Эту проблему и устраняю, вручную задавая инервалы в
проблемных местах с использованием средств Акробата. Если при этом
дополнительно нахожу какие-либо ошибки в тексте или оформлении,
исправляю их в FineReader-е, сохраняю отдельные страницы в
pdf-формате и заменяю их в Акробате (мой "Акробат 6 про" не дает
возможности редактировать русский текст).
- Ну и последний этап - оптимизирую размер выходного файла с помощью
Акробата и, при желании, задаю ограничения на использование книги.
Хотя снять эти ограничения проще простого - программ для этого в
и-нете достаточно.

Вариант 2. Подготовка книги в DjVu
Это будет во второй части, т.к. пока окончательно не определился с
используемыми программами.

Надеюсь, столь замороченным описанием не отпугну желающих попробовать
себя в скане книг. Можно делать их и попроще, не обращая внимание на
мое стремление доводить все до идеала.

На последок:
"КОМФОРТНОГО И БЫСТРОГО СКАНА ВСЕМ!"

Egoizte · Jul 18, 2005

Alex Penguin, редактированием я занимаюсь только в ворде, в акробат идут уже готовые, отредактированные документы.

Souldrinker · Jul 21, 2005

Сканировал пару специфических самоучителей по джаззу. Естественно полностью распознавал и загонял в pdf с нотами в хорошем разрешении.

Считаю формат djvu, в том виде в котором его обычно используют, дерьмом. В нераспознаном тексте нельзя сделать электронный поиск. Отстутсвие закладок, кривая нумерацыя страниц. Все достоинства электронных книг сходят на нет. Годиться только для мегараритетов или превью.

OnThink · Jul 22, 2005

левое распознавание

to Alex Penguin

>беру tiff-овские файлы из пакета FineReader-а и
>перегоняю их тем же ирфаном в jpeg-формат (фотошоп не признает tiff-
овские файлы после FineReader-а).

теперь понятно от чего такое левое распознование
FineReader (и все остальные распознавалки) плохо понимают jpeg,
потому что он смазывает границы

в jpeg нужно перегонять только иллюстрации (и то gif/png часто намного уместнее), тогда всё будет ок
а иначе мы имеем много книг, которые вроде можно читать, но которые текстом уже не являются, что печально,
так как никакого поиска по нему не сделаешь и конвертнуть во что-нибудь - двойная работа

а вообще лучше бы в html перегонял, а потом собирал в chm
htm2chm 3ей версии довольно удобная вещь для этого

или уж раз на то пошло - в doc, хотя и левый формат, зато текстовый

имхо трафик надо беречь

[ADDED=OnThink]1122015713[/ADDED]
PS
уж лучше бы выкладывал архив tiff'ов - и то полезнее будет

Alex Penguin · Jul 22, 2005

OnThink,
что-то я не понял - при чем здесь "...много книг, которые вроде можно читать, но
которые текстом уже не являются..." и "левое распознавание". Разве я не написал, что распознаю текст и
делаю PDF-файл из которого текст можно выдернуть в любой формат - хошь DOC,
хошь CHM. Да и о размере тоже все предельно ясно сказано. Можешь сравнить
книжку из раздела "Книги по бизнесу..." ("Основы розничной торговли") с аналогичными
по объему материалами с того же Мегидо. Размеры и качество отличаются не в раз,
и не в два...

OnThink · Jul 24, 2005

замечание было не конкретно о твоих результатах (тем более что оценить их трудно, потому что ты их зачем-то скрываешь от основной массы пользователей), а об общем подходе к сканированию.
Когда сканируют книги, как будто для последующей распечатки, а не для электронного использования.
Я лично не могу читать pdf на компьютере.
Меня раздражает тормозной адобовский ридер и разрывы страниц.
При обычном отсутствии оглавления это делает книгу физически нечитаемой.
Причём на КПК дело намного осложняется.

А простое преобразование PDF в CHM тебе наверное приснилось. Это преобразование скорее напоминает повторное сканирование. Вот откуда высказывание о двойной работе.
Причём с медиговскими книгами и это преобразование становится невозможным.

Повторяю: это замечание не тебе лично. Если бы я хотел написать его тебе, то послал бы персонально. Просто устал я уже от левых сканов. И как-то обидно: люди работают фактически впустую (разве что за бабло

имхо это не делает работу полезной ). А работают они, как я понял, именно по такому сценарию, как и ты.

tranvask · Aug 2, 2005

Может кто-нибудь подскажет, как пользоваться встроенными в Acrobat 7.0 функциями распознавания текста? Там у него русского я не нашел... Может плагин какой существует?

DrWKD · Aug 9, 2005

Удивительно... Никого ни в коем случае не хочу обидеть, но почему все из ранее высказавшихся, используют в своих трудах только сканирование? Если текст исходного документа подлежит рапознавнию, то вместо сканера вполне подойдет цифровой фотоаппарат. Я лично для целей создания "ебука" имел опыт общения с 8МегаПиксельным Олимпусом (WideZoom 8080C). Очень хороший агрегат.
Берем этот продукт буржуйского гения, устанавливаем на штатив (ну или как кому удобнее), выбираем максимальное разрешение сьемки в формате tiff, крепим книгу вертикально напротив объектива, "отслюнявливаем" и "отщелкиваем" столько разворотов книги, сколько нам надо (рекомендую обзавестись гиговой CompactFlash). Далее все, что отщелкали сливаем на винт. Далее самое интересное... Предлагаем FineReader-у несколько из получившихся снимков (предварительно в фотошопе доведя dpi до требуемого уровня) . Смотрим на реакцию. Если все сносно распознается - тогда делаем для фотошопа action, увеличивающий dpi, увеличивающий резкость, устраняющий повторяющиеся дефекты и т.п. и прогоняем через этот action все файлы с отснятыми книжными разворотами.
Если в исходной книге картинки не самое главное, а текста дофига, то фотографирование реально экономит время... Главное правильно настроить свет при съемке, зафиксировать книгу и фокус.

diorder · Sep 26, 2005

Прошу прошения у всех гуру которые высказывались выше, но помоему четкое опредиление для каких целей нужна книга, существенно облегчает работу со сканером:
1. иструкция
2.Журнал
3.Обычная електроная книга с которой все сталкивались на сетевых библиотеках
Вариант первый Акробат ПРО 7 никаких проблем , все читаемо на 300 и никаких ошибок и в процессе сканирования просто добавляешь новые листы потом раставляешь закладки
Вариант второй Акробат ПРО 7 без коментариев

))
Вариант три ABBYY FineReader 7.0 Professional Edition распознаешь и проверяешь сразу, потом сохраняешь полное оформление документа в Ворд ,и там продолжаешь долбаться уже с абзацами , шрифтами и приведение документа в приемлимый или общепринятый вид, пробовал по разному, но именно так по аматорски получаються самые оптимальные сканы книг

in_fester · Sep 27, 2005

Я делал в яве а потом в трубку закачивал

Serg104 · Oct 2, 2005

Имхо, хороший справочник стоит очень хороших денег, но это справочник и его не надо _читать_ - раз глянул и закрыл. Для этого подходит любой, хоть эл., хоть бум. вариант, хорошего или не очень качества. Ессно если качество такое, что и текста не разобрать - то это не книга, а зря потраченное время, но если книга полезная, даже терпимого качества, то используйте что есть. И нечего камнями кидать - плохо, все плохо. Мне например больше не нравится когда работа недоделана. Пусть и отлично, но сделай до конца, а то бывает 10 листов недосканил и в комментах пишет: "...а там не интересно было...". А может интересно? Меня например раздражает... А так книга целая, ну больше она Кб на 100-200, потерпим даже пару метров... Так же не нравятся цветные картинки в черно-белом варианте... Экономия или издёвки?

Ruslan2000 · Oct 3, 2005

Я делал книгу (точнее книги 3)
1 с нуля - в нете ее нет и не будет - Потому что я ее не выложу (ну пока учусь в инсте точно не выложу ибо кофедральная - по Политологии) - Делал ее гдето неделю - Но там реально Все слова распознаны все рисунки и графики перересованы заного (практически) для того чтоб лучше Читалось - Сканил в разрешении 300dpi через Finereader 6.0 - Распозновал все в ручшую (Совет при сканировании Очень плотно прижимать книгу к сканеру так как на изгибе(по середине книги) когда она толстая плохо сканируется и не распознается без ошибок - я всегда правил - так что если есть возможность РАсшивайте книги) Сохранил сначала в Ворд (для исправления граматики - так как не всегда можно про контролировать ошибки граматические - не FineReader тоже проверял но по второму разу я обнаруживал все таки ошибки - еще со временем когда стал перечитывать оказалось не иногда часть предложения начинается с Красной строки - не вовремя нажатый Интер) но потом перевел в pdf с оглавлениями(закладками)
Остальные 2 книги просто переводил из формата DjVu сделал тока закладки распозновать было в лом Тока закладки сделал (да и качество было картинок хорошое изначально)

Serg104 · Oct 3, 2005

toRuslan2000 "...Сохранил сначала в Ворд (для исправления граматики - так как не всегда можно про контролировать ошибки граматические..." С заметками тоже так поступай, их читать невозможно.
Если в слове ХЛЕБ сделать 4 ошибки, то получится ПИВО
Проверяй орфографию...

Ruslan2000 · Oct 4, 2005

ну без грамотен я чтож поделать)) - ну все равно вроде понятно написал

Terabyte · Nov 10, 2005

Хочу оцифровать одну очень инетересную компьютерную книжку =) Из техники есть сканер EPSON Perfection 1670 и фотик Nikon Coolpix 8700 (8-мегапикселей). На каком девайсе лучше делать сканы (для последующего перевода в TXT, т.к. в книге картинок нет): сканер или фотик (быстрее)?

Формат думаю лучше сделать txt, так что наверно тогда нужно будет юзать (тут вроде альтернатив нет?) Abbyy FineReader...

Кто делал электронные книги?

Делали ли вы электронные книги?

Да

Нет

Да, и не одну!

Нет такой возможности...

Alex Penguin

Турист

Egoizte

ex-Team DUMPz

Souldrinker

Гость

OnThink

Турист

Alex Penguin

Турист

OnThink

Турист

tranvask

Турист

DrWKD

Турист

diorder

Турист

in_fester

Турист

Serg104

Турист

Ruslan2000

Турист

Serg104

Турист

Ruslan2000

Турист

Terabyte

Гость