Закончил обрабатывать сканы: #2891873 То, что я загружал, — это Generic raw book zip
Практически все страницы повёрнуты и спозиционированы автоматически в МатКАДе, кроме трёх в начале и одной в конце, где нет нумерации, по которой как по самому выступающему элементу можно позиционировать страницу. Позиционирование заключалось в том, чтобы найти, где на повёрнутом скане полезная часть страницы, откадрировать скан и обратно добавить поля абсолютно белого цвета, чтоб без теней или неправильного кадрирования, которое сделал тот, кто сканировал.
Линейкой мерил отступы на реальной книге и добивался, чтоб в обработанных сканах были примерно такие же расстояния. Вообще ширина книги 190мм, но если взять 180мм, то левые и правые страницы, расположенные друг по другом, получается, будут иметь отступы в одних и тех же местах. Так что сделал 180мм. Обложку пришлось немного аффинно сжать, ведь она-то напечатана на все честные 190мм. Но в остальном удалось воспроизвести достаточно достоверно. Правда, вот смотрю я PDF и вижу, что он считается 90мм в ширину, хотя я в PNG проставлял 300dpi pnmtopng'ом при конвертации из BMP от МатКАДа. То есть, Интернет Архив в любом случае ждёт 600 dpi.
Replies (1)
-
@OCTAGRAM, На полезной части страницы настроил МатКАД увеличивать контраст. В линейной шкале серого интервал (1/4 … 3/4) растягивается до (0…1), остальное — насыщается либо в белый, либо в чёрный. Буквы стали контрастные чёрные и гладкие, как пластмассовые. Но несколько тоньше оригинала. А если пытаться приблизиться к оригиналу, то либо такие же серые, либо чёрные ёршистые. Отдельно запрограммировал серый цвет номеров глав. В оригинале сканер видел шахматы из чёрных точек. Пришлось немного размыть по формуле 0.6Центр+0.3Слева+0.3Справа+0.3Сверху+0.3Снизу-0.8. Значения меньше определённого предела проецировались на серый цвет, и темнее в выбранной области быть уже не могло. Шахматы «срослись» в цельный серый цвет с не очень гладкой, но пусть хоть как-то границей.
Чтоб в МатКАДе запускать длительные процессы с возможностью прервать или начать с той же позиции, пользовался инструментом анимации. При анимации в документе постоянно меняется переменная FRAME и пересчитывается выбранный участок документа. Я принял, что FRAME — это номер страницы, и в зависимости от этого номера нужно делать READBMP, READPRN, WRITEBMP, WRITEPRN. Напишу формулы, проверю на первой странице (FRAME=0) или для другой страницы напишу FRAME := 39 в начале документа, посмотрю, что получается, уберу FRAME := 39 и поставлю на конвеер. МатКАД думает, что он снимает анимацию, а тем временем штампуются BMP с картинками и PRN с матрицами. Например, я могу посмотреть журнал, как был выбран оптимальный угол поворота, и в ГИМП померить циркулем, пока МатКАД работает.
По инструкции Интернет Архива сформировал и залил ZIP с PNG. Через какое-то время появились производные форматы, в том числе PDF с халявным OCR. По правилам Интернет Архива надо успеть сделать все правки за три дня. На PDF у меня были особые планы, я хотел его ещё получше оформить. Автоматически сгенеренный PDF начинался слева, в то время, как у меня сканы от корки до корки, то есть, обложка как первая страница должна быть справа. Не знаю, почему так. Вот онлайн-читалка, наоборот, корректно начала справа.
Скачал с Интернет Архива PDF, поменял в BeCyPDFMetaEdit метаданные. И режим просмотра по умолчанию поставил быть страницей справа, и по умолчанию отображать содержание. И нумерацию страниц настроил, чтоб читателям в уме не складывать. А вот собственно содержание я добавляю другой программой, JPdfBookmarks. Мне удобнее содержание текстом в ФАР Менеджере написать и последним этапом штампануть в PDF, чем колупаться в диалогах и кнопках для добавления каждого элемента.
В интерфейсе Интернет Архива удалил автоматом сгенеренный PDF и залил свой. При этом онлайн читалка книг на мой PDF так и не переключилась. Оглавления нет, но зато при масштабировании видно, что картинки берутся в высоком разрешении из оригинала. При этом, если выбрать «скачать PDF», то качается мой улучшенный PDF. Предлагается также скачать и ePUB, но он почему-то пустой, в отличие от FULL TEXT (.txt), для сравнения./1 · Reply