to post messages and comments.

Закончил обрабатывать сканы: #2891873 То, что я загружал, — это Generic raw book zip

Практически все страницы повёрнуты и спозиционированы автоматически в МатКАДе, кроме трёх в начале и одной в конце, где нет нумерации, по которой как по самому выступающему элементу можно позиционировать страницу. Позиционирование заключалось в том, чтобы найти, где на повёрнутом скане полезная часть страницы, откадрировать скан и обратно добавить поля абсолютно белого цвета, чтоб без теней или неправильного кадрирования, которое сделал тот, кто сканировал.

Линейкой мерил отступы на реальной книге и добивался, чтоб в обработанных сканах были примерно такие же расстояния. Вообще ширина книги 190мм, но если взять 180мм, то левые и правые страницы, расположенные друг по другом, получается, будут иметь отступы в одних и тех же местах. Так что сделал 180мм. Обложку пришлось немного аффинно сжать, ведь она-то напечатана на все честные 190мм. Но в остальном удалось воспроизвести достаточно достоверно. Правда, вот смотрю я PDF и вижу, что он считается 90мм в ширину, хотя я в PNG проставлял 300dpi pnmtopng'ом при конвертации из BMP от МатКАДа. То есть, Интернет Архив в любом случае ждёт 600 dpi.

Заметил в LibreOffice возможность создавать гибридные PDF с внедрённым ODT. Здорово в таком формате посылать, чтоб у тех, кто до сих пор после стольких ИнсталлФестов остался нераспропагандированным в открытые форматы, файл открылся именно так, как нужно, а не как в известной проприетарщине.

Images2PDF некогда была всем доступна, а потом разработчики решили, что хватит, и оставили её только в составе платного PDFCreator Plus. Однако, если скачать из архива старых версий PDFCreator-2_1_2-setup.exe, то там оно всё ещё есть, а в следующей версии уже вырезали. Установщик, к сожалению, сделан так, что установить свежий PDFCreator поверх старого с сохранением Images2PDF не получится, но вроде и не сильно надо. И так хорошо работает.

Мне нравится его возможность делать PDF из кучи JPEG без пережатия. Наверное, и в других утилитах есть, но к этой я уже привык.

В пдф не хранится текст, рамочки и прочая эта ваша хрень. В нём, грубо говоря, хранятся инструкции для плоттера, типа — ставим жало сюда, рисуем отсюда до туда, по такому-то маршруту. Так рисуется всё, что не картинки (они немного иначе). Ну так вот. Есть у вас, предположим, задача — распарсить прайс-лист. Который в табличке. Только табличку вы не можете просто вот взять и получить. Вы можете получить инструкции плоттера. Глифы с буковками распознать довольно просто — словари по шрифтам там же и лежат. И блоки с текстом найти. А составить из этой херни табличку структурированную — это уже только догадками по позиционированию. И самые чудеса начинаются, когда в одной ячейке таблицы несколько строк, да разным шрифтом, да с разными отступами. Тут начинается математический пиздец. Усреднение позиций, выравнивание по этим медианам, нормализация по количеству столбцов/строк. Получается почти всегда. Почти, блядь.
Сильно зауважал ABBYY.

github.com — небольшая обертка вокруг wkhtmltopdf, написанная на scala. С ее помощью можно генерировать PDF из HTML + CSS. Со страницей Википедии справилась неплохо. Правда, wkhtmltopdf без Xvfb отказывался работать.

в очередной раз столкнулся с задачей, в чём бы таком печатные документики хранить. и чем бы их в pdf конвертировать. и как бы ещё rtf получать (чтобы в редких случаях можно было редактировать итоговый документ). сейчас используем pisa и reportlab для конвертации из html+css в pdf. и что-то мне сегодняшнее изучение вопроса подсказывает, что наиболее универсальным и хорошим решением будет.... LaTeX! а что ты используешь, username?

Скачал pdf-книжку для электронной читалки, а там все страницы "landscape" и на каждой текст в две колонки (разворот книги — 2 страницы). Читать такое с небольшого экрана некомфортно, перерыл репы в поисках того, что бы могло разбить страницы файла на книжные странички. Перепробовав несколько утилиток и перечитав к ним маны, наткнулся таки на нужное — программулину под названием pdfposter. Она может из одной странички сделать несколько, разбив содержимое на части. Создать плакат можно без проблем. Книжку обработала довольно быстро, правда в итоге все странички лежали "на боку" как и исходные. pdfmod'ом повернул все странички как надо и выкинул пустые. Размер файла увеличился в три раза с лишним, но это не критично.
Команда в терминале: pdfposter -mA6 -pA5 inputfile.pdf outputfile
где -mA6 — формат бумажных листов, на которых "печатаем"; -pA5 — формат итогового изображения.
Т.е. два А6 нам дают один А5. Можно взять -mA5 и -pA4, но прога режет исходные страницы на три части — две страницы и узкую полоску.

Если кто делает такие "операции" другим способом, то прошу в комменты :)

Народ, насоветуй виртуальный pdf-принтер для виндоус. Такой, чтоб умел корректную кириллицу (ну, чтоб потом можно было юзать поиск в pdf-документе) и ссылки. Желательно, бесплатный без рекламных врезок в конечный документ. Есть примеры чуда?

Между прочим, pdfimages из состава poppler (видимо, в отличие от версии в составе xpdf) может выдавать весьма информативный список изображений, содержащихся в pdf. Например, вывести список картинок на страницах с 6 по 8: pdfimages -list -f 6 -l 8 some.pdf ('f' = first, 'l' = last). WRT superuser.com
Бинарники для винды легко находятся в гугле, только для последних версий неплохо бы иметь библиотеки M$VCR.

Жаль, никто в детстве не показал мне эту книгу:

алгебраическая топология с элементарной точки зрения
/It is shown how in the course of solution of interesting geometric problems (close to applications)
naturally appear main notions of algebraic topology (homology groups, obstructions and invariants, characteristic classes)/
mccme.ru

У меня в винде по-умолчанию до сегодняшнего дня документы PDF открывались Акробат Ридером, который я сейчас решил нахрен снести. Во-первых, в нем постоянно находят дыры, через которые особым образом сформированные документы заносят вирусную заразу в комп. Во-вторых, эта пакость часто обновляется через интернет, причем, этот сраный вьювер документов требует после обновления перезагрузку всей операционки. В-третьих, эта зараза загружается на моем ноуте примерно 5 минут, прежде чем покажет, наконец, нужный документ. И еще минуту, прежде чем даст его прокручивать и распечатывать. Причем, если переключишься из окна с документом в другое окно а потом через некоторое время вернешься к нему — документ может прорисовываться и вспоминаться еще минуту-две.
Второй по скорости открытия PDFов — это Яндекс.Браузер. Он открывает файлы примерно за 3 минуты за счет долгой подгрузки библиотек foxit reader'а. Слишком долго.
Самый быстрый открывальщик PDFов на моем компе — это родной Гугл Хром. Прорисовывает документы примерно за 30 секунд и не тупит.
Гуглу респект. Адобу и Яндексу есть над чем поработать.

Жуйк, а подскажи программу, с помощью которой можно легко упаковать изображения в PDF. На подобии Image to PDF Converter Free только не его. Эта програмулина конечно хороша, но с большими изображениями не может работать :( Больше 10 картинок размером 4000х7000 в него пихаешь и кирдык — на выходе PDF с белыми листами.