Strephil
PDF web сайт HTML У меня есть набор очень специфически свёрстанных файлов *.doc:
1. использован нестандартый шрифт;
2. положение текста на странице определяется многократным переносом строк, при этом текст выравнен по нижнему краю страницы и разбиение на страницы нужно сохранить;
3. внутри абзацев тоже используются переносы строк, чтобы добиться переноса строки в нужном месте, естественное, если использовать другой шрифт, то всё разъедется;
4. многократное повторение символа пробела тоже используется;
5. ссылки на номера страниц сделаны набором номера страницы.

Общий объём этих файлов — это тысячи страниц.

Нужно превратить этот материал в набор html-страниц для публикации на сайте, сохранив особенности вёрстки в том смысле, что нужно сохранить разбиение по строкам и страницам. Я думаю, что если очень жирно обмазаться каким-то javascript, то это возможно? умеют же браузеры отображать pdf-ки.
anton0xf
PDF Ubuntu Linux shell В который раз сталкиваюсь с тем, что в книжке (в pdf) нет встроенного оглавления, а оно нужно. Каждый раз в итоге я его собираю в закладках evince, а потом не знаю, как его перенести вместе с файлом или, ещё лучше, сделать из него настоящее оглавление. В этот раз я таки погуглил и узнал две вещи:
1. evince хранит закладки в метадате GVFS, откуда их можно сдампить в файл и принести куда надо (источник)
2. можно довольно легко добавить к pdf оглавление, если уже есть страницы и заголовки, с помощью pdftk

В итоге, за час-полтора ковыряния в гугле и шеле, собрал с помощью седа, awk, pdftk и такой то матери себе из кучи закладок няшное оглавление к книжке.

Как делал: gist.github.com

Не думаю, что это реюзабельно непосредственно, т.к. тут половина кода — это преобразование формата, в котором я называл букмарки. Типа было "145 — 11.5 Chapter", а надо было отрезать страницу и сделать из этого подзаголовок второго уровня.

Натолкнулся по дороге на два нюанса:
1. pdftk нет в репках Убунты, но есть snap
2. страницы в pdftk на 1 больше, чем во внутреннем представлении закладок evince

Ещё я так и не нашёл (хотя искал не долго), в каком конкретно формате хранится мета в GVFS (вроде похоже на YAML, но хз), и распарсил седом, как пришлось.

Strephil
PDF Хочу просто конвертировать текст в pdf без markdown без всей хуйни.
Вот есть какой-то enscript, вроде, норм, умеет номера страниц и по-умолчанию использует A4. Но не умеет в UTF-8!
Блядь! Я зачем-то вывел его --help! Ёбаный в рот!

Dlinny`e klyuchi:
--color[=bool] vy`vodit` v razny`x czvetax
--continuous-page-numbers schitat` nomera stranicz neprery`vno po vsem vxodny`m

Кто им сказал, что так можно вообще? Почему это ещё не запретили?
praut
PDF annotation GUI soft articles Какайа интересная штучка. Позволяет сохранять статейки локально для последующий неспешных прочтений и сохранения интересных моментов и цитат. Статейки и pdf-ки на данный момент. Хоть и дитя электрона, но даже запустилось и работает на моём калькуляторе.

Polar is a document manager for PDF and web content as well as a personal knowledge repository. It allows you to keep all important reading material in one place including annotations and flashcards for spaced repetition. -> github.com
OCTAGRAM
PDF книги графика mathcad Закончил обрабатывать сканы: #2891873 То, что я загружал, — это Generic raw book zip

Практически все страницы повёрнуты и спозиционированы автоматически в МатКАДе, кроме трёх в начале и одной в конце, где нет нумерации, по которой как по самому выступающему элементу можно позиционировать страницу. Позиционирование заключалось в том, чтобы найти, где на повёрнутом скане полезная часть страницы, откадрировать скан и обратно добавить поля абсолютно белого цвета, чтоб без теней или неправильного кадрирования, которое сделал тот, кто сканировал.

Линейкой мерил отступы на реальной книге и добивался, чтоб в обработанных сканах были примерно такие же расстояния. Вообще ширина книги 190мм, но если взять 180мм, то левые и правые страницы, расположенные друг по другом, получается, будут иметь отступы в одних и тех же местах. Так что сделал 180мм. Обложку пришлось немного аффинно сжать, ведь она-то напечатана на все честные 190мм. Но в остальном удалось воспроизвести достаточно достоверно. Правда, вот смотрю я PDF и вижу, что он считается 90мм в ширину, хотя я в PNG проставлял 300dpi pnmtopng'ом при конвертации из BMP от МатКАДа. То есть, Интернет Архив в любом случае ждёт 600 dpi.
OCTAGRAM
PDF LibreOffice odt Заметил в LibreOffice возможность создавать гибридные PDF с внедрённым ODT. Здорово в таком формате посылать, чтоб у тех, кто до сих пор после стольких ИнсталлФестов остался нераспропагандированным в открытые форматы, файл открылся именно так, как нужно, а не как в известной проприетарщине.
Renha
PDF coding awk дыбр Упоролся в последние дни sed, затем postscript, awk, и несколько сторонних утилит.

А казалось бы, всего-то надо pdf-файл правильно порезать на кусочки.
OCTAGRAM
PDF Images2PDF Images2PDF некогда была всем доступна, а потом разработчики решили, что хватит, и оставили её только в составе платного PDFCreator Plus. Однако, если скачать из архива старых версий PDFCreator-2_1_2-setup.exe, то там оно всё ещё есть, а в следующей версии уже вырезали. Установщик, к сожалению, сделан так, что установить свежий PDFCreator поверх старого с сохранением Images2PDF не получится, но вроде и не сильно надо. И так хорошо работает.

Мне нравится его возможность делать PDF из кучи JPEG без пережатия. Наверное, и в других утилитах есть, но к этой я уже привык.
Vugluskr
PDF жизньболь айти В пдф не хранится текст, рамочки и прочая эта ваша хрень. В нём, грубо говоря, хранятся инструкции для плоттера, типа — ставим жало сюда, рисуем отсюда до туда, по такому-то маршруту. Так рисуется всё, что не картинки (они немного иначе). Ну так вот. Есть у вас, предположим, задача — распарсить прайс-лист. Который в табличке. Только табличку вы не можете просто вот взять и получить. Вы можете получить инструкции плоттера. Глифы с буковками распознать довольно просто — словари по шрифтам там же и лежат. И блоки с текстом найти. А составить из этой херни табличку структурированную — это уже только догадками по позиционированию. И самые чудеса начинаются, когда в одной ячейке таблицы несколько строк, да разным шрифтом, да с разными отступами. Тут начинается математический пиздец. Усреднение позиций, выравнивание по этим медианам, нормализация по количеству столбцов/строк. Получается почти всегда. Почти, блядь.
Сильно зауважал ABBYY.
mismatch
PDF Scala github.com — небольшая обертка вокруг wkhtmltopdf, написанная на scala. С ее помощью можно генерировать PDF из HTML + CSS. Со страницей Википедии справилась неплохо. Правда, wkhtmltopdf без Xvfb отказывался работать.
schors
PDF rtf HTML LaTeX в очередной раз столкнулся с задачей, в чём бы таком печатные документики хранить. и чем бы их в pdf конвертировать. и как бы ещё rtf получать (чтобы в редких случаях можно было редактировать итоговый документ). сейчас используем pisa и reportlab для конвертации из html+css в pdf. и что-то мне сегодняшнее изучение вопроса подсказывает, что наиболее универсальным и хорошим решением будет.... LaTeX! а что ты используешь, username?
Strephil
PDF Linux Как много в системе pdf-ок, о существовании которых я даже не подозревал, и никогда не буду их читать.
$ find usr -name '*.pdf' | wc -l
367

Помойка в Linux начинается с Linux.
Greevous
PDF Ubuntu soft Скачал pdf-книжку для электронной читалки, а там все страницы "landscape" и на каждой текст в две колонки (разворот книги — 2 страницы). Читать такое с небольшого экрана некомфортно, перерыл репы в поисках того, что бы могло разбить страницы файла на книжные странички. Перепробовав несколько утилиток и перечитав к ним маны, наткнулся таки на нужное — программулину под названием pdfposter. Она может из одной странички сделать несколько, разбив содержимое на части. Создать плакат можно без проблем. Книжку обработала довольно быстро, правда в итоге все странички лежали "на боку" как и исходные. pdfmod'ом повернул все странички как надо и выкинул пустые. Размер файла увеличился в три раза с лишним, но это не критично.
Команда в терминале: pdfposter -mA6 -pA5 inputfile.pdf outputfile
где -mA6 — формат бумажных листов, на которых "печатаем"; -pA5 — формат итогового изображения.
Т.е. два А6 нам дают один А5. Можно взять -mA5 и -pA4, но прога режет исходные страницы на три части — две страницы и узкую полоску.

Если кто делает такие "операции" другим способом, то прошу в комменты :)
Ost
PDF printer soft ? Народ, насоветуй виртуальный pdf-принтер для виндоус. Такой, чтоб умел корректную кириллицу (ну, чтоб потом можно было юзать поиск в pdf-документе) и ссылки. Желательно, бесплатный без рекламных врезок в конечный документ. Есть примеры чуда?
waterlaz
PDF imagemagick Вот всем мне нравится imagemagick. Даже pdf делает.
Но вот то, что для этого он должен сперва все изображения в память загрузить — не очень хорошо)
SIO
PDF e-book книги На чем нынче удобно читать pdf-книги (техническая и научная литература, без картинок никак)? Планшеты не маловаты? Большие e-ink появились?
gvard
PDF Linux Windows useful Между прочим, pdfimages из состава poppler (видимо, в отличие от версии в составе xpdf) может выдавать весьма информативный список изображений, содержащихся в pdf. Например, вывести список картинок на страницах с 6 по 8: pdfimages -list -f 6 -l 8 some.pdf ('f' = first, 'l' = last). WRT superuser.com
Бинарники для винды легко находятся в гугле, только для последних версий неплохо бы иметь библиотеки M$VCR.
4DA
PDF math Жаль, никто в детстве не показал мне эту книгу:

алгебраическая топология с элементарной точки зрения
/It is shown how in the course of solution of interesting geometric problems (close to applications)
naturally appear main notions of algebraic topology (homology groups, obstructions and invariants, characteristic classes)/
mccme.ru
supershurik
Google PDF наблюдение Яндекс Adobe У меня в винде по-умолчанию до сегодняшнего дня документы PDF открывались Акробат Ридером, который я сейчас решил нахрен снести. Во-первых, в нем постоянно находят дыры, через которые особым образом сформированные документы заносят вирусную заразу в комп. Во-вторых, эта пакость часто обновляется через интернет, причем, этот сраный вьювер документов требует после обновления перезагрузку всей операционки. В-третьих, эта зараза загружается на моем ноуте примерно 5 минут, прежде чем покажет, наконец, нужный документ. И еще минуту, прежде чем даст его прокручивать и распечатывать. Причем, если переключишься из окна с документом в другое окно а потом через некоторое время вернешься к нему — документ может прорисовываться и вспоминаться еще минуту-две.
Второй по скорости открытия PDFов — это Яндекс.Браузер. Он открывает файлы примерно за 3 минуты за счет долгой подгрузки библиотек foxit reader'а. Слишком долго.
Самый быстрый открывальщик PDFов на моем компе — это родной Гугл Хром. Прорисовывает документы примерно за 30 секунд и не тупит.
Гуглу респект. Адобу и Яндексу есть над чем поработать.