nilsky: (сам)
[personal profile] nilsky
Периодически коллеги-блогеры спрашивают, как сделать что-то полезное с файлами в формате pdf. Странички повыдёргивать, например, или сохранить как картинки и т.п.

Ежели у кого нет спецЫальных программ, могу порекомендовать свеженайденный онлайн-сервис по работе с пдф. Он позволяет сделать больше, чем известные мне ранее (правда, для меня это не актуальный вопрос, поэтому я такими сервисами не очень активно пользуюсь, а значит, далеко не все знаю), и при этом довольно удобный.

В общем: Валабуев, вот вам ссыль - http://smallpdf.com/ru.

Date: 2015-01-27 09:47 am (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
А не посоветуете ли программку, которая могла бы в пакетном режиме сохранить первые странички кучи pdf-ок в виде картинок?

Обширная коллекция книг, журналов и прочей печатной продукции, собранная из различных источников, не всегда имеет внятные имена файлов. Хотелось бы программку, которую можно напустить на каталог с этими богатствами и которая бы аккуратно выдернула первую страничку-обложку и сохранила в том же каталоге с тем же именем, только в формате jpg. Как ни странно, ничего подобного не находится. Можно выдирать в ручном режиме, можно разбирать файлы постранично, но вот такой штуки, что описал, никак не найду.

Date: 2015-01-27 02:00 pm (UTC)
From: [identity profile] nilsky-nikolay.livejournal.com
Т.е. даёшь проге кучу файлов, а она сама сохраняет джипегами первые странички всех документов? Честно говоря, не знаю, как тут лучче быть.

Date: 2015-01-27 02:33 pm (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
Да, именно так. Потому что каталог "Книги неразобранные" растет и ширится :) Если в случает текстовых форматах найтинужное можно поиском, то в pdf из сканированных страниц разобраться можно только поназванию, а оно не всегда нормально забито, увы. Пробовал каталогизаторы, но не пошли они у меня. А вот такое решение было бы идеальным, но увы...

Date: 2015-01-27 02:36 pm (UTC)
From: [identity profile] nilsky-nikolay.livejournal.com
Я как представлю себе разбор и каталогизацию своих терабайтов... так сразу и раздумываю париться:)

Date: 2015-01-27 02:52 pm (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
Вот-вот. У многих знакомый такая проблема -- проще найти в инете, чем на собственных винтах.

Решение с обложками, кмк, вполне хороший выход из положения, я, когда начал искать, был уверен, что такие утилитки должны быть, но, к своему удивлению, ничего даже похожего не нашел.

Date: 2015-01-27 02:54 pm (UTC)
From: [identity profile] nilsky-nikolay.livejournal.com
А каталог у вас какой?

Date: 2015-01-27 03:14 pm (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
Начинал с WhereIsIt, потом был какой-то бесплатный аналог, сейчас уже не упомню, потом несколько вариантов локальных искалок по принципам веб-поиска -- Copernic и аналоги. Потом варианты библиотекарей -- MyHomeLib, Calibre и аналоги. Остановился на MultiLib, но для pdf и djvu она не очень.

В итоге связка искалок -- встроенная в Total Commander и Everything. Ну и самый лучший каталог -- организованная файловая структура.

Date: 2015-01-27 03:15 pm (UTC)
From: [identity profile] nilsky-nikolay.livejournal.com
"Ну и самый лучший каталог -- организованная файловая структура."

Эх, завидую...

Date: 2015-01-27 03:18 pm (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
Вспомнил аналог WhereIsIt -- это прога CD Collection, к сожалению, давно заброшена автором.

Date: 2015-01-28 12:22 am (UTC)
From: [identity profile] tomcatkins.livejournal.com
с помощью pdftk делаем одностраничный pdf из первой страницы, с помощью imagemagick конвертим этот pdf в jpg с нужными параметрами.

пишем скрипт, который делает это со всей директорией.

наверняка и без pdftk можно обойтись, если вчитаться в хелп imagemagick; просто я не интересовался.

еще можно тупо ghostscript взять, кстати.

Date: 2015-01-28 12:17 pm (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
Спасибо.

А не подскажете, где про скрипты почитать, что-то вроде "быстрого старта"? А то гугль по запросу каких только скриптов не выдает :)

Как я понимаю, это нечто вроде bat-файлов, только под винду? Соответственно, берем несколько консольных утилит, прописываем в скрипт их вызов с определенными параметрами, напускаем скрипт на место хранения книжек, после чего он пережевывает все файлы и выдает требуемый результат?

Date: 2015-01-28 09:51 pm (UTC)
From: [identity profile] tomcatkins.livejournal.com
под виндой это все еще bat-файлы как раз.

пример:

rem for %%f in (%1\*.tif) do ( convert "%%f" -trim +repage -compress group4 -strip "%2\%%~nf.tif" )

при установленном imagemagick такой батник, будучи запущен с двумя аргументами из командной строки, берет все тифы в директории "первый аргумент", обрезает края, бинаризирует и сохраняет в директории "второй аргумент". convert это команда imagemagick.

хттп : / / en. wikibooks. org / wiki/Windows_Batch_Scripting#Syntax

не знаю, впрочем, хороший ли это мануал; не читал.

еще в винде есть power shell, вроде бы поприятнее.

под linux же можно для своего скрипта любой установленный скриптовый язык, указав путь к нему в первой строке после hashbang. по умолчанию это bash.

Date: 2015-01-29 12:23 pm (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
Спасибо большое! Теперь понятно, в каком направлении действовать.

Я, похоже, нашел специальную утилитку, называется mudraw, входит в пакет mutools.

Команда
mudraw -o имяфайла-%d.jpg -w600 -h800 имяфайла.pdf 1-10

выводит первые 10 страниц имяфайла.pdf в картинки размером 600х800 с именами имяфайла-1.jpg.

Теперь разберусь с батником, и, похоже, задача будет решена.

Еще раз спасибо!

Date: 2015-01-29 03:00 pm (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
Получилось :)

Сделал батник из одной строки
for /R %%I in (*.pdf) do mudraw -o "%%I.png" -w600 -h800 "%%I" 1

В каталог с книжками закидываю этот батник и файлик mudraw.exe. Запускаю батник. На выходе файлы форматом 600х800 (точнее, по максимальному из этих размеров) в формате png. С jpg почему-то не получилось, по одному удается конвертировать, пакетом -- нет. Ну и ладно.

Теперь еще что-то с djvu придумать осталось :)

Но уже и так очень хорошо.

Date: 2015-01-29 07:27 pm (UTC)
From: [identity profile] tomcatkins.livejournal.com
что-то с djvu придумать

djvudecode?

ну и imagemagick все же стоит поковырять из общих соображений; это такой крокодил, который почти все умеет.

еще есть режим batch-обработки в xnview, в котором можно все выбрать в gui и автоматически сохранить в скрипт.

Date: 2015-01-30 06:07 am (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
Похоже, djvudecode -- то, что надо. Спасибо!

Попробую, по аналогии должно все получится.

Нашел еще программку DjvuOCR -- по сути, это GUI к тому же djvudecode. Также можно выбрать несколько файлов, диапазон страниц, разрешение, формат, после чего в пакетном режиме все обрабатывается. Ограничений два:
1). Нельзя задать каталог, тем более, с подкаталогами -- только отдельные файлики.
2). Жестко задаются размеры выходного файла, то есть не сохраняются пропорции. Можно задать разрешение, но тогда картинки будут разного размера.

В принципе, и так можно работать, но все же я разберусь в параметрах djvudecode -- там, похое, все нужное есть.

Date: 2015-02-03 09:18 am (UTC)
From: [identity profile] mef-is-toffel.livejournal.com
Все, допилил.

Делаем батник из двух строчек:
for /R %%I in (*.pdf) do mudraw -o "%%I.png" -w600 -h800 "%%I" 1
for /R %%I in (*.djvu) do djvudecode\djvudecode --output-format=jpeg --page-range="1" --dpi=72 "%%I" "%%I.jpg"

Закидываем в каталог с книгами файл mudraw.exe, каталог djvudecode со всеми файлами и этот батник. Запускаем. В итоге получаем картинки первой страницы для всех pdf и djvu во всех каталогах.

Из-за ограничений исходных утилит:
1. Превью для pdf получается в формате png, для djvu -- в jpg.
2. Превью для djvu получаются разного размера -- там можно либо жестко задать размер без сохранения пропорций, либо ограничится разрешением в зависимости от разрешения исходного файла.
3. Для некоторых pdf с кириллическими именами в кириллических каталогах с векторной графикой (не растровых сканов) пропадают шрифты.

1 и 2, в принципе, легко лечатся пакетной конвертацией с помощью утилиты convert из пакета imagemagick? но мне уже лень :)

Еще раз спасибо за подсказки!

Сайт для работы с pdf

Date: 2015-01-27 10:12 am (UTC)
From: [identity profile] livejournal.livejournal.com
Пользователь [livejournal.com profile] ad_notandam сослался на вашу запись в своей записи «Сайт для работы с pdf (http://ad-notandam.livejournal.com/27413.html)» в контексте: [...] Оригинал взят у в Сайт для работы с pdf [...]

Сайт для работы с pdf

Date: 2015-01-27 11:22 am (UTC)
From: [identity profile] livejournal.livejournal.com
Пользователь [livejournal.com profile] aleksej сослался на вашу запись в своей записи «Сайт для работы с pdf (http://aleksej.livejournal.com/114490.html)» в контексте: [...] Originally posted by at Сайт для работы с pdf [...]

Profile

nilsky: (Default)
nilsky

April 2017

S M T W T F S
       1
2345678
9101112131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 5th, 2026 10:56 pm
Powered by Dreamwidth Studios