Как извлечь изображения из PDF в ОС Linux

Здравствуйте, друзья. В этой статье мы покажем как извлечь изображения из PDF файла. Иногда возникает необходимость извлечь изображения, находящиеся внутри PDF-файла. Это может показаться сложным, но это проще, чем вы думаете.

Лучше всего, что вы можете сделать это из терминала, чтобы не тратить ресурсы и убедиться, что процесс идет очень быстро.

Как извлечь изображения из PDF в ОС Linux
Как извлечь изображения из PDF в ОС Linux

[irp]

Установка Poppler в Linux

Poppler – это библиотека рендеринга PDF, основанная на кодовой базе XPDF-3.0. Она используется для обработки PDF-файлов и позволяет разработчикам создавать программы для чтения и редактирования PDF-документов. Poppler поддерживает множество операционных систем, включая Linux, macOS и Windows. В этой статье мы поговорим о Linux.

Именно с помощью этой библиотеки мы получим доступ к инструментам для работы с файлами PDF.

Для ее установки разумнее всего воспользоваться пакетом, входящим в официальные репозитории каждого дистрибутива. Хотя вы также можете скомпилировать его или загрузить двоичные файлы.

В случае с Debian, Ubuntu и их производными, такими как Linux Mint, вы можете выполнить команду

sudo apt update

sudo apt install poppler-utils

После установки библиотеки мы можем использовать часть ее компонентов для выполнения поставленной задачи.

[irp]

Извлечение изображений из файла PDF

Процедура извлечения очень проста. Просто следуйте следующему синтаксису.

pdfimages -all input.pdf images/prefix

Приведенная выше команда берет все изображения из входного файла input.pdf и извлекает их в тот же каталог, что и запрос. Конечно, вы можете задать абсолютный путь к месту, где находится PDF-файл, и другой путь для выходного файла.

Что касается images/prefix, то идеальным вариантом будет выбрать такой, который хорошо идентифицирует изображения, а также формат jpeg или png, из которых два PNG обеспечивают более высокое качество.

После вышесказанного команда будет выглядеть следующим образом.

pdfimages -all input.pdf sample

В результате в каталоге будут созданы файлы изображений с такой номенклатурой sample-nnn.png.

Если вы хотите использовать jpg, то добавьте опцию -j

pdfimages -all -j input.pdf sample

Что касается опции -j, вы можете не получить желаемых результатов, но посмотрите, что говорит об этом человек:

” Обычно все изображения записываются в виде файлов PBM (для монохромных изображений) или PPM (для немонохромных изображений). При использовании этой опции изображения в формате DCT сохраняются как файлы JPEG. Все не-DCT изображения сохраняются в формате PBM/PPM как обычно.”

[irp]

Дополнительные опции для извлечения изображений

Приведенная выше команда извлекает все изображения, но во многих случаях мы хотим определить диапазон. Важный параметр, если файл очень длинный.

Для этого существуют опции -f и -l, которые определяют первую и последнюю страницу, с которой нужно извлечь изображения.

pdfimages -f 1 -l 5 -png input.pdf images

Это, пожалуй, самая полезная опция, поскольку она позволяет нам ограничить выходные файлы.

Другой очень интересной опцией является параметр -p, которая включает номера страниц в имена выходных файлов.

pdfimages -f 1 -l 5 -png -p input.pdf images

В целом, процедура извлечения изображений из файла PDF довольно проста, и вы можете использовать дополнительные опции, чтобы ограничить выходные файлы.

Nazario

Я — Nazario, создатель и автор сайта guid.su, специализируюсь на информационных технологиях с акцентом на системное администрирование Linux и Windows, веб-разработку и настройку различных систем. Мои глубокие знания и обширный практический опыт в этих сферах позволяют мне создавать детальные руководства и учебные материалы, ценные для пользователей всех уровней.

Я стремлюсь делать сложные темы доступными и понятными, надеюсь что мой вклад в сообщество IT будет оценен по достоинству.

Моя работа направлена на образование и распространение знаний в области информационных технологий, помогая другим расширять свои возможности и углублять понимание современных технологий.

Guid: Linux и Windows
Выскажите своё мнение или присоединяйтесь к обсуждению:

Отправляя комментарий, вы даете согласие на обработку ваших данных в соответствии с политикой конфиденциальности и даюёте согласие на их использование.