Конвертация страниц PDF в изображения с помощью PyMuPDF
Работа с PDF-документами часто требует их преобразования в другие форматы, такие как изображения. Это может быть полезно для архивирования, создания галерей или просто для удобства просмотра. В этой статье мы рассмотрим, как с помощью библиотеки PyMuPDF можно легко конвертировать страницы PDF в изображения JPEG.
Подготовка
Для начала нам потребуется установить библиотеку PyMuPDF. Это можно сделать с помощью команды:
pip install pymupdf
Описание скрипта
Рассмотрим следующий скрипт на Python, который осуществляет конвертацию страниц PDF-документа в изображения.
import fitz # PyMuPDF
# Открываем PDF файл
input_pdf_path = "files/catalog_2023.pdf"
pdf_document = fitz.open(input_pdf_path)
# Установим разрешение (например, 300 DPI)
zoom_x = 3.0 # горизонтальное увеличение
zoom_y = 3.0 # вертикальное увеличение
matrix = fitz.Matrix(zoom_x, zoom_y)
# Проходим по всем страницам и сохраняем каждую страницу как JPEG изображение
for page_number in range(len(pdf_document)):
# Извлекаем страницу
page = pdf_document.load_page(page_number)
# Конвертируем страницу в изображение (массив пикселей)
pix = page.get_pixmap(matrix=matrix)
# Сохраняем изображение в файл
output_image_path = f"images/page_{page_number + 1}.jpg"
pix.save(output_image_path)
print(output_image_path)
# Закрываем оригинальный PDF документ
pdf_document.close()
Разбор кода
Импорт библиотеки:
import fitz # PyMuPDF
PyMuPDF предоставляет мощные инструменты для работы с PDF и изображениями. Мы импортируем её под псевдонимом fitz.
Открытие PDF-файла:
input_pdf_path = "files/catalog_2023.pdf"
pdf_document = fitz.open(input_pdf_path)
Указываем путь к нашему PDF-документу и открываем его с помощью fitz.open().
Установка разрешения:
zoom_x = 3.0 # горизонтальное увеличение
zoom_y = 3.0 # вертикальное увеличение
matrix = fitz.Matrix(zoom_x, zoom_y)
Для получения изображений высокого качества, устанавливаем коэффициенты увеличения по горизонтали и вертикали. В данном случае, увеличение в 3 раза соответствует разрешению примерно 300 DPI (dots per inch).
Конвертация страниц в изображения:
for page_number in range(len(pdf_document)):
page = pdf_document.load_page(page_number)
pix = page.get_pixmap(matrix=matrix)
output_image_path = f"images/page_{page_number + 1}.jpg"
pix.save(output_image_path)
print(output_image_path)
Проходим по всем страницам PDF-документа, извлекаем каждую страницу и конвертируем её в изображение с помощью метода get_pixmap(). Сохраняем каждое изображение в формате JPEG в указанную директорию.
Закрытие PDF-документа:
pdf_document.close()
После завершения всех операций закрываем оригинальный PDF-документ для освобождения ресурсов.
Заключение
С помощью библиотеки PyMuPDF можно легко и быстро конвертировать страницы PDF-документов в изображения высокого качества. Такой подход может быть полезен для различных задач, начиная от создания предварительных просмотров документов до их архивирования в виде изображений.
А для большего погружения в тему у меня для Вас есть видеокурс Программирование на Python с Нуля до Гуру.
-
- Михаил Русаков
Комментарии (0):
Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.