Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Моя группа

Какая тема Вас интересует больше?

Мастер-класс по созданию сайта на WordPress 6

Этот видеоурок длится всего 21 минуту, но уже в конце создан полностью рабочий сайт на WordPress (с применением ChatGPT). И весь процесс Вы увидите своими глазами, а повторить - не составит труда!

Чтобы получить Видеокурс,
заполните форму

Другие курсы

Создание лендингов на заказ

Придя на семинар:

- Вы узнаете мою историю, как я начинал создавать сайты на заказ.

- Вы узнаете, почему сейчас самое время начать этим заниматься.

- Вы получите очень подробный пошаговый план действий по созданию и продвижению своей Web-студии с комментариями, в том числе, и в виде PDF.

- Вы узнаете, как и где найти сотрудников, как общаться с заказчиками.

- Вы узнаете, как максимально автоматизировать бизнес-процессы.

После семинара Вы уже самостоятельно сможете, следуя простому и подробному плану, открыть свою Web-студию и получить первые заказы.

Записаться

Другие курсы

Кто не смотрит далеко в будущее, того ждут близкие беды.

Конфуций

Извлекаем информацию из PDF-файла c Pythоn

Как известно одной из сфер применения языка Python является автоматизация рутинных задач. Одной из них является извлечение метаданных и некоторого текста из PDF-файла. Для подобных целей существует библиотека PyPDF2. Которая может быть полезна, когда выполняются определенные виды автоматизации для уже существующих PDF-файлов.

Для создания скрипта понадобится Python и соответствующая библиотека. И прежде создадим виртуальную среду, куда установим все необходимое.



>>>python -m venv my_pypdf2



# активируем ее



>>>cd my_pypdf2/Scripts

>>>activate



# теперь установим саму библиотеку pypdf2

>>>pip install pypdf2

Вот текущие типы данных, которые могут быть извлечены:

Автор

Создатель

Производитель

Предмет

Заглавие

Количество страниц

Вы можете использовать любой PDF-файл, который у вас есть под рукой на компьютере.

Напишем код, используя этот PDF-файл, и узнаем, как можно получить доступ к атрибутам:





import sys

from PyPDF2 import PdfFileReader



def take_inf(path_to_pdf):

    with open(path_to_pdf, 'rb') as f:

        pdf = PdfFileReader(f)

        inf = pdf.getDocumentInfo()

        number_of_pages = pdf.getNumPages()



    txt = f"""

    Информация об {path_to_pdf}: 



    Автор: {inf.author}

    Создатель: {inf.creator}

    Производитель: {inf.producer}

    Предмет: {inf.subject}

    Заглавие: {inf.title}

    Количество страниц: {number_of_pages}

    """



    print(txt)

    return inf



if __name__ == '__main__':



# целевой pdf документ будет предаваться в качестве аргумента cmd

# при отсутствии ввода выйдет сообщение из exept 

    try:

      path = sys.argv[1:][0]

      take_inf(path)

    except:

      print("Где книга")



'''

вывод





    Автор: None

    Создатель: Simpo Word to PDF

    Производитель: Simpo Word to PDF

    Предмет: None

    Заглавие: None

    Количество страниц: 3

'''

Таким образом, мы узнали как извлечь метаданные из PDF-файла.

Создано 08.03.2022 10:14:45
Михаил Русаков

Предыдущая статья Следующая статья

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (http://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: http://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: http://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

Кнопка:
<a href="https://myrusakov.ru" target="_blank"><img src="https://myrusakov.ru/images/button.gif" style="border: 0; height: 31px; width: 88px;" alt="Как создать свой сайт" /></a>
Она выглядит вот так:
Текстовая ссылка:
<a href="https://myrusakov.ru" target="_blank">Как создать свой сайт</a>
Она выглядит вот так: Как создать свой сайт
BB-код ссылки для форумов (например, можете поставить её в подписи):
[URL="https://myrusakov.ru"]Как создать свой сайт[/URL]

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.

<MyRusakov.ru />

Финансовая грамотность от А до Я

Извлекаем информацию из PDF-файла c Pythоn

Комментарии (0):

E-mail:
Имя: