Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Моя группа

Какая тема Вас интересует больше?

Основы C++ в Unreal Engine 5

Особенности курса:

- 5 часов видео

- 53 задания

- Поддержка от автора

- Все исходники приложены

Чтобы получить Видеокурс,
заполните форму

Другие курсы

Как стать высокооплачиваемым Unreal-разработчиком: пошаговая инструкция

После семинара:

- Вы узнаете, что нужно делать, чтобы устроиться на работу Unreal-разработчиком.

- Вы узнаете, что нужно изучить, чтобы стать Unreal-разработчиком.

- Вы получите PDF-файл с чек-листом с пошаговым планом.

- Вы узнаете, как ускорить весь процесс в 3-4 раза.

Записаться

Другие курсы

Не тот беден, кто мало имеет, а тот, кто хочет многого.

Сенека

Извлекаем информацию из PDF-файла c Pythоn

Как известно одной из сфер применения языка Python является автоматизация рутинных задач. Одной из них является извлечение метаданных и некоторого текста из PDF-файла. Для подобных целей существует библиотека PyPDF2. Которая может быть полезна, когда выполняются определенные виды автоматизации для уже существующих PDF-файлов.

Для создания скрипта понадобится Python и соответствующая библиотека. И прежде создадим виртуальную среду, куда установим все необходимое.



>>>python -m venv my_pypdf2



# активируем ее



>>>cd my_pypdf2/Scripts

>>>activate



# теперь установим саму библиотеку pypdf2

>>>pip install pypdf2

Вот текущие типы данных, которые могут быть извлечены:

Автор

Создатель

Производитель

Предмет

Заглавие

Количество страниц

Вы можете использовать любой PDF-файл, который у вас есть под рукой на компьютере.

Напишем код, используя этот PDF-файл, и узнаем, как можно получить доступ к атрибутам:





import sys

from PyPDF2 import PdfFileReader



def take_inf(path_to_pdf):

    with open(path_to_pdf, 'rb') as f:

        pdf = PdfFileReader(f)

        inf = pdf.getDocumentInfo()

        number_of_pages = pdf.getNumPages()



    txt = f"""

    Информация об {path_to_pdf}: 



    Автор: {inf.author}

    Создатель: {inf.creator}

    Производитель: {inf.producer}

    Предмет: {inf.subject}

    Заглавие: {inf.title}

    Количество страниц: {number_of_pages}

    """



    print(txt)

    return inf



if __name__ == '__main__':



# целевой pdf документ будет предаваться в качестве аргумента cmd

# при отсутствии ввода выйдет сообщение из exept 

    try:

      path = sys.argv[1:][0]

      take_inf(path)

    except:

      print("Где книга")



'''

вывод





    Автор: None

    Создатель: Simpo Word to PDF

    Производитель: Simpo Word to PDF

    Предмет: None

    Заглавие: None

    Количество страниц: 3

'''

Таким образом, мы узнали как извлечь метаданные из PDF-файла.

Создано 08.03.2022 10:14:45
Михаил Русаков

Предыдущая статья Следующая статья

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (http://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: http://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: http://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

Кнопка:
<a href="https://myrusakov.ru" target="_blank"><img src="https://myrusakov.ru/images/button.gif" style="border: 0; height: 31px; width: 88px;" alt="Как создать свой сайт" /></a>
Она выглядит вот так:
Текстовая ссылка:
<a href="https://myrusakov.ru" target="_blank">Как создать свой сайт</a>
Она выглядит вот так: Как создать свой сайт
BB-код ссылки для форумов (например, можете поставить её в подписи):
[URL="https://myrusakov.ru"]Как создать свой сайт[/URL]

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.

<MyRusakov.ru />

Создание нейросетей на Python

Извлекаем информацию из PDF-файла c Pythоn

Комментарии (0):

E-mail:
Имя: