<MyRusakov.ru />

PHP и MySQL с Нуля до Гуру 3.0

PHP и MySQL с Нуля до Гуру 3.0

Данный курс научит Вас программировать на самом популярном Web-языке в мире - PHP. Курс состоит из 9 разделов, в которых с нуля рассказывается и показывается процесс написания различных скриптов на PHP.

В курсе Вы узнаете всю необходимую теоретическую часть, а также увидите массу практических примеров, в том числе, и из моей практики.

В Бонусе «Создание сайта для библиотеки» Вы увидите применение знаний из основного курса при создании полноценного проекта.

Просмотрев данный курс, Вы сможете создавать абсолютно любые PHP-сайты любой сложности.

Подробнее
Подписка

Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

YouTube Подписаться

Подписавшись по E-mail, Вы будете получать уведомления о новых статьях.

Подписка Подписаться

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Мой аккаунт Моя группа
Опрос

Зачем Вы изучаете программирование/создание сайтов?

Извлекаем информацию из PDF-файла c Pythоn

Извлекаем информацию из PDF-файла c Pythоn

Как известно одной из сфер применения языка Python является автоматизация рутинных задач. Одной из них является извлечение метаданных и некоторого текста из PDF-файла. Для подобных целей существует библиотека PyPDF2. Которая может быть полезна, когда выполняются определенные виды автоматизации для уже существующих PDF-файлов.

Для создания скрипта понадобится Python и соответствующая библиотека. И прежде создадим виртуальную среду, куда установим все необходимое.


>>>python -m venv my_pypdf2

# активируем ее

>>>cd my_pypdf2/Scripts
>>>activate

# теперь установим саму библиотеку pypdf2
>>>pip install pypdf2

Вот текущие типы данных, которые могут быть извлечены:

Автор

Создатель

Производитель

Предмет

Заглавие

Количество страниц

Вы можете использовать любой PDF-файл, который у вас есть под рукой на компьютере.

Напишем код, используя этот PDF-файл, и узнаем, как можно получить доступ к атрибутам:



import sys
from PyPDF2 import PdfFileReader

def take_inf(path_to_pdf):
    with open(path_to_pdf, 'rb') as f:
        pdf = PdfFileReader(f)
        inf = pdf.getDocumentInfo()
        number_of_pages = pdf.getNumPages()

    txt = f"""
    Информация об {path_to_pdf}: 

    Автор: {inf.author}
    Создатель: {inf.creator}
    Производитель: {inf.producer}
    Предмет: {inf.subject}
    Заглавие: {inf.title}
    Количество страниц: {number_of_pages}
    """

    print(txt)
    return inf

if __name__ == '__main__':

# целевой pdf документ будет предаваться в качестве аргумента cmd
# при отсутствии ввода выйдет сообщение из exept 
    try:
      path = sys.argv[1:][0]
      take_inf(path)
    except:
      print("Где книга")

'''
вывод


    Автор: None
    Создатель: Simpo Word to PDF
    Производитель: Simpo Word to PDF
    Предмет: None
    Заглавие: None
    Количество страниц: 3
'''

Таким образом, мы узнали как извлечь метаданные из PDF-файла.

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (http://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: http://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: http://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Порекомендуйте эту статью друзьям:

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

  1. Кнопка:

    Она выглядит вот так: Как создать свой сайт

  2. Текстовая ссылка:

    Она выглядит вот так: Как создать свой сайт

  3. BB-код ссылки для форумов (например, можете поставить её в подписи):

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.