<MyRusakov.ru />

Программирование на Python с Нуля до Гуру

Программирование на Python с Нуля до Гуру

Данный курс научит Вас программировать на языке Python, который крайне желательно знать любому, кто хоть иногда имеет дело с компьютерами. Курс состоит из 6 разделов, в которых Вы с нуля освоите этот язык и сможете создавать самые разные программы для самых разных задач любой сложности.

К курсу прилагается множество упражнений и все исходники из уроков.

Наконец, Вы получите ещё несколько бонусов: "Создание калькулятора на Python", "Создание игры на Python" и "Правильная работа со справочником".

Подробнее
Подписка

Подписавшись по E-mail, Вы будете получать уведомления о новых статьях.

Подписка Подписаться

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Мой аккаунт Моя группа
Опрос

Каким движком Вы предпочитаете пользоваться?

Извлечение текста из PDF файла в PHP

Извлечение текста из PDF файла в PHP

Порой бывает необходимо извлечь текст из PDF файла средствами PHP и далее я Вам покажу пример скрипта, который решаете данную проблему.

Устанавливаем необходимую библиотеку:

composer require smalot/pdfparser

Код скрипта:

<?php
     
    // подключаем загрузчик
    include 'vendor/autoload.php';
    
    // Создаем объект для парсинга PDF
    $parser = new \Smalot\PdfParser\Parser();
    
    
    // парсим PDF файл
    $pdf = $parser->parseFile('technic_report.pdf');
    
    // выводим текст из файла
    print $pdf -> getText();

Обратите внимание на то, что текст, который Вы получите из pdf файла не будет иметь исходного форматирования документа. Однако это не так уж и важно, чтобы извлечь из текста интересующие Вас данные.

Если в PDF файле несколько страниц, то можно пройтись по каждой странице по отдельности:

  // ссылка из PDF
  // Извлекаем все страницы из PDF файла
  $pages  = $pdf->getPages();
   
  // проходимся по каждой странице и получаем текст
  foreach ($pages as $page) {
      echo $page->getText();
  }

А здесь можно получить метаданные PDF файла:

  // извлекаем метаданные из pdf файла
  $details  = $pdf -> getDetails();
   
  // Проходимся по каждому значению.
  foreach ($details as $property => $value) {
     if (is_array($value)) {
         $value = implode(', ', $value);
     }
     echo $property . ' => ' . $value . "\n";
  }

Вот так просто можно, например, автоматизировать обработку большого количества PDF файлов в PHP, извлекая из них необходимые данные.

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (http://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: http://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: http://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Порекомендуйте эту статью друзьям:

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

  1. Кнопка:

    Она выглядит вот так: Как создать свой сайт

  2. Текстовая ссылка:

    Она выглядит вот так: Как создать свой сайт

  3. BB-код ссылки для форумов (например, можете поставить её в подписи):

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.