Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Моя группа

Какая тема Вас интересует больше?

Основы C++ в Unreal Engine 5

Особенности курса:

- 5 часов видео

- 53 задания

- Поддержка от автора

- Все исходники приложены

Чтобы получить Видеокурс,
заполните форму

Другие курсы

10 шагов к созданию своей Web-студии

После семинара:

- Вы узнаете главное отличие богатых от бедных.

- Вы увидите разоблачения множества мифов об успешности и о бизнесе.

- Вы получите свой личный финансовый план прямо на семинаре.

- Мы разберём 10 шагов к созданию своей успешной Web-студии.

- Я расскажу о своих личных историях: об успешных и неуспешных бизнесах. Это мой многолетний опыт, которым я поделюсь с Вами.

Записаться

Другие курсы

Осмельтесь мыслить самостоятельно.

Вольтер

Извлечение текста из PDF файла в PHP

Порой бывает необходимо извлечь текст из PDF файла средствами PHP и далее я Вам покажу пример скрипта, который решаете данную проблему.

Устанавливаем необходимую библиотеку:

composer require smalot/pdfparser

Код скрипта:


<?php

     

    // подключаем загрузчик

    include 'vendor/autoload.php';

    

    // Создаем объект для парсинга PDF

    $parser = new \Smalot\PdfParser\Parser();

    

    

    // парсим PDF файл

    $pdf = $parser->parseFile('technic_report.pdf');

    

    // выводим текст из файла

    print $pdf -> getText();

Обратите внимание на то, что текст, который Вы получите из pdf файла не будет иметь исходного форматирования документа. Однако это не так уж и важно, чтобы извлечь из текста интересующие Вас данные.

Если в PDF файле несколько страниц, то можно пройтись по каждой странице по отдельности:


  // ссылка из PDF

  // Извлекаем все страницы из PDF файла

  $pages  = $pdf->getPages();

   

  // проходимся по каждой странице и получаем текст

  foreach ($pages as $page) {

      echo $page->getText();

  }

А здесь можно получить метаданные PDF файла:


  // извлекаем метаданные из pdf файла

  $details  = $pdf -> getDetails();

   

  // Проходимся по каждому значению.

  foreach ($details as $property => $value) {

     if (is_array($value)) {

         $value = implode(', ', $value);

     }

     echo $property . ' => ' . $value . "\n";

  }

Вот так просто можно, например, автоматизировать обработку большого количества PDF файлов в PHP, извлекая из них необходимые данные.

Создано 14.05.2019 08:56:04
Михаил Русаков

Предыдущая статья Следующая статья

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (https://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: https://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: https://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

Кнопка:
<a href="https://myrusakov.ru" target="_blank"><img src="https://myrusakov.ru/images/button.gif" style="border: 0; height: 31px; width: 88px;" alt="Как создать свой сайт" /></a>
Она выглядит вот так:
Текстовая ссылка:
<a href="https://myrusakov.ru" target="_blank">Как создать свой сайт</a>
Она выглядит вот так: Как создать свой сайт
BB-код ссылки для форумов (например, можете поставить её в подписи):
[URL="https://myrusakov.ru"]Как создать свой сайт[/URL]

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.

<MyRusakov.ru />

Разработчик игр на Unreal Engine

Извлечение текста из PDF файла в PHP

Комментарии (0):

E-mail:
Имя: