Извлечение текста из PDF файла в PHP
Порой бывает необходимо извлечь текст из PDF файла средствами PHP и далее я Вам покажу пример скрипта, который решаете данную проблему.
Устанавливаем необходимую библиотеку:
composer require smalot/pdfparser
Код скрипта:
<?php
// подключаем загрузчик
include 'vendor/autoload.php';
// Создаем объект для парсинга PDF
$parser = new \Smalot\PdfParser\Parser();
// парсим PDF файл
$pdf = $parser->parseFile('technic_report.pdf');
// выводим текст из файла
print $pdf -> getText();
Обратите внимание на то, что текст, который Вы получите из pdf файла не будет иметь исходного форматирования документа. Однако это не так уж и важно, чтобы извлечь из текста интересующие Вас данные.
Если в PDF файле несколько страниц, то можно пройтись по каждой странице по отдельности:
// ссылка из PDF
// Извлекаем все страницы из PDF файла
$pages = $pdf->getPages();
// проходимся по каждой странице и получаем текст
foreach ($pages as $page) {
echo $page->getText();
}
А здесь можно получить метаданные PDF файла:
// извлекаем метаданные из pdf файла
$details = $pdf -> getDetails();
// Проходимся по каждому значению.
foreach ($details as $property => $value) {
if (is_array($value)) {
$value = implode(', ', $value);
}
echo $property . ' => ' . $value . "\n";
}
Вот так просто можно, например, автоматизировать обработку большого количества PDF файлов в PHP, извлекая из них необходимые данные.
-
- Михаил Русаков
Комментарии (0):
Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.