Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Моя группа

Какая тема Вас интересует больше?

Основы C++ в Unreal Engine 5

Особенности курса:

- 5 часов видео

- 53 задания

- Поддержка от автора

- Все исходники приложены

Чтобы получить Видеокурс,
заполните форму

Другие курсы

Как стать высокооплачиваемым Unreal-разработчиком: пошаговая инструкция

После семинара:

- Вы узнаете, что нужно делать, чтобы устроиться на работу Unreal-разработчиком.

- Вы узнаете, что нужно изучить, чтобы стать Unreal-разработчиком.

- Вы получите PDF-файл с чек-листом с пошаговым планом.

- Вы узнаете, как ускорить весь процесс в 3-4 раза.

Записаться

Другие курсы

Делай то, что в жизни тебе даётся легко, и делай это изо всех сил.

Неизвестный

Как сделать парсер контента на PHP

У многих из Вас возникают вопросы по поводу создания парсера на PHP. Например, есть какой-то сайт, и Вам необходимо получить с него контент. Я долго не хотел писать эту статью, поскольку конкретного смысла в ней нет. Чтобы сделать парсер на PHP, нужно знать этот язык. А те, кто его знает, такой вопрос просто не зададут. Но в этой статье я расскажу, как вообще создаются парсеры, а также, что конкретно нужно изучать.

Итак, вот список пунктов, которые необходимо пройти, чтобы создать парсер контента на PHP:

Получить содержимое страницы и записать его в строковую переменную. Наиболее простой вариант - это функция file_get_contents(). Если контент доступен только авторизованным пользователям, то тут всё несколько сложнее. Здесь уже надо посмотреть, каков механизм авторизации. Далее, используя cURL, отправить правильный запрос на форму авторизации, получить ответ и затем отправить правильные заголовки (например, полученный идентификатор сессии), а также в этом же запросе обратиться к той странице, которая нужна. Тогда уже в этом ответе Вы получите конечную страницу.
Изучить структуру страницы. Вам нужно найти контент, который Вам необходим и посмотреть, в каком блоке он находится. Если блок, в котором он находится не уникален, то найти другие общие признаки, по которым Вы однозначно сможете сказать, что если строка удовлетворяет им, то это то, что Вам и нужно.
Используя строковые функции, достать из исходной строки нужный Вам контент по признакам, найденным во 2-ом пункте.

Отмечу так же, что всё это поймёт и сможет применить на практике только тот, кто знает PHP. Поэтому те, кто его только начинает изучать, Вам потребуются следующие знания:

Строковые функции.
Библиотека cURL, либо её аналог.
Отличное знание HTML.

Те же, кто ещё вообще не знает PHP, то до парсеров в этом случае ещё далеко, и нужно изучать всю базу. В этом Вам поможет мой курс, либо какие-нибудь книги по PHP.

Безусловно, Америки я в этой статье не открыл, но слишком много вопросов по теме парсеров, поэтому этой статьёй я постарался лишь дать развёрнутый ответ.

Создано 13.01.2014 13:21:08
Михаил Русаков

Предыдущая статья Следующая статья

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (https://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: https://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: https://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

Кнопка:
<a href="https://myrusakov.ru" target="_blank"><img src="https://myrusakov.ru/images/button.gif" style="border: 0; height: 31px; width: 88px;" alt="Как создать свой сайт" /></a>
Она выглядит вот так:
Текстовая ссылка:
<a href="https://myrusakov.ru" target="_blank">Как создать свой сайт</a>
Она выглядит вот так: Как создать свой сайт
BB-код ссылки для форумов (например, можете поставить её в подписи):
[URL="https://myrusakov.ru"]Как создать свой сайт[/URL]

Комментарии (6):

rysich 14.01.2014 07:22:03

Первым делом стоит поинтересоваться, есть ли у сервиса, откуда вы хотите доставать данные, специальный API для извлечения данных. Тогда всё значительно проще, надо только отправить запрос на него и прочитать данные. А если нету API, то да, всё как в этой статье.

Ответить

leo_master 24.11.2015 04:29:02

Ага, так тебе и предоставили, как частному лицу для себя.

Ответить

ivbutusov 30.11.2015 09:53:14

Почему же, на крупных сервисах вроде YouTube и VK выложены руководства по извлечению данных с API, на VK их даже искать не надо, а вот на YouTube они лежат далеко и там не всё на русском, но разобраться можно. Так что можно там обойтись и без шаманств, да и кроме того, некоторые данные можно достать только через API.

Ответить

leo_master 30.11.2015 10:47:48

В том и дело, что мне не нужен ютуб или вк. Тут надо парсить напрямую с кода. В начале 2000-х я уже делал такое с внесением в базу SQL.

Ответить

ivbutusov 01.12.2015 15:29:46

Значит, мы просто пишем о разных вещах. Но с течением времени даже у многих мелких сайтов будут появляться (или уже появились) встроенные API-сервисы, потому что у них есть приложения для iOS или Android, которые работают через API. Кроме того, такие механизмы есть у крупных CMS, где тоже некоторые данные можно получить либо с API, либо через RSS/Atom. Так что логичнее использовать вещи, которые легче реализовать и которые менее требовательны по ресурсам. Парсинг во многих случаях не обязателен или лучше его комбинировать с теми методами, о которых я написал выше, хотя в вашем конкретном случае парсинг может быть и единственным выходом. Да, и если Вы не нашли, где у сайта API или его описание, это не значит, что его там нет :)

Ответить

leo_master 24.11.2015 04:20:43

Я давно не занимался программированием в силу других приоритетов. Библиотеку cURL поднял на серваке и попробую на днях пошаманить с бубном. За совет спасибо сразу, а то ломал голову как обойти авторизацию. Просто надоело смотреть где что новое из фильмов появилось. Лично для себя скриптик написать со сбросом на мыло. Вот ссылку на разработчика с мэньюалом могли бы и сразу вписать :)

Ответить

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.

<MyRusakov.ru />

WordPress 6 с Нуля до Гуру

Как сделать парсер контента на PHP

Комментарии (6):

E-mail:
Имя: