Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Моя группа

Какая тема Вас интересует больше?

Основы Unreal Engine 5

Пройдя курс:

- Вы получите необходимую базу по Unreal Engine 5

- Вы познакомитесь с множеством инструментов в движке

- Вы научитесь создавать несложные игры

Общая продолжительность курса 4 часа, плюс множество упражнений и поддержка!

Чтобы получить Видеокурс,
заполните форму

Другие курсы

Как стать высокооплачиваемым Unreal-разработчиком: пошаговая инструкция

После семинара:

- Вы узнаете, что нужно делать, чтобы устроиться на работу Unreal-разработчиком.

- Вы узнаете, что нужно изучить, чтобы стать Unreal-разработчиком.

- Вы получите PDF-файл с чек-листом с пошаговым планом.

- Вы узнаете, как ускорить весь процесс в 3-4 раза.

Записаться

Другие курсы

Человек не будет наслаждаться едой и питьем, если не перестрадает от голода и жажды.

Аврелий Августин

Парсинг сайтов в Python

Одной из самых частых задач в Python, да и не только в нем, является парсинг какого-либо сайта. Сделать средствами Python это достаточно просто и удобно и далее я Вам покажу как.

Код:


# файл site_parser.py



import requests               # библиотека для работы с http запросами

from bs4 import BeautifulSoup # разбор html

import time                   # работа со временем

import logging                # логирование





# шаблон URL у которого меняется идентификатор

URL = 'https:/example.com/post/%d'





# заголовки запроса, представляемся браузером Firefox/45 на Mac OS

headers = {

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:45.0) Gecko/20100101 Firefox/45.0'

}



# файл, куда будут сохраняться логи

logging.basicConfig(filename="parser.log")







def parse(start=1, limit=10):



    """

        Данная функция непосредственно предназначена для парсинга.

        Параметр start и limit - идентификаторы запроса - от и до.

    """





    # делим больую выгрузку на меньшие части

    # и записываем в файл

    f = open('parsed/parsed_{start}_{limit}.csv'.format(start=start, limit=limit), 'a', encoding='utf-8')



    # генерируем id из заданного диапазона

    for counter in range(start, limit):



        try:

            # отправляем запрос на сервер

            req = requests.get(URL % counter, headers=headers)

        

        # логируем ошибки с помощью встроенного модуля

        # и переходим на следующую итерацию

        except requests.ConnectionError as e:

            logging.error('Id={id}; message={message}'.format(id=counter, message=str(e)))

            continue



        except requests.Timeout as e:

            logging.error('Id={id}; message={message}'.format(id=counter, message=str(e)))

            continue



        except requests.RequestException as e:

            logging.error('Id={id}; message={message}'.format(id=counter, message=str(e)))

            continue

    

        # если статус не равен 404, т.е. страница найдена

        if req.status_code != 404:

            

            # создаем объект html парсера

            soup = BeautifulSoup(req.text, 'lxml')

            

            # и получаем нужный div блок с контентом

            info = soup.find('div', {'class': 'block_cont'})

            

            # форматируем строку по желанию

            text = 'ID' + str(counter) + '; ' + info.text.replace('  ', '').strip().replace('\n', ';')

            

            # выводим в консоль

            print(text)

            

            # записываем в файл

            f.write(text + '\n')

            

            # останавливаем поток на 10мс

            time.sleep(0.1)



    f.close()





# создает диапазоны id

def create_ranges(start, stop, step):

    return [[i, i + step - 1] for i in range(start, stop, step)]

Файл main.py


from site_parser import parse, create_ranges # импортируем наши функции

from threading import Thread                 # импортируем класс Thread для работы с потоками





# создаем поток 

def create_thread(start, limit):



    # параметр target - наша функция для парсинга, args - кортеж аргументов для нее

    thread = Thread(target=parse, args=(start, limit))

    thread.start() # запускаем поток

    # thread.join()





def execute():

    

    # создаем диапазоны идентификаторов

    ranges = create_ranges(1, 100000, 10000)



    for rng in ranges:

        # запускаем поток

        create_thread(*rng)





# запускаем программу

if __name__ == '__main__':

    execute()

Запускаем так:


C:\> python main.py

Программа начинает выгружать информацию в несколько потоков и отображать вывод в консоль.

Вот так просто на Python можно сделать парсинг сайта.

Создано 14.04.2020 13:33:57
Михаил Русаков

Предыдущая статья Следующая статья

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (http://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: http://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: http://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

Кнопка:
<a href="https://myrusakov.ru" target="_blank"><img src="https://myrusakov.ru/images/button.gif" style="border: 0; height: 31px; width: 88px;" alt="Как создать свой сайт" /></a>
Она выглядит вот так:
Текстовая ссылка:
<a href="https://myrusakov.ru" target="_blank">Как создать свой сайт</a>
Она выглядит вот так: Как создать свой сайт
BB-код ссылки для форумов (например, можете поставить её в подписи):
[URL="https://myrusakov.ru"]Как создать свой сайт[/URL]

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.

<MyRusakov.ru />

Разработчик игр на Unreal Engine

Парсинг сайтов в Python

Файл main.py

Комментарии (0):

E-mail:
Имя: