Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Моя группа

Какая тема Вас интересует больше?

Мастер-класс по созданию сайта на WordPress 6

Этот видеоурок длится всего 21 минуту, но уже в конце создан полностью рабочий сайт на WordPress (с применением ChatGPT). И весь процесс Вы увидите своими глазами, а повторить - не составит труда!

Чтобы получить Видеокурс,
заполните форму

Другие курсы

10 шагов к созданию своей Web-студии

После семинара:

- Вы узнаете главное отличие богатых от бедных.

- Вы увидите разоблачения множества мифов об успешности и о бизнесе.

- Вы получите свой личный финансовый план прямо на семинаре.

- Мы разберём 10 шагов к созданию своей успешной Web-студии.

- Я расскажу о своих личных историях: об успешных и неуспешных бизнесах. Это мой многолетний опыт, которым я поделюсь с Вами.

Записаться

Другие курсы

Тот, который передвигает горы, сначала убирает маленькие камешки.

Конфуций

Самые частые слова на сайте с Python и bs4

В сегодняшней статье мы рассмотрим скрипт по подсчету частот слов на сайте. И как следовало ожидать реализуем мы это с помощью Python. Задача состоит в динамическом извлечении самых частых слов из страницы сайта.

Для начала нам понадобится создать парсер сайта с помощью requests и beautiful soup. Он будет извлекать данные с сайта и сохранять в виде списка. Следует иметь в виду, что среди извлеченной информации могут встречаться нежелательные символы, которые мы отфильтруем.

Перейдем к коду:





# Скрипт Python3 подсчитывает частоту слов 

# после парсинга веб-страницы



import requests

from bs4 import BeautifulSoup

import operator

from collections import Counter







'''Функция веб-скарпинга, получает информацию

с веб-сайта, и передает ее 

в функцию фильтр filter_wlist()'''



def scarpy(url):



  # пустой список для хранения

  # полученных данных

  wlist = []

  sour_text = requests.get(url).text



  # Объект BeautifulSoup, который будет

  # пинговать запрошенный URL-адрес для получения данных



  t_soup = BeautifulSoup(sour_text, 'html.parser')



  # Текст на данной веб-странице хранится 

  # во вложенных тегах ul

  for each_text in t_soup.findAll('ul'):

    cont = each_text.text



    # используйте split(), чтобы разбить предложение на

    # слова и преобразуйте их в нижний регистр

    w = cont.lower().split()



    for e_w in w:

      wlist.append(e_w)

    filter_wlist(wlist)





# Следующая функция будет удалять любой нежелательный

# символ

def filter_wlist(wordlist):



  cln_lst = []

  for word in wordlist:

    symbols = "!@#$%^&*()_-+={[}]|\;:\"<>?/., "



    for i in range(len(symbols)):

      word = word.replace(symbols[i], '')



    if len(word) > 0:

      cln_lst.append(word)

  create_dict(cln_lst)





# Создаем словарь, содержащий каждое слово

# количество и топ 20 встречающихся слов

def create_dict(clean_list):

  word_count = {}



  for word in clean_list:

    if word in word_count:

      word_count[word] += 1

    else:

      word_count[word] = 1





  c = Counter(word_count)



  # Функция возвращает наиболее часто встречающиеся элементы

  top = c.most_common(20)

  print(top)





# Запуск кода

if __name__ == '__main__':

  url = "https://myrusakov.ru/python-tutorial.html"

 
scarpy(url)

Полученный пример имеет множество вариантов использования.Один из них - это синтаксический анализ и определение тематики сайта. Конечно данный пример не демонстрирует полностью возможности парсинга с Python и beautiful soup, все же он дает понимание основных принципов его работы.

Создано 28.09.2021 13:08:04
Михаил Русаков

Предыдущая статья Следующая статья

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (https://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: https://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: https://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

Кнопка:
<a href="https://myrusakov.ru" target="_blank"><img src="https://myrusakov.ru/images/button.gif" style="border: 0; height: 31px; width: 88px;" alt="Как создать свой сайт" /></a>
Она выглядит вот так:
Текстовая ссылка:
<a href="https://myrusakov.ru" target="_blank">Как создать свой сайт</a>
Она выглядит вот так: Как создать свой сайт
BB-код ссылки для форумов (например, можете поставить её в подписи):
[URL="https://myrusakov.ru"]Как создать свой сайт[/URL]

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.

<MyRusakov.ru />

Профессия Web-разработчик

Самые частые слова на сайте с Python и bs4

Комментарии (0):

E-mail:
Имя: