<MyRusakov.ru />

Профессия Web-разработчик

Профессия Web-разработчик

Этот комплект за 8 месяцев превратит Вас в Web-разработчика с нуля. Учиться достаточно 1 час в день.

Начнёте Вы с HTML, CSS и вёрстки сайтов. Потом перейдёте к программированию и JavaScript. Затем изучите PHP, MySQL, SQL, Python. Изучите Web-фреймворки Laravel и Django. Создадите 5 своих сайтов для портфолио.

Комплект содержит:

- 540 видеоуроков

- 110 часов видео

- 1205 заданий для закрепления материала из уроков

- 5 финальных тестов

- 7 сертификатов

- 12 Бонусных курсов

Подробнее
Подписка

Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

YouTube Подписаться

Подписавшись по E-mail, Вы будете получать уведомления о новых статьях.

Подписка Подписаться

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Мой аккаунт Моя группа
Опрос

Какая тема Вас интересует больше?

Самые частые слова на сайте с Python и bs4

Самые частые слова на сайте с Python и bs4

В сегодняшней статье мы рассмотрим скрипт по подсчету частот слов на сайте. И как следовало ожидать реализуем мы это с помощью Python. Задача состоит в динамическом извлечении самых частых слов из страницы сайта.

Для начала нам понадобится создать парсер сайта с помощью requests и beautiful soup. Он будет извлекать данные с сайта и сохранять в виде списка. Следует иметь в виду, что среди извлеченной информации могут встречаться нежелательные символы, которые мы отфильтруем.

Перейдем к коду:



# Скрипт Python3 подсчитывает частоту слов
# после парсинга веб-страницы

import requests
from bs4 import BeautifulSoup
import operator
from collections import Counter



'''Функция веб-скарпинга, получает информацию
с веб-сайта, и передает ее
в функцию фильтр filter_wlist()'''


def scarpy(url):

 
# пустой список для хранения
 
# полученных данных
  wlist
= []
  sour_text
= requests.get(url).text

 
# Объект BeautifulSoup, который будет
 
# пинговать запрошенный URL-адрес для получения данных

  t_soup
= BeautifulSoup(sour_text, 'html.parser')

 
# Текст на данной веб-странице хранится
 
# во вложенных тегах ul
 
for each_text in t_soup.findAll('ul'):
    cont
= each_text.text

   
# используйте split(), чтобы разбить предложение на
   
# слова и преобразуйте их в нижний регистр
    w
= cont.lower().split()

   
for e_w in w:
      wlist
.append(e_w)
    filter_wlist
(wlist)


# Следующая функция будет удалять любой нежелательный
# символ
def filter_wlist(wordlist):

  cln_lst
= []
 
for word in wordlist:
    symbols
= "!@#$%^&*()_-+={[}]|\;:\"<>?/., "

   
for i in range(len(symbols)):
      word
= word.replace(symbols[i], '')

   
if len(word) > 0:
      cln_lst
.append(word)
  create_dict
(cln_lst)


# Создаем словарь, содержащий каждое слово
# количество и топ 20 встречающихся слов
def create_dict(clean_list):
  word_count
= {}

 
for word in clean_list:
   
if word in word_count:
      word_count
[word] += 1
   
else:
      word_count
[word] = 1


  c
= Counter(word_count)

 
# Функция возвращает наиболее часто встречающиеся элементы
  top
= c.most_common(20)
 
print(top)


# Запуск кода
if __name__ == '__main__':
  url
= "https://myrusakov.ru/python-tutorial.html"
  scarpy
(url)


Полученный пример имеет множество вариантов использования.Один из них - это синтаксический анализ и определение тематики сайта. Конечно данный пример не демонстрирует полностью возможности парсинга с Python и beautiful soup, все же он дает понимание основных принципов его работы.

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (http://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: http://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: http://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Порекомендуйте эту статью друзьям:

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

  1. Кнопка:

    Она выглядит вот так: Как создать свой сайт

  2. Текстовая ссылка:

    Она выглядит вот так: Как создать свой сайт

  3. BB-код ссылки для форумов (например, можете поставить её в подписи):

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.