Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Моя группа

Какая тема Вас интересует больше?

Создание нейросетей на Python для начинающих

Пройдя курс:

- Вы установите нужное ПО

- Вы освоите терминологию

- Вы научитесь создавать нейросети

Также Вы получите множество упражнений и поддержку!

Чтобы получить Видеокурс,
заполните форму

Другие курсы

Как стать высокооплачиваемым Unreal-разработчиком: пошаговая инструкция

После семинара:

- Вы узнаете, что нужно делать, чтобы устроиться на работу Unreal-разработчиком.

- Вы узнаете, что нужно изучить, чтобы стать Unreal-разработчиком.

- Вы получите PDF-файл с чек-листом с пошаговым планом.

- Вы узнаете, как ускорить весь процесс в 3-4 раза.

Записаться

Другие курсы

Хотя в мире нет предмета, который был бы слабее и нежнее воды, но она может разрушить самый твердый предмет.

Лао-Цзы

Удаляем ненужные теги в тексте при помощи Python

Привет, друзья! В сегодняшней статье мы рассмотрим как удалить все внутренние HTML-теги из строки и оставить только внешние, например, сохранить тег p, но убрать все вложенные теги, такие как b, и другие. Это может понадобиться, если вы хотите очистить текст от форматирования или подготовить его к публикации в системе, где HTML не поддерживается.

Зачем это нужно?

Представьте ситуацию: вы получили HTML-текст из CMS, блога или API, и внутри абзаца есть разное форматирование — жирный, курсив, ссылки и т. д. Но вам нужен просто чистый текст внутри. Вручную это делать долго, а автоматизация с помощью Python позволяет быстро обработать любое количество строк.

Как это сделать?

Для удаления всех внутренних тегов мы можем воспользоваться двумя подходами:

Через регулярные выражения (re)
Через библиотеку BeautifulSoup

1. Удаление тегов с помощью модуля re

Этот способ подходит, если вам нужен быстрый результат и нет сложной вложенности тегов.

import re



html = 'Привет, друзья! Сегодня я расскажу вам, как работать с форматом JSON в Python. Это очень полезный навык, особенно если вы работаете с API, собираете данные из интернета или обмениваетесь информацией между разными системами.
'



# Удаляем все HTML-теги

cleaned_text = re.sub(r']+>', '', html)



# Оборачиваем обратно в 

result = f'
{cleaned_text}
'



print(result)

Результат:

Привет, друзья! Сегодня я расскажу вам, как работать с форматом JSON в Python. Это очень полезный навык, особенно если вы работаете с API, собираете данные из интернета или обмениваетесь информацией между разными системами.

2. Использование BeautifulSoup

Если ваш HTML более сложный или содержит вложенные структуры, то лучше использовать библиотеку BeautifulSoup. Она аккуратно извлечёт текст из HTML и позволит сохранить нужные теги.

from bs4 import BeautifulSoup



html = 'Привет, друзья! Сегодня я расскажу вам, как работать с форматом JSON в Python. Это очень полезный навык, особенно если вы работаете с API, собираете данные из интернета или обмениваетесь информацией между разными системами.
'



soup = BeautifulSoup(html, 'html.parser')

text_only = soup.get_text()



result = f'{text_only}
'

print(result)

Какой способ выбрать?

re — легче и быстрее для простых случаев.
BeautifulSoup — надежнее для сложных HTML-структур.

Если вы хотите научиться применять Python для решения повседневных задач, рекомендую пройти курс "Написание лайфхаков на Python". Там вы узнаете, как автоматизировать рутину, работать с файлами, парсить данные и многое другое!

Создано 05.06.2025 09:22:21
Михаил Русаков

Предыдущая статья Следующая статья

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (https://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: https://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: https://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

Кнопка:
<a href="https://myrusakov.ru" target="_blank"><img src="https://myrusakov.ru/images/button.gif" style="border: 0; height: 31px; width: 88px;" alt="Как создать свой сайт" /></a>
Она выглядит вот так:
Текстовая ссылка:
<a href="https://myrusakov.ru" target="_blank">Как создать свой сайт</a>
Она выглядит вот так: Как создать свой сайт
BB-код ссылки для форумов (например, можете поставить её в подписи):
[URL="https://myrusakov.ru"]Как создать свой сайт[/URL]

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.

<MyRusakov.ru />

Программирование на C++ в Unreal Engine 5