Подпишитесь на мой канал на YouTube, где я регулярно публикую новые видео.

Добавляйтесь ко мне в друзья ВКонтакте! Отзывы о сайте и обо мне оставляйте в моей группе.

Мой аккаунт Моя группа

Какая тема Вас интересует больше?

Основы Unreal Engine 5

Пройдя курс:

- Вы получите необходимую базу по Unreal Engine 5

- Вы познакомитесь с множеством инструментов в движке

- Вы научитесь создавать несложные игры

Общая продолжительность курса 4 часа, плюс множество упражнений и поддержка!

Чтобы получить Видеокурс,
заполните форму

Другие курсы

Как стать высокооплачиваемым Unreal-разработчиком: пошаговая инструкция

После семинара:

- Вы узнаете, что нужно делать, чтобы устроиться на работу Unreal-разработчиком.

- Вы узнаете, что нужно изучить, чтобы стать Unreal-разработчиком.

- Вы получите PDF-файл с чек-листом с пошаговым планом.

- Вы узнаете, как ускорить весь процесс в 3-4 раза.

Записаться

Другие курсы

Когда, совершив ошибку, не исправил её, это и называется совершить ошибку.

Конфуций

Обработка html таблиц с Python и Selenium

Здравствуйте! В сегодняшней статье мы рассмотрим как распарсить HTML таблицу при помощи Python и Selenium webdriver. И прежде всего создадим html файл с примером таблицы.



<!DOCTYPE html>

<html>

<style>

table, th, td {

  border:1px solid black;

}

</style>

<body>



<h2>A basic HTML table</h2>



<table style="width:100%">

  <tr>

    <td>Язык</td>

    <td>Рейтинг</td>

  </tr>

  <tr>

    <td>Python</td>

    <td>10</td>

  </tr>

  <tr>

    <td>JavaScript</td>

    <td>6</td>

  </tr>

</table>







</body>

</html>

Если все сделано правильно, то в браузере должна появиться таблица.

Далее скачиваем selenium web driver для Firefox. По адресу https://github.com/mozilla/geckodriver/releases/. Называется он geckodriver. Необходимо скачать архив и распаковать его.



# Импортируем  модули драйвера

import sys

from selenium import webdriver

from selenium.webdriver.common.by import By

import time



# В экземпляре класса передаем путь к exe файлу  вебдрайвера 



driver = webdriver.Firefox(executable_path=r'путь_к_драйверу/geckodriver.exe')





# ссылка на html таблицу,

# впереди обязательно прописываем file:///

link2 = "file:///C:/Users/УЗИ/Desktop/Таблица.html"



print(link2)



try:

  # открываем ссылку в браузере

  driver.get(link2)



  # находим количество строк в таблице

  rows = len(driver.find_elements(by=By.XPATH, value = '/html/body/table/tbody/tr'))

  # подсчет количества столбцов 

  cols = len(driver.find_elements(by=By.XPATH, value = '/html/body/table/tbody/tr[1]/td'))





  print(rows)

  print(cols)



  # итерация по строкам и столбцам таблицы

  for r in range(2, rows+1):

    for c in range(1, cols+1):

        value = driver.find_element(by=By.XPATH, value = '/html/body/table/tbody/tr['+str(r)+']/td['+str(c)+']').text

        print(value, end = '           \n')

finally:  

  time.sleep(30)

  # обязательно  прописываем выход из вебдрайвера

  driver.quit()



# вывод



/*

Python

10

JavaScript

6

*/

В нашем примере используются локаторы типа /html/body/table/tbody/tr. Для его получения, необходимо сперва зайти в инструменты разработчика, выбрать элемент из ячейки таблицы и правой кнопкой мыши скопировать XPATH.

По ним вебдрайвер находит искомые элементы. Метод find_elements находит все элементы с данным локатором и возвращает список. Далее при помощи метода len вычисляется длина списка.

Для парсинга таблицы, вычисленные значения , передаются в цикл for, где они подставляются в локатор следующим образом tr['+str(r)+']/td['+str(c)+']. Методом text получаем текст содержащийся по данной ячейке таблицы.

Таким образом, последовательно, можно пройтись по достаточно крупной таблице с какого-либо сайта.

Создано 22.11.2022 12:41:13
Михаил Русаков

Предыдущая статья Следующая статья

Копирование материалов разрешается только с указанием автора (Михаил Русаков) и индексируемой прямой ссылкой на сайт (https://myrusakov.ru)!

Добавляйтесь ко мне в друзья ВКонтакте: https://vk.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: https://vk.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Если у Вас остались какие-либо вопросы, либо у Вас есть желание высказаться по поводу этой статьи, то Вы можете оставить свой комментарий внизу страницы.

Если Вам понравился сайт, то разместите ссылку на него (у себя на сайте, на форуме, в контакте):

Кнопка:
<a href="https://myrusakov.ru" target="_blank"><img src="https://myrusakov.ru/images/button.gif" style="border: 0; height: 31px; width: 88px;" alt="Как создать свой сайт" /></a>
Она выглядит вот так:
Текстовая ссылка:
<a href="https://myrusakov.ru" target="_blank">Как создать свой сайт</a>
Она выглядит вот так: Как создать свой сайт
BB-код ссылки для форумов (например, можете поставить её в подписи):
[URL="https://myrusakov.ru"]Как создать свой сайт[/URL]

Комментарии (0):

Для добавления комментариев надо войти в систему.
Если Вы ещё не зарегистрированы на сайте, то сначала зарегистрируйтесь.

<MyRusakov.ru />

Профессия Web-разработчик

Обработка html таблиц с Python и Selenium

Комментарии (0):

E-mail:
Имя: