Краткий обзор раздела: Модуль BeautifulSoup4 в Python, разбор HTML

Содержание с кратким описанием:

ОБЗОР: Модуль BeautifulSoup4 в Python, разбор HTML.

BeautifulSoup4 (bs4) - это библиотека Python для извлечения данных из файлов HTML и XML. Для естественной навигации, поиска и изменения дерева HTML, по умолчанию использует встроенный в Python парсер html.parser. Поддерживает ряд сторонних парсеров: lxml, html5lib и xml (разбор XML-документов).

Основной объект Tag() модуля BeautifulSoup4 в Python.

Модуль BeautifulSoup4 превращает HTML-документ в дерево объектов Python, которое будет состоять в основном из трех видов - это основной объект HTML-дерева Tag, объект самого дерева BeautifulSoup и NavigableString.

Методы .find_all() и .find*() модуля BeautifulSoup4 в Python.

Метод .find_all() модуля BeautifulSoup4 просматривает и извлекает всех _потомков тега_, которые соответствуют перепаданным фильтрующим аргументам.

CSS селекторы и модуль BeautifulSoup4 в Python.

В модуле BeautifulSoup4 есть метод BeautifulSoup.select(), который использует SoupSieve, чтобы запустить CSS селектор[bs4.Tag] есть похожий метод, который запускает CSS селектор в отношении содержимого одного тега.

Метод .get_text() модуля BeautifulSoup4 в Python.

Метод .get_text() модуля BeautifulSoup4 возвращает весь текст HTML-документа или HTML-тега в виде единственной строки Unicode. В случае, если нужно отформатировать текст самостоятельно, то для его извлечения из HTML-документа можно воспользоваться атрибутом .stripped_strings.

Разбор части документа в BeautifulSoup4 Python.

Класс SoupStrainer позволяет выбрать, какие части входящего HTML-документ разбирать игнорируя все остальное. Нужно только создать объект SoupStrainer и передать его в конструктор BeautifulSoup() в качестве аргумента parse_only.

Ошибки при чтении и разборе HTML модулем BeautifulSoup4 в Python.

Разобраны наиболее частые ошибки/исключения, возникающие: при чтении HTML-документа, при разборе HTML-документа и проблемы несоответствия версий.