Сообщить об ошибке.

Краткий обзор раздела: Модуль BeautifulSoup4 в Python, разбор HTML

Содержание с кратким описанием:

ОБЗОР: Модуль BeautifulSoup4 в Python, разбор HTML.
BeautifulSoup4 (bs4) - это библиотека Python для извлечения данных из файлов HTML и XML. Для естественной навигации, поиска и изменения дерева HTML, по умолчанию использует встроенный в Python парсер html.parser. Поддерживает ряд сторонних парсеров: lxml, html5lib и xml (разбор XML-документов).
Основной объект Tag() модуля BeautifulSoup4 в Python.
Модуль BeautifulSoup4 превращает HTML-документ в дерево объектов Python, которое будет состоять в основном из трех видов - это основной объект HTML-дерева Tag, объект самого дерева BeautifulSoup и NavigableString.
Методы .find_all() и .find*() модуля BeautifulSoup4 в Python.
Метод .find_all() модуля BeautifulSoup4 просматривает и извлекает всех _потомков тега_, которые соответствуют перепаданным фильтрующим аргументам.
CSS селекторы и модуль BeautifulSoup4 в Python.
В модуле BeautifulSoup4 есть метод BeautifulSoup.select(), который использует SoupSieve, чтобы запустить CSS селектор[bs4.Tag] есть похожий метод, который запускает CSS селектор в отношении содержимого одного тега.
Метод .get_text() модуля BeautifulSoup4 в Python.
Метод .get_text() модуля BeautifulSoup4 возвращает весь текст HTML-документа или HTML-тега в виде единственной строки Unicode. В случае, если нужно отформатировать текст самостоятельно, то для его извлечения из HTML-документа можно воспользоваться атрибутом .stripped_strings.
Разбор части документа в BeautifulSoup4 Python.
Класс SoupStrainer позволяет выбрать, какие части входящего HTML-документ разбирать игнорируя все остальное. Нужно только создать объект SoupStrainer и передать его в конструктор BeautifulSoup() в качестве аргумента parse_only.
Ошибки при чтении и разборе HTML модулем BeautifulSoup4 в Python.
Разобраны наиболее частые ошибки/исключения, возникающие: при чтении HTML-документа, при разборе HTML-документа и проблемы несоответствия версий.