python几个解析网页的库

2023/5/19 python

字数统计: 239字 | 阅读时长: 1分 | 总文章阅读量：次

本篇介绍一些python中解析网页html的库

BeautifulSoup库

用于从HTML或XML文件中提取数据，转换为一个python对象

一般先用requests库获取html或xml的文本数据再用BeautifulSoup库进行解析

它可以自动将输入文档转换为Unicode编码，以便处理任何类型的文本数据。BeautifulSoup库提供了一种简单而灵活的方式来遍历HTML或XML文档，并从中提取所需的信息。它支持多种解析器（如Python标准库中的html.parser，lxml HTML解析器和lxml XML解析器）以及不同的查找方法，例如通过标签名、属性或CSS选择器来查找特定的元素。使用BeautifulSoup库可以方便地提取网页中的数据，例如网页标题、段落文本、链接、图像等等。

selenium库

可以模拟用户在浏览器中的操作

由此解析一些BeautifulSoup库无法解析到的标签

目录

LOADING

python几个解析网页的库

BeautifulSoup库

selenium库