目录

  1. 1. BeautifulSoup库
  2. 2. selenium库

LOADING

第一次加载文章图片可能会花费较长时间

要不挂个梯子试试?(x

加载过慢请开启缓存 浏览器默认开启

python几个解析网页的库

2023/5/19 python
  |     |   总文章阅读量:

本篇介绍一些python中解析网页html的库

BeautifulSoup库

用于从HTML或XML文件中提取数据,转换为一个python对象

一般先用requests库获取html或xml的文本数据再用BeautifulSoup库进行解析

它可以自动将输入文档转换为Unicode编码,以便处理任何类型的文本数据。BeautifulSoup库提供了一种简单而灵活的方式来遍历HTML或XML文档,并从中提取所需的信息。它支持多种解析器(如Python标准库中的html.parser,lxml HTML解析器和lxml XML解析器)以及不同的查找方法,例如通过标签名、属性或CSS选择器来查找特定的元素。使用BeautifulSoup库可以方便地提取网页中的数据,例如网页标题、段落文本、链接、图像等等。

selenium库

可以模拟用户在浏览器中的操作

由此解析一些BeautifulSoup库无法解析到的标签