本篇介绍一些python中解析网页html的库
BeautifulSoup库
用于从HTML或XML文件中提取数据,转换为一个python对象
一般先用requests库获取html或xml的文本数据再用BeautifulSoup库进行解析
它可以自动将输入文档转换为Unicode编码,以便处理任何类型的文本数据。BeautifulSoup库提供了一种简单而灵活的方式来遍历HTML或XML文档,并从中提取所需的信息。它支持多种解析器(如Python标准库中的html.parser,lxml HTML解析器和lxml XML解析器)以及不同的查找方法,例如通过标签名、属性或CSS选择器来查找特定的元素。使用BeautifulSoup库可以方便地提取网页中的数据,例如网页标题、段落文本、链接、图像等等。
selenium库
可以模拟用户在浏览器中的操作
由此解析一些BeautifulSoup库无法解析到的标签