BeautifulSoup

Python使用类似JQuery的css选择器语法来处理html文档

Scrapy作为一个爬虫开发框架提供了内置的Selector组件来处理html文档,然而他的语法实在是有点诡异,大约平日前端开发用惯了JQuery的缘故吧,总想找一款具有类似语法的python组件来帮助处理html文档。 技术选型 稍微google下(感谢搜索引擎赐予我的力量。。),就找到了两款类似功能的组件: PyQuery: https://pythonhosted.org/pyquery/index.html#full-documentation BeautifulSoup 4 https://www.crummy.com/software/BeautifulSoup/bs4/doc/# 选择哪个呢? 首先看一下文档功能吧 对于pyuery,截图中可以看出它实现了类似JQuery的css选择器语法,满足要求。同时文档目录还显示,它除了支持css选择器外,还可以操作dom,可以进行ajax操作。先不管细节,至少看上去是满足要求的。 ![pyquery.png][1] 对于BeautifulSoup,很明显他也满足我们的基本要求。支持css选择器。 ![BeautifulSoup4.png][2] 成熟度 PyQuery当前版本1.2.4,而BeautifulSoup已经是第四版本了。BeautifulSoup 4要成熟些。 文档 PyQuery也不知道是功能...