Skip to content

mattzheng/BaiduSpider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

mattzheng/BaiduSpider解析

fifths/python_baike_spider,对于新手来说不太友好... 但是功能强大,目前 该库可以实现:百度百科、百度词典的爬取。

必要的库:beautifulsoup4

pip install beautifulsoup4

1、baike_spider模块:百度百科

我这里对原作者的内容进行简单修改,可以指定路径保存 + 保存名称。

root_url = "http://baike.baidu.com/view/21087.htm"
save_path = './baike_spider/'
filename = 'output2.html'
obj_spider = SpiderMain()
obj_spider.craw(root_url,filename,save_path)

2、dict_spider模块:百度字典

主要用来解析百度词典: 这里写图片描述

word='人'
values = {
    'wd': word,
    'ptype': 'char'
}
data = urllib.parse.urlencode(values)
root_url = "http://dict.baidu.com/s?" + data + '#'
obj_spider = SpiderMain()
obj_spider.craw(root_url)

生成的链接为: 'http://dict.baidu.com/s?ptype=char&wd=%E4%BA%BA#'

About

python_baike_spider 爬取百度百科信息demo

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 92.4%
  • HTML 7.6%