Skip to content

Latest commit

 

History

History
35 lines (25 loc) · 683 Bytes

README.MD

File metadata and controls

35 lines (25 loc) · 683 Bytes

还在改进完善中,现在只是一个demo版本,仅仅实现下载页面中的图片功能.

实现: python实现的网络爬虫 基于tornado,redis,mongodb实现 利用协程和tornado异步库高效地爬取页面

抓取到的url存储在redis中

数据存储在mongodb中

html解析部分使用beautifulsoup

特点: 可以通过定制对不同的URL采用不同的爬虫进行抓取 举例: app = Application([ (r"^http://www.baidu.com.$", "anger6Spider.spiders.spider.BaseSpider"), (r"^http://www.jianshu.com.$", "anger6Spider.spiders.spider.UrlSeekSpider"), ])

软件依懒: python使用3.4.4版本 tornado版本4.3

pip install tornado pip install pycurl pip install beautifulsoup pip install redis pip install motor

运行: python anger6Spider/worker.py