还在改进完善中，现在只是一个demo版本，仅仅实现下载页面中的图片功能.

实现: python实现的网络爬虫基于tornado,redis,mongodb实现利用协程和tornado异步库高效地爬取页面

抓取到的url存储在redis中

数据存储在mongodb中

html解析部分使用beautifulsoup

特点: 可以通过定制对不同的URL采用不同的爬虫进行抓取举例: app = Application([ (r"^http://www.baidu.com.$", "anger6Spider.spiders.spider.BaseSpider"), (r"^http://www.jianshu.com.$", "anger6Spider.spiders.spider.UrlSeekSpider"), ])

软件依懒: python使用3.4.4版本 tornado版本4.3

pip install tornado pip install pycurl pip install beautifulsoup pip install redis pip install motor

运行: python anger6Spider/worker.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.MD

README.MD

Files

README.MD

Latest commit

History

README.MD

File metadata and controls