GitHub

还在改进完善中，现在只是一个demo版本，仅仅实现下载页面中的图片功能.

实现: python实现的网络爬虫基于tornado,redis,mongodb实现利用协程和tornado异步库高效地爬取页面

抓取到的url存储在redis中

数据存储在mongodb中

html解析部分使用beautifulsoup

特点: 可以通过定制对不同的URL采用不同的爬虫进行抓取举例: app = Application([ (r"^http://www.baidu.com.$", "anger6Spider.spiders.spider.BaseSpider"), (r"^http://www.jianshu.com.$", "anger6Spider.spiders.spider.UrlSeekSpider"), ])

软件依懒: python使用3.4.4版本 tornado版本4.3

pip install tornado pip install pycurl pip install beautifulsoup pip install redis pip install motor

运行: python anger6Spider/worker.py

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
browser		browser
jsengine		jsengine
spiderQueue		spiderQueue
spiders		spiders
test		test
tornado_tests/gen_coroutine_test		tornado_tests/gen_coroutine_test
tutorials		tutorials
util		util
README.MD		README.MD
__init__.py		__init__.py
application.py		application.py
config.yaml		config.yaml
downFile.py		downFile.py
downJpgTest.py		downJpgTest.py
dump.rdb		dump.rdb
env.py		env.py
log4s.py		log4s.py
main.py		main.py
response.py		response.py
worker.py		worker.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

RachelLYY/anger6Spider

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages