Skip to content

基于微博用户信息数据的分布式爬虫所做的毕业设计,有一小部分简单的数据分析。这个也是为了纪念大学四年!里面包括了源代码,论文的一稿二稿等等还有查重终稿,UML图 、PPT等等

License

Notifications You must be signed in to change notification settings

weiyu666/Graduation_Design-Distributed_Web_Spider

Repository files navigation

Distributed_Web_Spider

(本科毕业设计)基于网络爬虫的数据分析系统的实现: 用 python2.7+Scrapy-Redis 分布式架构下的网络爬虫,用 json 编码+Cookies 池+搜索策略BFS+破解验证码+布隆过滤器+对抗AJAX, Redis 放于内存中去重队列并且实现断点继爬而 Mongodb 做磁盘持久化,数据采集微博移动版 web 用户信息关系数据等等共 400w 条数据.

About

基于微博用户信息数据的分布式爬虫所做的毕业设计,有一小部分简单的数据分析。这个也是为了纪念大学四年!里面包括了源代码,论文的一稿二稿等等还有查重终稿,UML图 、PPT等等

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages