(本科毕业设计)基于网络爬虫的数据分析系统的实现: 用 python2.7+Scrapy-Redis 分布式架构下的网络爬虫,用 json 编码+Cookies 池+搜索策略BFS+破解验证码+布隆过滤器+对抗AJAX, Redis 放于内存中去重队列并且实现断点继爬而 Mongodb 做磁盘持久化,数据采集微博移动版 web 用户信息关系数据等等共 400w 条数据.
-
Notifications
You must be signed in to change notification settings - Fork 6
基于微博用户信息数据的分布式爬虫所做的毕业设计,有一小部分简单的数据分析。这个也是为了纪念大学四年!里面包括了源代码,论文的一稿二稿等等还有查重终稿,UML图 、PPT等等
License
weiyu666/Graduation_Design-Distributed_Web_Spider
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
基于微博用户信息数据的分布式爬虫所做的毕业设计,有一小部分简单的数据分析。这个也是为了纪念大学四年!里面包括了源代码,论文的一稿二稿等等还有查重终稿,UML图 、PPT等等
Topics
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published