🙂 指导设计 @ Prof. Feng ; 具体设计 @ W.H. Huang
重庆大学计算机学院“大数据课程群”实验、PPT及优秀案例:
-
开源地址:CQU_bigdata
-
当前版本:
Beta V1.0
-->Beta V2.0
-->Relase V1.6.1
-->Relase V2.1
-->Relase V2.2
-
完成度:
95%
-->100%
-->持续开源完善
-
版本管理:
git
-
开发时间:
(Stage1)2020/01/20 -- 2020/05/07
, 基本框架设计完成;
(Stage2)2020/05/07 -- 2020/08/17
,更进一步细节完善;
(Stage3)2020/08/17 -- 至今
,开源大家共同完善。
下面将进行简略介绍。
本门课至今已开设了三年,也很开心陪伴我度过了三年读研时光。至这门课开设以来,我们所有的资料都是开源的,也非常鼓励大家参与开源建设。
可以和大家分享的是,每一年优秀课设、高分获得者同学一大半都参与过我们的开源项目。有个别实验来源就是改编于往届同学的优秀课设。
在这里我们给出具体的鼓励开源细则,希望每一年选这门课同学都可以积极参与,获得优异成绩~
贡献类型 | (对应)实验加分 | 细则 |
---|---|---|
issue:反馈实验bug、优化实验流程等 | +5~+10 | 根据issue质量给分,请参考issue中助教点评过的高质量issue |
文档:对实验设计不足的地方进行优化,并撰写文档 | +10~+20 | 如,ex2@leexinhao同学建议加入远程开发,助教采纳后并完善其初稿文档。本次ex2实验成绩给予满分。 |
文档:每一年同学可根据自己的想法完成非常棒的课设,并提交案例文档,作为我们的实验补充 | 本门课程优秀 | 质量很重要,如果质量尚不足,只能给实验加分,不能算作总成绩优秀。 |
实验所有相关步骤、代码等均在实际环境测试运行通过。
下表共涉及到8
个实验,其中:
- 必做实验:ex1、ex2、ex5;
- 选做实验:ex0;
- 2选1实验:ex3 、ex4;
具体请看下表,包含成绩计分说明。
实验序号 | 实验名 | 实验内容 | 页数 | |
---|---|---|---|---|
ex0 | HelloLinux | 掌握后续实验所需Linux相关操作/知识 | 19 | 不计分,但强烈建议对Linux不熟悉的同学练习 |
ex1 | SettingUpEnvironment | 搭建Spark/Hadoop分布式环境,四种方式可选 | 27 | 请查看对应实验文档说明,下同 |
ex2 | WordCount | Spark单机版环境下基于相关数据集完成青年择偶观统计并进行可视化 | 10 | |
ex3 | Ex3_CHN | Spark分布式环境下使用Spark MLlib完成手写数字识别 | 14 | |
Ex3_Kmeans | Spark分布式环境下基于iris 数据集完成K-Means聚类并进行可视化 |
10 | ||
ex4 | Ex4_FaceRecognition | Spark分布式环境下基于多层感知机模型完成高精度人脸分类 | 建设中 | |
Ex4_CustomerForecast | Spark分布式环境下基于相关数据集完成淘宝回头客预测并进行可视化 | 9 | ||
ex5 | Ex5_KnowledgeGraph | 华为特色实验 | 10 |
PPT 设计尽量保证美观大方,素材来源广泛限于自身所学,可能有所错漏。
PPT 部分章节因为自身无法较好把握整体结构,最开始尚未完成设计,现在已基本完成。
2020/09/17更新
:每个实验也对应增加,实验PPT介绍 & 录音讲解 ;2021/12/20更新
::warning: Git上(课件)已更新,请以我们项目CQU_bigdata/PPT
目录下课件为准。
具体设计见下表:
序号 | 章节名 | PPT内容 | 完成度 | 页数 | 备注 |
---|---|---|---|---|---|
1 | 大数据概述 | 介绍大数据概念、来源、应用等 | √ | 51 | |
2 | Hadoop平台(Hadoop概述+HDFS) | 介绍Hadoop及HDFS相关知识 | √ | 38 | |
3 | Hadoop平台(YARN+MapReduce) | 介绍Hadoop分布式相关知识 | √ | 57 | |
4 | 分布式数据库Hbase | 介绍分布式数据库Hbase | √ | 65 | |
5 | Spark系统 | 介绍Spark相关知识 | √ | 59 | |
6 | 大数据算法 | 介绍大数据相关算法,如:分类、聚类、关联规则、预测等 | √ | 158 | |
7 | 大数据应用 | 介绍大数据相关应用,如:推荐系统、地震大数据、交通大数据、环境大数据等 | √ | 54 | |
8 | 图计算与流计算 | 介绍大数据图计算、流计算相关知识 | √ | 73 |
我们根据最近几年冯老师班大数据课程,择优选出了20+套优秀案例。每套案例组织格式如下:
- 案例正文:包含摘要、版权信息、背景、正文、参考文献等信息;
- 案例说明:案例教学指导手册;
- 案例PPT:PPT供教师讲解、学生分享等;
- 附件资源:包含案例完整的数据集、代码、说明等。
所有案例,您可在CQU_bigdata/CaseShow 目录下找到。
以下致谢名单不分先后:
- YangYiming919 ,2018级本科生
- Rayquaza,2018级本科生
- white_windmills ,2019级本科生
- Hongcheng-Gao ,2019级本科生
- Tan Yong ,2019级本科生
- Cquyxf ,2019级本科生
- chen hongyu ,2019级本科生
- ZJY ,2020级研究生 |助教
- trevery ,2020级研究生
- hqcheng-cqu ,2021级研究生 |助教
-
2022/01/04
- 更新ex5
- 新增优秀案例20+套
-
2021/12/22
-
实验修改
- ex0:新增虚拟机安装教程 | 完善文档
- ex1:新增虚拟机分布式教程 | 完善文档
- ex2:新增远程开发教程 | 完善文档
- ex3:新增Ex3_CHN实验 | 完善文档
- ex4:新增EX4_FaceRecognition
-
Issue处理
处理完issue所有反馈的问题,并修改完善了文档
-
其它
- 新增:扩展实验选择、成绩计分细则、致谢等
- PPT修改
- 文档整体结构修整
- ...
-
-
2020/09/17
- 课程PPT和实验已正式投入使用,所有参加该门课程的同学都可一起加入完善。
-
2020/08/17
- 基本上PPT和实验已经全部按老师的指导完成,PPT一些算法细节可能要补充参数说明。
-
2020/05/07
- 隔了几个月终于把最后一部分课件(
第二章:Hadoop&Spark简介
)做完了,感觉还是相当耗脑的,主要还是如何把握整体框架要花费较多时间思考,其次就是画图和表格也较为耗费时间。
- 隔了几个月终于把最后一部分课件(
-
2020/02/10
- 距离具体正式开工设计正好过去了
20
天,完成Beta_V1.0
版本。
- 距离具体正式开工设计正好过去了