pyspider-clawswjtu

查询交大最新讲座信息和学术竞赛信息的微信小程序的爬虫端

目前讲座信息收录的爬取页面为：

竞赛信息收录的爬取页面为：

TODO

如果你有其他的稳定的在线讲座或竞赛信息来源，欢迎提issue, 或者发我邮件[email protected]

爬虫服务端部署见pyspider-deploy

页面爬取规范

讲座类

讲座类页面爬取的元素分为：

讲座标题(title)
讲座类型(lecturetype)
讲座时间(lecturetime)
讲座地点(place)
演讲者(speaker)
演讲者简介(speakerbrif)
讲座详细内容(detail)

页面内容爬取下来后需要进行相关处理后放入数据库，要求：

所有的元素前面不得加前缀：比如【创源大讲堂】,讲座嘉宾: , 讲座时间:，讲座地点等
讲座时间保存的格式应该为%Y-%m-%d %H:%M
讲座详细内容爬取后需要将html内容转换为markdown格式，然后存储，同时去除多余的标签内容和之前元素重复的内容，比如© 2012 西南交通大学教务处
如果一个讲座在多个网页都有，保存的时候需要根据讲座标题去重
讲座类型主要设定为：创源大讲堂，创新讲座，青年讲坛，竞赛相关，普通讲座(后期可根据情况添加)