-
Notifications
You must be signed in to change notification settings - Fork 0
/
main.py
181 lines (157 loc) · 6.01 KB
/
main.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
# -*- coding: utf-8 -*-
import datetime
import os
import config
from lib import worker
def _year_input():
"""
接受用户年份输入
:return:
"""
# 接收输入并验证
exit_str = ['q', 'quit', 'exit']
while True:
try:
year_input = int(input(f'请输入需要的年份(例如{datetime.datetime.now().year-1}):'))
if year_input in exit_str:
exit()
if 2008 < year_input < datetime.datetime.now().year:
return year_input
else:
input(f'输入错误,只支持 [2009-{datetime.datetime.now().year-1}] 年份,按任意键后重新输入。')
except ValueError:
input(f'输入错误,只支持 [2009-{datetime.datetime.now().year-1}] 年份,按任意键后重新输入。')
def _check_db_file_exist(year, site_name='stats.gov.cn'):
"""
检查是否存在数据文件
:param year: 数据的年份
:type year: int
:param site_name: 站点名(默认国家统计局stats.gov.cn)
:type site_name: str
:return: 是否存在
"""
return os.path.isfile(f'{config.ROOT_PATH}data{os.sep}{year}{os.sep}db_{site_name}.sqlite')
def _fetch_stats_gov_cn():
"""
抓取统计局信息
:return:
"""
# 接收输入并验证
year = _year_input()
if _check_db_file_exist(year) is True:
confirm = input(f'{config.ROOT_PATH}data{os.sep}{year}{os.sep}db_stats.gov.cn.sqlite '
f'文件已存在,继续抓取会覆盖原文件,是否继续?(y or n) ')
print(confirm)
if confirm != 'y' and confirm != 'Y':
print('Bye.')
exit()
print(f'开始 {year} 年统计局信息抓取')
worker.fetch_stats_gov_cn(
config.STATS_GOV_CN_SITE.replace('$YEAR$', str(year)),
f'{config.ROOT_PATH}data{os.sep}{year}{os.sep}',
config.SHOW_LOG,
config.CRAWLER_SLEEP_TIME
)
print(f'完成 {year} 年统计局信息抓取,数据保存在 {config.ROOT_PATH}data{os.sep}{year}{os.sep}db_stats.gov.cn.sqlite 文件中。')
def _export_csv_stats_gov_cn():
"""
导出统计局信息到 csv 文件
:return:
"""
# 接收输入并验证
year = _year_input()
if _check_db_file_exist(year) is False:
print(f'指定 {year} 年份的数据文件 {config.ROOT_PATH}data{os.sep}{year}{os.sep}db_stats.gov.cn.sqlite 不存在,请确认是否已采集。Bye.')
exit()
print(f'开始 {year} 年统计局信息导出 csv 文件')
worker.export_csv_stats_gov_cn(
f'{config.ROOT_PATH}data{os.sep}{year}{os.sep}',
config.SHOW_LOG,
config.CSV_OUTPUT_FILE_ENCODING
)
print(f'完成 {year} 年统计局信息导出 csv 文件,文件在 {config.ROOT_PATH}data{os.sep}{year}{os.sep} 目录下。')
def _export_json_stats_gov_cn():
"""
导出统计局信息到 json 文件
:return:
"""
# 接收输入并验证
year = _year_input()
if _check_db_file_exist(year) is False:
print(f'指定 {year} 年份的数据文件 {config.ROOT_PATH}data{os.sep}{year}{os.sep}db_stats.gov.cn.sqlite 不存在,请确认是否已采集。Bye.')
exit()
print(f'开始 {year} 年统计局信息导出 json 文件')
worker.export_json_stats_gov_cn(
f'{config.ROOT_PATH}data{os.sep}{year}{os.sep}',
config.SHOW_LOG,
)
print(f'完成 {year} 年统计局信息导出 json 文件,文件在 {config.ROOT_PATH}data{os.sep}{year}{os.sep} 目录下。')
def _export_redis_stats_gov_cn():
"""
导出统计局信息到 Redis
:return:
"""
# 接收输入并验证
year = _year_input()
if _check_db_file_exist(year) is False:
print(f'指定 {year} 年份的数据文件 {config.ROOT_PATH}data{os.sep}{year}{os.sep}db_stats.gov.cn.sqlite 不存在,请确认是否已采集。Bye.')
exit()
print(f'开始 {year} 年统计局信息导出到 Redis。')
# 如果 SSH_HOST 配置不为空,则传入 ssh_config
if config.SSH_HOST != '':
ssh_config = {
'host': config.SSH_HOST,
'port': config.SSH_PORT,
'username': config.SSH_USERNAME,
'password': config.SSH_PASSWORD,
'pkey': config.SSH_PKEY,
'bind_host': config.SSH_BIND_HOST,
'bind_port': config.SSH_BIND_PORT,
}
else:
ssh_config = None
worker.export_redis_stats_gov_cn(
db_path=f'{config.ROOT_PATH}data{os.sep}{year}{os.sep}',
redis_host=f'{config.REDIS_HOST}',
redis_port=f'{config.REDIS_PORT}',
redis_pass=f'{config.REDIS_PASS}',
redis_db=f'{config.REDIS_DB}',
ssh_config=ssh_config,
show_log=config.SHOW_LOG,
)
print(f'完成 {year} 年统计局信息导出到 Redis。{os.linesep}'
f'Redis 信息如下:{os.linesep}'
f'HOST: {config.REDIS_HOST}{os.linesep}'
f'PORT: {config.REDIS_PORT}{os.linesep}'
f'PASS: {config.REDIS_PASS}{os.linesep}'
f'DB : {config.REDIS_DB}')
def main():
"""
主方法
:return:
"""
exit_str = ['q', 'quit', 'exit']
while True:
print('1\t抓取统计局信息并保存入库。')
print('2\t导出统计局信息中所有省、地、县、乡、村数据的 csv 版本。')
print('3\t导出统计局信息中所有省、地、县、乡、村数据的 json 版本。')
print('4\t导出统计局信息中所有省、地、县、乡、村数据到 Redis。')
operate = input('请选择:')
if operate in exit_str:
exit()
elif operate == '1':
_fetch_stats_gov_cn()
exit()
elif operate == '2':
_export_csv_stats_gov_cn()
exit()
elif operate == '3':
_export_json_stats_gov_cn()
exit()
elif operate == '4':
_export_redis_stats_gov_cn()
exit()
else:
print('输入错误,请重新输入。')
if __name__ == '__main__':
main()