-
Notifications
You must be signed in to change notification settings - Fork 0
/
2.txt
1872 lines (1754 loc) · 275 KB
/
2.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
作者:谢科
链接:https://www.zhihu.com/question/20899988/answer/24923424
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
“入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习。另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话,那么这个图一定不是一个有向无环图。因为学习A的经验可以帮助你学习B。因此,你不需要学习怎么样“入门”,因为这样的“入门”点根本不存在!你需要学习的是怎么样做一个比较大的东西,在这个过程中,你会很快地学会需要学会的东西的。当然,你可以争论说需要先懂python,不然怎么学会python做爬虫呢?但是事实上,你完全可以在做这个爬虫的过程中学习python :D看到前面很多答案都讲的“术”——用什么软件怎么爬,那我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现。先长话短说summarize一下:你需要学习基本的爬虫工作原理基本的http抓取工具,scrapyBloom Filter: Bloom Filters by Example如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rqrq和Scrapy的结合:darkrho/scrapy-redis · GitHub后续处理,网页析取(grangier/python-goose · GitHub),存储(Mongodb)以下是短话长说:说说当初写的一个集群爬下整个豆瓣的经验吧。1)首先你要明白爬虫怎样工作。想象你是一只蜘蛛,现在你被放到了互联“网”上。那么,你需要把所有的网页都看一遍。怎么办呢?没问题呀,你就随便从某个地方开始,比如说人民日报的首页,这个叫initial pages,用$表示吧。在人民日报的首页,你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了,这样你就已经爬完了俩页面(首页和国内新闻)!暂且不用管爬下来的页面怎么处理的,你就想象你把这个页面完完整整抄成了个html放到了你身上。突然你发现, 在国内新闻这个页面上,有一个链接链回“首页”。作为一只聪明的蜘蛛,你肯定知道你不用爬回去的吧,因为你已经看过了啊。所以,你需要用你的脑子,存下你已经看过的页面地址。这样,每次看到一个可能需要爬的新链接,你就先查查你脑子里是不是已经去过这个页面地址。如果去过,那就别去了。好的,理论上如果所有的页面可以从initial page达到的话,那么可以证明你一定可以爬完所有的网页。那么在python里怎么实现呢?很简单import Queue
initial_page = "http://www.renminribao.com"
url_queue = Queue.Queue()
seen = set()
seen.insert(initial_page)
url_queue.put(initial_page)
while(True): #一直进行直到海枯石烂
if url_queue.size()>0:
current_url = url_queue.get() #拿出队例中第一个的url
store(current_url) #把这个url代表的网页存储好
for next_url in extract_urls(current_url): #提取把这个url里链向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break
写得已经很伪代码了。所有的爬虫的backbone都在这里,下面分析一下为什么爬虫事实上是个非常复杂的东西——搜索引擎公司通常有一整个团队来维护和开发。2)效率如果你直接加工一下上面的代码直接运行的话,你需要一整年才能爬下整个豆瓣的内容。更别说Google这样的搜索引擎需要爬下全网的内容了。问题出在哪呢?需要爬的网页实在太多太多了,而上面的代码太慢太慢了。设想全网有N个网站,那么分析一下判重的复杂度就是N*log(N),因为所有网页要遍历一次,而每次判重用set的话需要log(N)的复杂度。OK,OK,我知道python的set实现是hash——不过这样还是太慢了,至少内存使用效率不高。通常的判重做法是怎样呢?Bloom Filter. 简单讲它仍然是一种hash的方法,但是它的特点是,它可以使用固定的内存(不随url的数量而增长)以O(1)的效率判定url是否已经在set中。可惜天下没有白吃的午餐,它的唯一问题在于,如果这个url不在set中,BF可以100%确定这个url没有看过。但是如果这个url在set中,它会告诉你:这个url应该已经出现过,不过我有2%的不确定性。注意这里的不确定性在你分配的内存足够大的时候,可以变得很小很少。一个简单的教程:Bloom Filters by Example注意到这个特点,url如果被看过,那么可能以小概率重复看一看(没关系,多看看不会累死)。但是如果没被看过,一定会被看一下(这个很重要,不然我们就要漏掉一些网页了!)。 [IMPORTANT: 此段有问题,请暂时略过]好,现在已经接近处理判重最快的方法了。另外一个瓶颈——你只有一台机器。不管你的带宽有多大,只要你的机器下载网页的速度是瓶颈的话,那么你只有加快这个速度。用一台机子不够的话——用很多台吧!当然,我们假设每台机子都已经进了最大的效率——使用多线程(python的话,多进程吧)。3)集群化抓取爬取豆瓣的时候,我总共用了100多台机器昼夜不停地运行了一个月。想象如果只用一台机子你就得运行100个月了...那么,假设你现在有100台机器可以用,怎么用python实现一个分布式的爬取算法呢?我们把这100台中的99台运算能力较小的机器叫作slave,另外一台较大的机器叫作master,那么回顾上面代码中的url_queue,如果我们能把这个queue放到这台master机器上,所有的slave都可以通过网络跟master联通,每当一个slave完成下载一个网页,就向master请求一个新的网页来抓取。而每次slave新抓到一个网页,就把这个网页上所有的链接送到master的queue里去。同样,bloom filter也放到master上,但是现在master只发送确定没有被访问过的url给slave。Bloom Filter放到master的内存里,而被访问过的url放到运行在master上的Redis里,这样保证所有操作都是O(1)。(至少平摊是O(1),Redis的访问效率见:LINSERT – Redis)考虑如何用python实现:在各台slave上装好scrapy,那么各台机子就变成了一台有抓取能力的slave,在master上装好Redis和rq用作分布式队列。代码于是写成#slave.py
current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)
store(current_url);
send_to_master(to_send)
#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()
initial_pages = "www.renmingribao.com"
while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)
好的,其实你能想到,有人已经给你写好了你需要的:darkrho/scrapy-redis · GitHub4)展望及后处理虽然上面用很多“简单”,但是真正要实现一个商业规模可用的爬虫并不是一件容易的事。上面的代码用来爬一个整体的网站几乎没有太大的问题。但是如果附加上你需要这些后续处理,比如有效地存储(数据库应该怎样安排)有效地判重(这里指网页判重,咱可不想把人民日报和抄袭它的大民日报都爬一遍)有效地信息抽取(比如怎么样抽取出网页上所有的地址抽取出来,“朝阳区奋进路中华道”),搜索引擎通常不需要存储所有的信息,比如图片我存来干嘛...及时更新(预测这个网页多久会更新一次)如你所想,这里每一个点都可以供很多研究者十数年的研究。虽然如此,“路漫漫其修远兮,吾将上下而求索”。所以,不要问怎么入门,直接上路就好了:)
作者:何明科
链接:https://www.zhihu.com/question/33255013/answer/82949972
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
没有被邀请,但是依旧逼格满满地说,这个问题简直就是为我准备的。<img src="https://pic1.zhimg.com/50/8e6f8f84144ba23918e99f9e8feab974_hd.png" data-rawwidth="346" data-rawheight="246" class="content_image" width="346">第一部分:吐槽+吹牛(特此说明,本文不针对quant投资的大神)本人工科本科,毕业后做战略管理咨询,其后做过股票交易员以及VC/PE投资。所呆的机构基本都是行业内的顶尖公司,而个人表现基本都是明星级员工。说到此处,我已经感觉到无数飞过来的臭鸡蛋的风声,都来自于各位professional service的人士。下图是我被臭鸡蛋砸中的样子,只是我的颜值略逊于她。<img src="https://pic1.zhimg.com/50/8c419bd6c409e1f2fa464695082127b8_hd.png" data-rawwidth="319" data-rawheight="220" class="content_image" width="319">但是,我说的是真话。原因不是我业务好,而是我工具用得好、程序写得好。简单一句话总结:我是做咨询/投资里面最会写程序的,也是写程序里面最懂咨询/投资的。以下为一些亮瞎合金眼的案例:在咨询的日常工作中,写过一套基于VBA优化及生成PPT和连通Powerpoint-Excel-Word数据的软件,离职读MBA前被Global IT买走,因为公司给了我MBA的学费及生活费,免费给了,在公司广为流传在某咨询项目中,写过一套帮助某国际消费品牌基于内部海量数据来规划渠道商和代理商布局的软件,将以前需要一个sales team一整天才能完成的工作缩到一个人一小时内完成,并作为重要成果在整个亚洲推广在某咨询项目中,写过一套工具,实现将Excel中每天都在更新的甘特图及流程图按规定格式同步到给客户的高标准高逼格PPT中。因为这是一个新品牌车系的上市项目,流程图极其复杂,每次更新都要耗费行政助理团队整个通宵的时间,还不能保证完全正确。这套工具,解放助理不用stand-by,按时按点回家洗洗睡睡。在基金的日常工作中,写过一套VBA工具并结合Bloomberg接口,每日抓取目标公司的各类信息并发送日报,将一个专职助理半天的工作基本缩减到零在咨询/基金的日常工作中,做过无数的Financial Model,面对老板及客户的各种花式虐狗需求,根据假设算出结论或者根据结论算出假设,程序自动完成;而且Financial Model的复用性极高,而且财务三张表自动配平。(说起根据结论算出假设,这个听起来不靠谱的需求,做过这一行的同学,一定会懂啥叫用户需求)将咨询这种累死累活的工作,做成了朝九晚五,按我们以前老板的话说:我是在用coding做consulting。日常工作中,几个实习生或者数据分析员要花一整天才能整理好的数据,被我花半小时完成的Python或者VBA秒杀,这种案例就不多说了如果没有上面的工具,所有从业人员的表情都是下面这样的。<img src="https://pic2.zhimg.com/50/fa1a114369cfcaea1f185ac60a78c151_hd.png" data-rawwidth="500" data-rawheight="375" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic2.zhimg.com/fa1a114369cfcaea1f185ac60a78c151_r.png">特别是遇到作的老板或者客户,从早做到晚,做到死也做不完呀。<img src="https://pic2.zhimg.com/50/6cf837c2c8ffc00e87bc948bef48e75d_hd.png" data-rawwidth="808" data-rawheight="634" class="origin_image zh-lightbox-thumb" width="808" data-original="https://pic2.zhimg.com/6cf837c2c8ffc00e87bc948bef48e75d_r.png">有了这些数据大法,表情就是下面这样的了。<img src="https://pic3.zhimg.com/50/215951877b85cef474e0f5d3fb452a02_hd.png" data-rawwidth="750" data-rawheight="749" class="origin_image zh-lightbox-thumb" width="750" data-original="https://pic3.zhimg.com/215951877b85cef474e0f5d3fb452a02_r.png">说到这里,我再次感觉到无数飞过来的臭鸡蛋的风声,都来自于各位编程大牛。我看到的情景如下图,扔鸡蛋的人更多了。<img src="https://pic1.zhimg.com/50/6a9b28be85b56d13114cb0c503045cc8_hd.png" data-rawwidth="300" data-rawheight="301" class="content_image" width="300">因为这些程序实在没啥难度呀,又不是函数编程,又不是Deep Learning。但这却是骨感的现实,只能说明两个事实:Professional service对技术的应用简直low爆了,或者说在数据处理方面基本没有,仅限于Office系列。亲眼所见一个知名对冲基金的研究员,一页一页得手工翻看搜房的网站,并用Ctrl C+Ctrl V记录搜房所有自有经纪人的信息到Excel,并统计他们当前的成交量。然后每周做一次,查看每个经纪人的成交量增量。通过这样的数据分析来判断搜房转型到自由经纪人业务之后,模式是否成功。因为工作量实在巨大,后来只好请了一票实习生来做。跨界就是优势,懂业务懂技术,就是能做出改变。世界越来越平、技术越来越开源,越来越多的公司或者模式并不是单纯靠技术优势,而是靠对用户需求对业务的了解以及迅速满足需求。第二部分:数据的三大法宝如同自己约的炮含泪也要打完,吹这么多牛,一定要给出干货来填坑。现在祭出三大法宝:Excel、VBA以及爬虫。要想把数据做好,不仅仅是要找到数据,还要把数据清洗好和分析好。所以我不仅仅给出找数据的法宝,而是给了一套。Excel是迄今为止最简单最便捷得处理数据的方式,下至四则运算,上至各类统计分析、矩阵运算及线性规划都可以搞定,所以一定要熟练掌握。网上资料很多,在此就不赘述了。但是Excel深不可测,基本没有天花板,千万不要以为会了VLookup及一些快捷键就可以耀武扬威了。至少需要把矩阵乘法、向量乘法、Offset/ Cells/ Row/ Range等函数用到极致,这样大多数Financial Model会做得非常灵活,而且各种数据查询及匹配工作会达到部分SQL的处理水平。VBA会让Office的能力提升一个档次,除了完成函数不能完成的一些任务,最有价值的是能够在Office的各套软件之间实现信息同步。之上提到的许多软件都是基于VBA完成的,最重要的没有版权问题。不过学习办法也不难,参见Excel VBA 如何快速学习? - 何明科的回答,至于高阶技能参考粉丝回馈:程序让你更性感 - 数据冰山 - 知乎专栏。爬虫我需要细说一下和重点说一下。因为这是解决题主多次提到的数据找不到的问题。所谓爬虫当然不是下图的虫子。<img src="https://pic3.zhimg.com/50/74c2e7b72f4b49530edd9ab1bf3c002e_hd.png" data-rawwidth="156" data-rawheight="122" class="content_image" width="156">而是这样的虫子,其实就是一套自动读取网页和解析网页的程序而已。用python或者Go等程序语言写出爬虫程序来自动抓取网络数据,利用正则表达式等技术手段将脏数据清洗并结构化放入到数据库或者Excel,然后作分析以及长期监控。<img src="https://pic2.zhimg.com/50/51a64d78515de0ee671f78184eeb1421_hd.png" data-rawwidth="199" data-rawheight="152" class="content_image" width="199">网络上的数据越来越多,越来越能代表生活中的真实现象。通过爬虫加正则这种自动化的工具,能够耗很少的人工就可以将数据和信息采集并结构化,后续通过更多的分析工具完成许多有商业价值的分析并获取所谓的insight(将信息转化为知识和洞察)。还记得上面提到的那个肉眼数搜房网网页的分析员的故事吗?然而其实这就是一个程序员用Python做好爬虫、结构化数据和最后分析的简单事情,于是出手相助才有了如下的分析。轻松将搜房在各个城市的经纪人数量及单产搞清楚并按时监督,计算搜房在自有经纪人业务线的产出不是问题。http://xueqiu.com/3917381252/45640644<img src="https://pic1.zhimg.com/50/c5dff9a3d88aa668a7ba38bcf25c3d6c_hd.png" data-rawwidth="480" data-rawheight="302" class="origin_image zh-lightbox-thumb" width="480" data-original="https://pic1.zhimg.com/c5dff9a3d88aa668a7ba38bcf25c3d6c_r.png"><img src="https://pic3.zhimg.com/50/c727090967de1de3861c00515138477a_hd.png" data-rawwidth="480" data-rawheight="302" class="origin_image zh-lightbox-thumb" width="480" data-original="https://pic3.zhimg.com/c727090967de1de3861c00515138477a_r.png">另外,还有基金在投资挂号网之前,让着帮忙做些数据统计和调研,于是有了下面的回答:如何评价挂号网? - 何明科的回答。下面的图表结合了从挂号网抓取的数据以及宏观数据。<img src="https://pic1.zhimg.com/50/d31d97274fadb3ea27098dffc540e878_hd.png" data-rawwidth="481" data-rawheight="289" class="origin_image zh-lightbox-thumb" width="481" data-original="https://pic1.zhimg.com/d31d97274fadb3ea27098dffc540e878_r.png">当然,给基金干活,数据的可视化很重要,于是用了文图 ,将图表画得很炫,逼格顿时提高。并不觉得比顶级咨询公司的PPT差到哪里。即使比他们差了,用他们的格式在网上实现一遍也就可以了,然后还可以共享给大家。一些炫目图标的效果如下。下图是关于世界各国的智商分布(http://wentu.io/publish#fd5da46583e2c60f)<img src="https://pic4.zhimg.com/50/8c8026723dc94cedfb3132dee40169b7_hd.png" data-rawwidth="655" data-rawheight="467" class="origin_image zh-lightbox-thumb" width="655" data-original="https://pic4.zhimg.com/8c8026723dc94cedfb3132dee40169b7_r.png">下图是重庆小面如何风靡全国的 - 数据冰山 - 知乎专栏。<img src="https://pic1.zhimg.com/50/ddafa0cf0282d8120b0ecf661b865910_hd.png" data-rawwidth="600" data-rawheight="315" class="origin_image zh-lightbox-thumb" width="600" data-original="https://pic1.zhimg.com/ddafa0cf0282d8120b0ecf661b865910_r.png"><img src="https://pic2.zhimg.com/50/423bd6cd2fa696c4ec4b846252dfc7dd_hd.png" data-rawwidth="600" data-rawheight="290" class="origin_image zh-lightbox-thumb" width="600" data-original="https://pic2.zhimg.com/423bd6cd2fa696c4ec4b846252dfc7dd_r.png">下图是RIO是如何席卷大江南北的? - 数据冰山 - 知乎专栏<img src="https://pic3.zhimg.com/50/e6a5ccdd54b3cc3b08d0367c11e904c6_hd.png" data-rawwidth="486" data-rawheight="342" class="origin_image zh-lightbox-thumb" width="486" data-original="https://pic3.zhimg.com/e6a5ccdd54b3cc3b08d0367c11e904c6_r.png">另外,还可做许多比较酷的事情,获取真正的insight,如下的东西无论是咨询项目还是投资项目,或许都能用得到,绝对都能让老板虎躯一震,让客户娇喘连连。看看咖啡的推广到底如何:为什么麦当劳和肯德基都开始注重现磨咖啡的推广,其优势与星巴克等传统咖啡行业相比在哪里? - 何明科的回答帮助自己买车:一年当中买车的最佳时间为何时? - 何明科的回答看看最近是否适合换工作:互联网行业哪个职位比较有前途? - 数据冰山 - 知乎专栏看看最近的房价和走势:下半年深圳房价将如何发展 - 数据冰山 - 知乎专栏,深圳的房价是在三个月内暴涨起来的吗? - 数据冰山 - 知乎专栏, 学区房到底闹哪样? - 数据冰山 - 知乎专栏满足吃货的好奇心:重庆小面如何风靡全国的 - 数据冰山 - 知乎专栏最后的大杂烩:能利用爬虫技术做到哪些很酷很有趣很有用的事情? - 何明科的回答技术方面,Python写爬虫非常方便,调试正则这个网站很不错Online regex tester and debugger: JavaScript, Python, PHP, and PCRE。第三部分:等待改变的Professional Service行业咨询、投行、投资、审计、律师等等,笼统得被称之为Professional Service,一直是以高大上形象出现的,往往瞧不上屌丝草根居多的技术行业。然而时代在变化,技术的力量在不断崛起,并摧毁和变革越来越多的行业。然而,Professional Service除了在上个世纪用上Office、互联网以及手机之后,整个行业并没有引入太多的技术,特别是在数据获取、分析及可视化方面。再隔十年回头看如今的咨询/投行/投资行业对技术的运用,会如同我们现在回望上世纪七十年代左右,我们的前辈在纸上或黑板上画PPT、在纸上算数然后展现给客户看的情景:真心觉得好落后。下图是波士顿咨询公司创始人及战略大师布鲁斯·亨德森智库(Bruce Henderson Institute),在黑板上给客户演示著名的波士顿2x2矩阵,桌子上没有电脑,而是一堆草稿纸。<img src="https://pic1.zhimg.com/50/e78dc5c2fd072b5845e95f27b1c1cf88_hd.png" data-rawwidth="684" data-rawheight="1066" class="origin_image zh-lightbox-thumb" width="684" data-original="https://pic1.zhimg.com/e78dc5c2fd072b5845e95f27b1c1cf88_r.png">所以我一直希望将技术引入到这个我曾经工作多年的行业,做出些改变。让所有从业人员的工作更轻松,让所有从业人员为客户带来更大的价值。在这篇回答中(你用 Python 做过什么有趣的数据挖掘/分析项目? - 何明科的回答),对我的这个理想其实有所交代。基于以上的初心,已经尝试着开发了两款产品。让上面提到的数据相关的工作更加简单和有效。第一款:选址应用选址是现在许多公司头疼的难题,以前完全是拍脑袋。因此我们开发出这样一套工具,帮助公司能够更理性更多维度得选址。下图,我们抓取多个数据源并完成拼接,根据用户的快递地址,勾画出某时尚品牌用户的住址,帮助其选址在北京开门店。<img src="https://pic3.zhimg.com/50/6ff5943bdd69d316d7cfd843102394fa_hd.png" data-rawwidth="1383" data-rawheight="618" class="origin_image zh-lightbox-thumb" width="1383" data-original="https://pic3.zhimg.com/6ff5943bdd69d316d7cfd843102394fa_r.png">下图,我们抓取多个数据源并完成拼接,根据大型超市及便利店与某类型餐馆在广州地区的重合情况,帮助某饮料品牌选定最应该进入的零售店面。<img src="https://pic1.zhimg.com/50/74ac6a67e01f1887f3e52e0ebc4ba65c_hd.png" data-rawwidth="1456" data-rawheight="569" class="origin_image zh-lightbox-thumb" width="1456" data-original="https://pic1.zhimg.com/74ac6a67e01f1887f3e52e0ebc4ba65c_r.png">第二款:数据可视化我们在工作中也深刻觉得以前制作图表和展示数据的方式太low、太繁琐,我们希望去改变这个现状,于是开发了一套基于Web来制作图表的工具文图。远有Excel/Powerpoint对标,近有Tableau对标。下图是文图丰富的案例库及模板库。<img src="https://pic4.zhimg.com/50/8eeebbbdcaf08202a86ff5abf27c0a7b_hd.png" data-rawwidth="1803" data-rawheight="795" class="origin_image zh-lightbox-thumb" width="1803" data-original="https://pic4.zhimg.com/8eeebbbdcaf08202a86ff5abf27c0a7b_r.png">下图是简单的使用界面及丰富的图表类型。<img src="https://pic1.zhimg.com/50/fc6982098b72d68d06fba11361e4a7d8_hd.png" data-rawwidth="1473" data-rawheight="715" class="origin_image zh-lightbox-thumb" width="1473" data-original="https://pic1.zhimg.com/fc6982098b72d68d06fba11361e4a7d8_r.png">下一步的工作:与微信的整合,一键生成适合于微信传播的截图以及公众号格式文章,便于在社交媒体的传播收集更多数据,目前已经覆盖40多家网站,涵盖衣食住行等多个方面将数据SaaS化和开源,便于各类公司及用户使用。(咨询投行等Professional Service人士一定会懂的,你们每年不知道要重复多少遍更新各类宏观微观的经济和行业数据,现在只需要调用KPI)最后,希望有一天它能部分替代已经在江湖上混迹二三十年的PowerPoint及Excel。我们现在的模式大致如下:中国目前数据分析数据挖掘市场情形是怎样的,机会多吗?前景如何? - 何明科的回答。
作者:Danilo
链接:https://www.zhihu.com/question/27621722/answer/81070075
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
为后来的同学解释一下彩蛋怎么回事,顺便对昨晚12点之后收不到彩蛋的同学抱歉(鞠躬),被屏蔽了彩蛋是如果赞了这条答案会自动收到一条随机的私信,里面是一则短笑话笑话是在某网站上爬下来的,一共几十条随机发送起因是昨天写完原答案,突然想到如果加上彩蛋会不会很多人点赞(说我不是骗赞自己也不信)于是写了个小脚本,跑了起来试了一下第一次高潮出现在回答完30分钟后,突然多了一两百的赞,由于私信发送时间间隔太短,挂掉了修复后坚持到了晚上十二点,本机和VPS都不能再持续发送私信,于是停掉了今早起来发现赞又多了3000,崩溃的我决定还是不接着发了。。。代码和逻辑如下:// 代码不全,只有主要的逻辑
// 用到的库如下:
var request = require('superagent');
var cheerio = require('cheerio');
var fs = require('fs');
// 首先是这样的一个接口,可以取到某个答案所有赞同的人数
// 每次取会返回10条数据,是编译好的HTML模版,还有下一组数据的地址
// 遍历这10条数据并取到所有人的ID即可
// config 是Cookie、Host、Referer等配置
var sourceLink = 'https://www.zhihu.com/answer/' + code + '/voters_profile';
function getVoterList(link, fn) {
var next = '';
if (postListLength && !sleepIng) {
console.log('waiting');
sleepIng = true;
return setTimeout(function () {
sleepIng = false;
sleep = 1;
getVoterList(link, fn);
}, 1000 * 60);
}
request.get(link)
.set(config)
.end(function (err, res) {
if (err || !res.ok) {
return console.log(err);
}
var result = JSON.parse(res.text), voterList = '', $;
if (result.paging && result.paging.next) {
next = result.paging.next;
}
if (result.payload && result.payload.length) {
voterList = result.payload.join('');
$ = cheerio.load(voterList);
$('.zm-rich-follow-btn').each(function () {
var id = $(this).attr('data-id');
if (voterIdList.indexOf(id) === -1 && oldIdList.indexOf(id) === -1) {
console.log('new id: ', id);
voterIdList.push(id);
} else {
dupIdLen += 1;
}
});
}
if (next && dupIdLen < 20) {
setTimeout(function () {
getVoterList('https://www.zhihu.com' + next, fn);
}, 3000);
} else {
dupIdLen = 0;
fn();
}
});
}
// 在爬取完该接口后,新的点赞人数会暂存在数组中,遍历该数组,并发送请求
// 如请求发送成功,将各ID保存在某一个文件中,如发送失败,等几分钟后重试
function sendPost() {
var hasError = false;
var tempArr = [];
postListLength = voterIdList.length;
console.log('send post');
if (voterIdList.length) {
voterIdList.forEach(function (id, i) {
if (hasError) {
// 处理发送失败的情况,等待5分钟重试
if (!sleepIng) {
console.log('waiting');
sleepIng = true;
return setTimeout(function () {
sleepIng = false;
sleep = 1;
sendPost();
}, 1000 * 60 * 5);
}
return console.log('has error');
}
var index = (function () {
return i;
})(i);
var postIndex = index > postList.length ? index % postList.length : index;
setTimeout(function () {
// 一波发送完成之前不会启动下一波私信发送
postListLength--;
request.post('https://www.zhihu.com/inbox/post')
.send({
member_id: id,
content: postList[postIndex],
token: '',
_xsrf: '' // 这里是发送者的Cookie
})
.set(config)
.set({"Accept": "*/*"})
.set({"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8"})
.end(function (err, res) {
console.log('hasError: ', hasError);
console.log(new Date());
console.log(res.text);
var resObj = {};
try {
resObj = JSON.parse(res.text);
} catch (e) {
console.log(e);
if (!sleepIng) {
hasError = true;
sleep = 5;
console.log('waiting');
sleepIng = true;
return setTimeout(function () {
sleepIng = false;
sleep = 1;
sendPost();
}, 1000 * 60 * 5);
}
}
if (err || !res.ok || resObj.r !== 0) {
console.log(err);
hasError = true;
sleep = 5;
tempArr = voterIdList.slice(0, index);
oldIdList = oldIdList.concat(tempArr);
fs.writeFile('./idlist.json', oldIdList, function (err) {
if (err) console.log(err);
});
}
});
}, 20 * 1000 * index * sleep);
if (index === voterIdList.length - 1) {
console.log('last');
oldIdList = oldIdList.concat(voterIdList);
voterIdList = [];
setTimeout(function () {
console.log('run again');
getVoterList(sourceLink, sendPost);
}, 1000 * 60 * 15);
fs.writeFile('./idlist.json', oldIdList, function (err) {
if (err) console.log(err);
});
console.log('done ');
}
});
} else {
setTimeout(function () {
console.log('run again');
getVoterList(sourceLink, sendPost);
}, 1000 * 60);
}
}
代码花了半个小时写的,比较糙,不过跑了一下确实能用,既然已经不发了就不改了,有同学要求就发上来了PS 知乎的策略应该有变化,昨晚12点之前只要对同一个人两条私信不重复,把握好发送时间间隔就没问题,12点之后我的VPS已经不能用了,时间间隔再久也会返回500错误,1点后我的本机也不行了,不断的返回500和403,Cookie也有更新,索性就停掉了这是昨晚爬到的ID<img src="https://pic3.zhimg.com/50/c5b1bfc4f8fc2788d4fd7d5aad081a0e_hd.png" data-rawwidth="1270" data-rawheight="906" class="origin_image zh-lightbox-thumb" width="1270" data-original="https://pic3.zhimg.com/c5b1bfc4f8fc2788d4fd7d5aad081a0e_r.png">还有我的视角所看的我的私信列表= =<img src="https://pic3.zhimg.com/50/e77934b2365659981ca660990d0d9b66_hd.png" data-rawwidth="730" data-rawheight="905" class="origin_image zh-lightbox-thumb" width="730" data-original="https://pic3.zhimg.com/e77934b2365659981ca660990d0d9b66_r.png">就酱==============================某人有一天书荒了,想要看豆瓣上的高分书,然而豆瓣并没有提供按评分的检索,于是拜托我写一个小东西,要求是能按现有标签来分类检索豆瓣图书,并按分数从高到低排序需求不难,就是数据没有,于是写了个爬虫按标签爬下来豆瓣所有的书爬的时候只爬了分类的列表,这样有书籍的名称,链接,评分,分类,够用了,而且一次请求可以拿到较多的数据,并发不高的情况下能较快的爬完豆瓣所有的书爬数据的时间大概两个多小时左右,每次请求间隔3秒,倒是没被屏蔽代码用node写的,包括外网访问的服务器,基本满足了某人的需要,现在跑在我自己的VPS上,有域名可以直接访问爬完知道豆瓣热门标签下大概有6万多本书,是会不断更新的,所以还要定期爬一下更新一下数据下面是预览,时间所限页面写的糙了点,反正用户就一个- -<img src="https://pic3.zhimg.com/50/8f321ad177b7f820d98aa71c3c0f9aca_hd.png" data-rawwidth="1661" data-rawheight="964" class="origin_image zh-lightbox-thumb" width="1661" data-original="https://pic3.zhimg.com/8f321ad177b7f820d98aa71c3c0f9aca_r.png"><img src="https://pic4.zhimg.com/50/9c6b853653c8247f316393a3fccb5053_hd.png" data-rawwidth="1663" data-rawheight="964" class="origin_image zh-lightbox-thumb" width="1663" data-original="https://pic4.zhimg.com/9c6b853653c8247f316393a3fccb5053_r.png"><img src="https://pic2.zhimg.com/50/fcf79abbadc896c6874fe2309a91503d_hd.png" data-rawwidth="434" data-rawheight="777" class="origin_image zh-lightbox-thumb" width="434" data-original="https://pic2.zhimg.com/fcf79abbadc896c6874fe2309a91503d_r.png">
作者:高野良
链接:https://www.zhihu.com/question/20899988/answer/58388759
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
看了大部分回答不禁叹口气,主要是因为看到很多大牛在回答像“如何入门爬虫”这种问题的时候,一如当年学霸讲解题目,跳步无数,然后留下一句“不就是这样推嘛”,让一众小白菜鸟一脸懵逼。。作为一个0起步(之前连python都不会),目前总算掌握基础,开始向上进阶的菜鸟,深知其中的不易,所以我会在这个回答里,尽可能全面、细节地分享给大家从0学习爬虫的各种步骤,如果对你有帮助,请点赞~-------------------------------------------------------------------------------------------------#我要写爬虫!#Ver.1.2 #Based on: Python 2.7#Author:高野良#原创内容,转载请注明出处首先!你要对爬虫有个明确的认识,这里引用毛主席的思想:<img src="https://pic4.zhimg.com/50/4098627230457e1171b9ec2051772837_hd.jpg" data-rawwidth="164" data-rawheight="220" class="content_image" width="164">在战略上藐视:“所有网站皆可爬”:互联网的内容都是人写出来的,而且都是偷懒写出来的(不会第一页是a,下一页是8),所以肯定有规律,这就给人有了爬取的可能,可以说,天下没有不能爬的网站“框架不变”:网站不同,但是原理都类似,大部分爬虫都是从 发送请求——获得页面——解析页面——下载内容——储存内容 这样的流程来进行,只是用的工具不同在战术上重视:持之以恒,戒骄戒躁:对于初学入门,不可轻易自满,以为爬了一点内容就什么都会爬了,爬虫虽然是比较简单的技术,但是往深学也是没有止境的(比如搜索引擎等)!只有不断尝试,刻苦钻研才是王道!(为何有种小学作文即视感) || || V然后,你需要一个宏伟的目标,来让你有持续学习的动力(没有实操项目,真的很难有动力)我要爬整个豆瓣!...我要爬整个草榴社区!我要爬知乎各种妹子的联系方式*&^#%^$#<img src="https://pic4.zhimg.com/50/9264555e01047baf9f88b1919d21c5ab_hd.jpg" data-rawwidth="580" data-rawheight="287" class="origin_image zh-lightbox-thumb" width="580" data-original="https://pic4.zhimg.com/9264555e01047baf9f88b1919d21c5ab_r.jpg"> || || V接着,你需要扪心自问一下,自己的python基本功吼不吼啊?吼啊!——OK,开始欢快地学习爬虫吧 !不吼?你还需要学习一个!赶紧回去看廖雪峰老师的教程,2.7的。至少这些功能和语法你要有基本的掌握 :list,dict:用来序列化你爬的东西切片:用来对爬取的内容进行分割,生成条件判断(if等):用来解决爬虫过程中哪些要哪些不要的问题循环和迭代(for while ):用来循环,重复爬虫动作文件读写操作:用来读取参数、保存爬下来的内容等 || || V然后,你需要补充一下下面几个内容,作为你的知识储备:(注:这里并非要求“掌握”,下面讲的两点,只需要先了解,然后通过具体项目来不断实践,直到熟练掌握)1、网页的基本知识:基本的HTML语言知识(知道href等大学计算机一级内容即可)理解网站的发包和收包的概念(POST GET)稍微一点点的js知识,用于理解动态网页(当然如果本身就懂当然更好啦)2、一些分析语言,为接下来解析网页内容做准备NO.1 正则表达式:扛把子技术,总得会最基础的:<img src="https://pic3.zhimg.com/50/69c995e57e29ab383d0717211e8f1c8e_hd.png" data-rawwidth="799" data-rawheight="1719" class="origin_image zh-lightbox-thumb" width="799" data-original="https://pic3.zhimg.com/69c995e57e29ab383d0717211e8f1c8e_r.png">NO.2 XPATH:高效的分析语言,表达清晰简单,掌握了以后基本可以不用正则参考:XPath 教程<img src="https://pic3.zhimg.com/50/83020a6e8bfc4d3c38f7c36377da0d46_hd.png" data-rawwidth="612" data-rawheight="255" class="origin_image zh-lightbox-thumb" width="612" data-original="https://pic3.zhimg.com/83020a6e8bfc4d3c38f7c36377da0d46_r.png">NO.3 Beautifulsoup:美丽汤模块解析网页神器,一款神器,如果不用一些爬虫框架(如后文讲到的scrapy),配合request,urllib等模块(后面会详细讲),可以编写各种小巧精干的爬虫脚本官网文档:Beautiful Soup 4.2.0 文档参考案例:<img src="https://pic4.zhimg.com/50/5d5b7de4dcaf69fa89ab4f5ef8bdbf3f_hd.png" data-rawwidth="734" data-rawheight="267" class="origin_image zh-lightbox-thumb" width="734" data-original="https://pic4.zhimg.com/5d5b7de4dcaf69fa89ab4f5ef8bdbf3f_r.png"><img src="https://pic3.zhimg.com/50/4a1f7a23745479544a88a42f20748856_hd.png" data-rawwidth="737" data-rawheight="551" class="origin_image zh-lightbox-thumb" width="737" data-original="https://pic3.zhimg.com/4a1f7a23745479544a88a42f20748856_r.png"> || || V接着,你需要一些高效的工具来辅助(同样,这里先了解,到具体的项目的时候,再熟悉运用)NO.1 F12 开发者工具:看源代码:快速定位元素分析xpath:1、此处建议谷歌系浏览器,可以在源码界面直接右键看<img src="https://pic3.zhimg.com/50/8be689bc054b6fc2077feca4b99d056e_hd.png" data-rawwidth="861" data-rawheight="449" class="origin_image zh-lightbox-thumb" width="861" data-original="https://pic3.zhimg.com/8be689bc054b6fc2077feca4b99d056e_r.png">NO.2 抓包工具:推荐httpfox,火狐浏览器下的插件,比谷歌火狐系自带的F12工具都要好,可以方便查看网站收包发包的信息<img src="https://pic1.zhimg.com/50/e1c9d44b06a3b9d199c62f0c0e84c3b8_hd.png" data-rawwidth="893" data-rawheight="627" class="origin_image zh-lightbox-thumb" width="893" data-original="https://pic1.zhimg.com/e1c9d44b06a3b9d199c62f0c0e84c3b8_r.png">NO.3 XPATH CHECKER (火狐插件):非常不错的xpath测试工具,但是有几个坑,都是个人踩过的,,在此告诫大家: 1、xpath checker生成的是绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考 2、记得把如下图xpath框里的“x:”去掉,貌似这个是早期版本xpath的语法,目前已经和一些模块不兼容(比如scrapy),还是删去避免报错<img src="https://pic1.zhimg.com/50/87c0ab00e3397e0bf8418b0fd693c298_hd.png" data-rawwidth="700" data-rawheight="408" class="origin_image zh-lightbox-thumb" width="700" data-original="https://pic1.zhimg.com/87c0ab00e3397e0bf8418b0fd693c298_r.png">NO.4 正则表达测试工具:在线正则表达式测试 ,拿来多练练手,也辅助分析!里面有很多现成的正则表达式可以用,也可以进行参考! || || Vok!这些你都基本有一些了解了,现在开始进入抓取时间,上各种模块吧!python的火,很大原因就是各种好用的模块,这些模块是居家旅行爬网站常备的——urlliburllib2requests || || V不想重复造轮子,有没有现成的框架?华丽丽的scrapy(这块我会重点讲,我的最爱)||||V遇到动态页面怎么办?selenium(会了这个配合scrapy无往不利,是居家旅行爬网站又一神器,下一版更新的时候会着重安利,因为这块貌似目前网上的教程还很少)phantomJS(不显示网页的selenium)||||V遇到反爬虫策略验证码之类咋整?(不想折腾的直接第四个)PILopencvpybrain打码平台||||V然后是数据库,这里我认为开始并不需要非常深入,在需要的时候再学习即可mysqlmongodbsqllite||||V爬来的东西怎么用?numpy 数据分析,类似matlab的模块pandas(基于numpy的数据分析模块,相信我,如果你不是专门搞TB级数据的,这个就够了)||||V进阶技术多线程、分布式———————————— 乱入的分割线 —————————————然后学习编程关键的是学以致用,天天捧一本书看不如直接上手操练,下面我通过实际的例子来讲解爬虫——比如最近,楼主在豆瓣上认识了一个很可爱的妹子,发现她一直会更新签名和日志,所以没事就会去她主页看看,但一直没有互相加好友(作为一只高冷的天蝎,怎么可以轻易加好友嘛!而且加了好友,你更新什么都会收到推送,那多没意思啊!一点神秘感都没有了!),可还是想及时获得妹子的最新动态,怎么办?<img src="https://pic2.zhimg.com/50/dd6fd1c0cb91ebad9bacd7d11a56bd09_hd.jpg" data-rawwidth="400" data-rawheight="400" class="content_image" width="400">于是我就写了个70几行的python脚本,包含爬虫+邮件模块,跑在家里的一台闲置笔记本上,通过计划任务每准点抓取妹子的签名和最新文章一次,发送到我的邮箱。。嗯,其实是很简单的技术,,代码如下所示:于是我就写了个70几行的python脚本,包含爬虫+邮件模块,跑在家里的一台闲置笔记本上,通过计划任务每准点抓取妹子的签名和最新文章一次,发送到我的邮箱。。嗯,其实是很简单的技术,,代码如下所示:于是我就写了个70几行的python脚本,包含爬虫+邮件模块,跑在家里的一台闲置笔记本上,通过计划任务每准点抓取妹子的签名和最新文章一次,发送到我的邮箱。。嗯,其实是很简单的技术,,代码如下所示:#-*-coding:utf-8-*- #编码声明,不要忘记!
import requests #这里使用requests,小脚本用它最合适!
from lxml import html #这里我们用lxml,也就是xpath的方法
#豆瓣模拟登录,最简单的是cookie,会这个方法,80%的登录网站可以搞定
cookie = {}
raw_cookies = ''#引号里面是你的cookie,用之前讲的抓包工具来获得
for line in raw_cookies.split(';'):
key,value = line.split("=", 1)
cookie[key] = value #一些格式化操作,用来装载cookies
#重点来了!用requests,装载cookies,请求网站
page = requests.get('#妹纸的豆瓣主页#',cookies=cookie)
#对获取到的page格式化操作,方便后面用XPath来解析
tree = html.fromstring(page.text)
#XPath解析,获得你要的文字段落!
intro_raw = tree.xpath('//span[@id="intro_display"]/text()')
#简单的转码工作,这步根据需要可以省略
for i in intro_raw:
intro = i.encode('utf-8')
print intro #妹子的签名就显示在屏幕上啦
#接下来就是装载邮件模块,因为与本问题关联不大就不赘述啦~
怎么样~是不是很简单~V1.2更新日志:
修改了一些细节和内容顺序
编辑于 2016-10-261.5K85 条评论分享收藏感谢收起迦伦程序媛,๏̯͡๏ 谢谢,赞赞,举高高543 人赞同了该回答如果学会了python的基本语法,我认为入门爬虫是很容易的。
我写的第一个爬虫大概只需要10分钟,自学的 scrapyd , 看官方文档花了20分钟,因为我英文不是很好,很多单词需要搜索一下。
官方文档链接 https://docs.scrapy.org/en/latest/intro/tutorial.html )
(scrapy 并不是入门必须的,所以你可以看完我的答案再酌情考虑 scrapy )
再接触到了 requests , lxml ,配合基本库 urllib, urllib2 就几乎无所不能了。后来有人推荐我用 BeatufulSoup 之类的库,但其实原理都差不多。一、入门爬虫的干货 0. 爬虫的基本思路 a. 通过URL或者文件获取网页, b. 分析要爬取的目标内容所在的位置 c. 用元素选择器快速提取(Raw) 目标内容 d. 处理提取出来的目标内容 ( 通常整理合成一个 Json) e. 存储处理好的目标内容 (比如放到 MongoDB 之类的数据库,或者写进文件里。) 1. 为什么我入门爬虫那么快,我是不是在装逼? 答:我自己总结了一下,在接触爬虫之前: a. 我挺了解HTTP 协议(看了《HTTP权威指南》), b. 我写过基于Flask框架的后端(大概三年前@萧井陌 在知乎上推荐Flask框架,然后我就自学了,用的是《Flask Web开发:基于Python的Web应用开发实战 》) c. 我写过前端(HTML+CSS+JS),了解什么是DOM ,会一点jquery。 d. 正则也是勉强够用的。 e. 本人大学也是计算机专业,学习挺认真的。 f. 所以算是厚积薄发。 2. 那么毫无专业基础,也没有前后端基础的人应该怎么办? 答:那当然要超过半小时啦。先花点时间去大概了解以下内容: a. HTTP协议的请求方法,请求头部,请求数据 b. 大概了解一下什么是 cookie c. 学一点HTML和元素选择器 d. 学会使用Chrome 的 开发者工具
磨刀不误砍柴工,当然如果有人带着,这些大概1-2小时就能过到能凑合用的程度了。如果没人带,就上网搜索学习一下,也很快的,估摸最多十小时。 ps, 阮一峰老师的技术入门博客写得很不错,除此之外,博客园也有很多好资源。
3. 放一个新鲜出炉的代码,看懂就能入门了:<img src="https://pic3.zhimg.com/50/v2-80ea37925ad2b9938ae0ede4bf068396_hd.png" data-rawwidth="759" data-rawheight="727" class="origin_image zh-lightbox-thumb" width="759" data-original="https://pic3.zhimg.com/v2-80ea37925ad2b9938ae0ede4bf068396_r.png">4. Python 爬虫常用的库是哪些?入门应该掌握哪些库?答:网上有很多相关的资料,但是我个人觉得新入门的人,不需要也不应该一下子接触所有的库。正如幼儿刚开始学说话的时候,不应该同时教普通话粤语闽南语英语。 我个人认为,学会 requests 和 lxml ,就可以入门爬虫了。
其他的常用库,自己搜,但注意贪多嚼不烂。 (我整理出来的被小马甲人喷了,我很不开心,所以我自己存好删了)二、一点点涉及爬虫进阶的分界线 0. 知乎上很多爬虫代码,一个函数几十行,是很不好的。应该尽量减少重复代码。 1. 重要的事情说三次,函数不是越长越好, 好代码应该简单易懂好维护!函数不是越长越好, 好代码应该简单易懂好维护! 函数不是越长越好, 好代码应该简单易懂好维护! (放在进阶是因为能做到这一点的爬虫代码不多,很多都一团乱麻,坑死接盘侠)2. Scrapy + MongoDB + Redis 分布式爬虫系统其实不复杂。a). Redis 用来存储要爬取的网页队列,也就是任务队列 b). MongoDB 用来存储爬取的内容结果。c) . Scrapy 里放爬虫crawler , 分别爬取不同的网页内容,
ps:分布式这个东西,听起来很恐怖,但是拆开了也就这样。所以不用害怕。*************************----- 讲事故的分割线 ----- *************************
曾经在某创业公司被赶鸭子上架(我最初是一个后端程序员,现在成分有点复杂,一言难尽),要在一星期内跟一个分布式爬取各大网商(包括淘宝天猫京东等十几家网商,Scrapy + MongoDB + Redis)的数据。当时差点吓坏我了,因为没写过爬虫。 然后leader 给我的线索只有 基本框架是 Scrapy。
也许是无知者无畏, 也没想到去问谁,就自己看了 Scrapy 的文档,半小时就写出来了。后来就很顺利把分布式爬虫系统搭起来了。
还爬了谷歌、百度、Bing、 Pinterest 、Instagram 等大量和当时公司业务相关的数据。 就这样,我做到了。当然,加了不少班。ps: 用很多的机器,代表需要爬取的爬取的数据量很多,但是和项目的复杂程度不一定相关。所以不要害怕。害怕也没用,需求来了,一边颤抖一边加班也要写完代码的。
作者:丁二七
链接:https://www.zhihu.com/question/33255013/answer/56112253
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
一、券商研究报告下载
(收费)
彭博 万得 WIND
汤森路透 Capital IQ
巨灵金融服务平台 同花顺
慧博投研资讯 慧博投研资讯-中国最大最专业的投资研究平台
(免费)渐飞 渐飞研究报告-全国最大的股票研究报告分享平台 研究报告,投资股票,证投资,行业研究,市场分析报告二、其他来源
人大经济论坛 人大经济论坛-国内最大的经济、管理、金融、统计在线教育和咨询网站
人大经济研究所 http://ier.ruc.edu.cn/
百度文库,百度云 豆丁网
新浪爱问 谷歌 (filetype:pdf)
维普,万方等平台 各大咨询公司
www.aol.com里面的搜索引擎功能有google提供,搜索结果与google一样,如果google无法登陆,可以用这个网站代替
全景网:财经资讯 全景网:权威财经资讯网站三、各大咨询公司报告下载页面
德勤中国 | 审计, 企业管理咨询, 财务咨询, 风险管理, 税务服务及行业洞察。
Deloitte | Audit, Consulting, Financial, Risk Management, Tax Services。
http://www.kpmg.com/CN/en/IssuesAndInsights/Pages/default.aspx。
McKinsey Greater China。
IBM - 全球企业咨询服务部。
http://www.bcg.com.cn/cn/newsand ... s_publications.html。
商业评论网—打造最有影响力的管理者社区。
http://www.ey.com/CN/ZH/home/library。
贝恩观点 贝恩公司。
https://china.mckinseyquarterly.com/home.aspx。
http://www.pwccn.com/home/eng/libraryindex.html。
http://www2.hewittassociates.com/Intl/AP/zh-CHT/Default.aspx。
http://www.booz.com/global/home/ ... ding-research-on-ma。四、上市公司公告
香港证监会上市公司公告
http://www.hkexnews.hk/listedco/ ... h_active_main_c.asp
美国证监会上市公司公告
http://www.sec.gov/edgar/searchedgar/companysearch.html
中国上市公司公告
http://www.cninfo.com.cn/information/companyinfo/html五、统计局网站信息汇总
国家统计局 http://www.stats.gov.cn/
【北京】北京市统计信息网 http://www.bjstats.gov.cn/
【天津】天津市统计信息网 http://www.stats-tj.gov.cn/
【河北】河北省统计局 http://www.hetj.gov.cn/
【河南】河南省统计局 http://www.ha.stats.gov.cn/
【黑龙江】黑龙江省统计信息网 http://www.hlj.stats.gov.cn/
【吉林】吉林省统计信息网 http://tjj.jl.gov.cn/
【辽宁】辽宁省统计信息网 http://www.ln.stats.gov.cn/
【山东】山东统计信息网 http://www.stats-sd.gov.cn/
【江苏】江苏省统计局http://www.jssb.gov.cn
【江西】江西省统计局 http://www.jxstj.gov.cn/Index.shtml
【安徽】安徽统计信息网 http://www.ahtjj.gov.cn/
【山西】山西统计信息网 http://www.stats-sx.gov.cn/
【陕西】陕西统计信息网 http://www.sn.stats.gov.cn/
【湖北】湖北省统计局 http://www.stats-hb.gov.cn/
【湖南】湖南统计信息网 http://www.rcinfo.gov.cn/tjwh/tjwh/tjwh.files/hntj.gov.htm
【贵州】贵州省统计局 http://www.gz.stats.gov.cn/
【四川】四川统计局 http://www.sc.stats.gov.cn/sctj/
【云南】云南省统计局 http://www.stats.yn.gov.cn
【甘肃】甘肃统计信息网 http://www.gstj.gov.cn/
【青海】青海统计信息网 http://www.qhtjj.gov.cn/
【宁夏】宁夏统计信息网 http://www.nxtj.gov.cn/
【福建】福建省统计局 http://www.stats-fj.gov.cn/
【广东】广东统计信息网 http://www.gdstats.gov.cn
【广西】广西统计信息网 http://www.gxtj.gov.cn/
【浙江】浙江统计局 http://www.zj.stats.gov.cn/
【新疆】新疆统计信息网 http://www.xjtj.gov.cn/
【海南】海南统计局 http://www.hi.stats.gov.cn/
【上海】上海统计局 http://www.stats-sh.gov.cn/
【内蒙古】内蒙古统计局 http://www.nmgtj.gov.cn/
【重庆】重庆统计信息网 http://www.cqtj.gov.cn/六、投行网站
http://macabacus.com/ http://www.wallstreetoasis.com/ http://www.ibankingfaq.com/
IPO http://stocks.etnet.com.cn/www/sc/stocks/ci_ipo.php
IPO http://www.aastocks.com/sc/ipo/sponsor.aspx
juling http://terminal.chinaef.com/index.action
MA http://www.mergermarket.com/info/七、其他资源网站
统计学软件网站 http://www.ats.ucla.edu/stat/
下载软件 http://app.hustonline.net/index
注册国家图书馆 http://www.nlc.gov.cn/MIT data base
http://libraries.mit.edu/multi/research-guides.html http://data.un.org/ http://libguides.mit.edu/market http://libguides.mit.edu/corpreports八、数据库整理
1、国研网数据库
http://edu.drcnet.com.cn/DRCNet.Edu.Web/
特点:统计数据库包含宏观数据、金融、教育、行业数据等,但是宏观数据年度跨度不大。适合对个别指标进行跨省、跨时间的统一检索。另外有全文数据库等,包含一些专家学者的文章,可以作为参考。
2、中经网
http://162.105.138.185:90/scorpi ... 1014&height=708
特点:以宏观数据为主,包含国家一级、31个省以及200多个市的数据,与国研网的统计数据库类似,统计项目没有国研网多,但是有些指标年份跨度更大。适合统一检索。
3、资讯行
http://www.bjinfobank.com/IrisBin/Select.dll?Special?db=TJ
特点:非常全的数据库,几乎囊括了所有最新的年鉴。适合寻找数据的来源。缺点在于:没有1995年之前的年鉴,数据不是表格形式,需要自己修改。(可行的方法包括:粘贴到word中,把空白(^w)替换为制表符(^t),或者直接粘贴到excel2007,进行数据分列)。
4、统计局数据库
http://219.235.129.58/indicatorYearQuery.do
特点:最近几年刚出的,还在完善中。可以对统计局出版的年鉴数据进行统一检索。(和1、2很相似)有时候能找到1、2所没有的数据。
5、年鉴
http://www.stats.gov.cn/tjsj/ndsj/
包括历年统计年鉴以及普查数据、专题数据等,适合浏览年鉴。实际上,目前很多最新年鉴,包括《新中国六十年统计资料汇编》、《2010年统计摘要》等都可以在网上下载到excel版本。
6、知网
http://epub.edu.cnki.net/grid2008/index.htm
6.1文献
http://epub.edu.cnki.net/grid2008/index/ZKCALD.htm
非常全的学术文献数据库,包括了期刊、学位论文、学术会议论文等。这个加上维普的话,基本上可以把中国比较好的期刊论文都包括了。
6.2年鉴
中国统计年鉴数据库(挖掘版)
http://tongji.cnki.net/Kns55/Nav ... OEFIV2ZBPT0=&p=
提供对统计年鉴的统一检索,但是效果不理想,比较凌乱。列出了500部左右的年鉴,比较全,但是不一定有最新的。可以先在资讯行搜索数据指标所属的年鉴,再在这里找到年鉴。
7、维普
http://162.105.138.192/index.asp
有些知网上找不到的文章可以在这里找到,文章很全。
8、英文数据库
http://www.lib.pku.edu.cn/portal ... ew_sub_nvgt_db.psml
有BVD统计数据库,包括各国的宏观数据、金融数据、企业数据,有JSTOR,含有重要英文文献,有Elsevier Science--学术期刊数据库(science direct),非常全的英文期刊文献。
另外还有:
http://springer.lib.tsinghua.edu.cn/ http://onlinelibrary.wiley.com/
9、人大经济论坛
http://www.pinggu.org/bbs/
会有一些经济学书籍、年鉴、软件的下载。
10、图书馆主页搜索相关的年鉴,也可以提供年鉴下载,但是好像不提供最新一期的。其实,google和百度也是常用的数据来源。图书馆的数据库都是可以凭借校内的IP直接登录的,如果在校外的话可以使用代理服务器或者VPN。在校外要登录学校的数据库,可以采用如下办法:1,代理,https://its.pku.edu.cn/cysz/proxysz.jsp。2,vpn,https://its.pku.edu.cn/wlfw/vpn-o2-web.jsp。但是两个都不稳定。九、如何寻找国外的数据
1、搜集美国相关的数据
由位于华盛顿的美国政府印刷办公室出版、经济顾问委员会撰写的《总统经济报告》(Economic Report of President),提供了有关美国当前经济形势的描述和主要宏观经济变量数据。相当多的数据都可以追溯到1959年,甚至个别的可追溯到1929年。可能你已经留意到了,好多有关美国的图形,都是采用《总统经济报告》(2005)所附数据生成的。这些数据可以免费下载,网址是www.access.gpo.gov/eop/。
如果需要一应俱全安的数据,一个宝贵的权威来源是,美国商务部统计局出版的《美国统计概要》(Statistical Abstract of the United States),相当一部分数据可以免费下载,网址是www.census.gov/statab/www/。
如果想获得最近数据的详细资料,一个不错的选择是,美国商务经济分析局每月出版的《当代商业纵览》(Survey of Current Business)。网址是,www.bea.doc.gov。
2、如何搜集国外其他经济体的数据
对富裕国家来说,最有用的资料来源于经济合作与发展组织(Organization of Economic Cooperation and Development,简称OECD)。经济合作与发展组织的成员包括:奥地利、澳大利亚、比利时、加拿大、捷克共和国、丹麦、芬兰、法国、德国、希腊、匈牙利、冰岛、意大利、日本、卢森堡、墨西哥、荷兰、新西兰、挪威、波兰、葡萄牙、韩国、西班牙、瑞典、瑞士、土耳其、英国和美国。看来,世界上的富裕国家大都属于该组织,其产出占世界产出的70%左右。OECD的网址是www.oecd.org,提供三种极为有用的数据。
《OECD经济展望》(OECD Economic Outlook),每年出版两次,提供许多跨国宏观经济数据。这些数据一般都上溯到20世纪70年代,而且具有很好的一致性。
《OECD就业展望》(OECD Employment Outlook),每年出版一次,专门提供劳动力市场的数据。 《OECD历史统计》(OECD Historical Statistics),不定期出版,将当期数据和过去数据放在一起。
对于不是OECD成员的国家和地区,可以从其它国际组织那里获得相关数据,比如国际货币基金组织(International Monetary Fund,简称IMF),其网址是www.imf.org。IMF提供《国际金融统计年鉴》(International Financial Statistics Yearbook),它主要提供成员国的金融数据,但也包括一些总体数据,比如GDP、失业和通货膨胀等。
至于若干国家长期的统计数据,两个不可多得的数据来源是,Heston-Summers数据库和Madison数据库。Heston-Summers数据库提供168经济体在1950-2000年间的跨国可比数据,在宾夕法尼亚大学国际比较中心(Center for International Comparisons at the University of Pennsylvania)网站上可以下载,http://pwt.econ.upenn.edu/。Madison数据库提供了自1820年以来56个经济体的数据。
最后,如果还没有找到你要的数据,不妨登陆下面的两个网站,也许是根稻草。哈佛商学院的宏观经济学资源网站www.hbs.edu./units/bgie/internet/,提供了大量连接。由密西西比大学Bill Goffe维护的一个网站http://rfe.wustl.edu,不仅列出了数据来源,而且还列出了有关经济的其他信息来源。十、综合性数据
SEC EDGAR数据库
美国国会两院记录、商务部经济数据、伯克莱圆桌会议、斯坦福法律经济词典
http://town.hall.org/radio/JEC
Web统计资源指南(密执安大学)
Statistical Resources on the Web (University of Michigan)由密执安大学文献中心建立。这是一个内容广泛、编排细致的资源指南。包括以下类目:工商业、生活消费、图表、经济学、财政金融、国际经济、国际贸易、劳动与就业等。 http://www.lib.umich.edu/libhome/Do...nter/stats.html
报价公司
提供有价证券的数据、信息。如有价证券一览表、快报
http://finance.lycos.com/qc/default.aspx
产品价格指数(PPI)详细报告
每月一次的产品价格指数报告和数据。包括最终产品和中间产品到原材料等)。
http://stats.bls.gov/ppihome.htm
房产起价和建筑许可Housing Starts and Building Permits (US Census Bureau)
在这里可以看到美国人口普查局最近发布的经济指标。包括私有房产起价和当月、当年的建筑许可摘要。
http://www.census.gov/pub/indicator/www/housing.html
高校财经数据库
收录 12个在线数据库,超过三百万篇商业报告和文章。
http://www.bjinfobank.com/
国际股票市场数据库
包括国际股票市场的价格图表、交易量、共同基金图、上市公司简介等
http://www.stockmaster.com/
国民收入和产品帐户National Income and Product Accounts (University of Virginia)
这是佛吉尼亚大学社会科学数据中心的杰作。可检索自1959年以来的数据。主要包括:政府收入和支出;收入、就业、工业产品;国民生产和收入;个人收入和消费;数量和价格指数;存款和投资等。
http://www.lib.virginia.edu/socsci/nipa/
华通数据中心
宏观经济信息、行业(产业)发展报告、企业(公司)信息、产品市场分析
http://data.acmr.com.cn/
环境安全数据库
多伦多大学和平与冲突研究项目组维护,涉及发展中国家环境压力与暴力冲突
http://www.library.utoronto.ca/pcs/database/libintro.htm
经济数据(国际)EconData (International)
马里兰大学提供的国际性EconData时间序列数据库。新用户要先看数据库说明。文件是PK压缩格式。
http://www.inform.umd.edu/EdRes/Top.../International/
经济数据(美国马里兰大学)EconData (University of Maryland)
可以下载大量的时间序列数据和查看数据的工具。也可以下载一些指令和工作论文。数据覆盖了全球及美国经济。数据文件用PKZip格式压缩。
http://www.inform.umd.edu:8080/EdRe...a/Econdata.html
经济数据和链接(美国加州大学Fresno分校)Econ Data & Links (CAL State Fresno)
由美国加州大学Fresno分校建立。该站点提供了大量表格和统计数据,以及很多相关站点的链接,内容从收入、财富到贫困问题都有。
http://www.csufresno.edu/Economics/econ_EDL.htm
经济学数据Economics Data
是WebEc的一部分。以良好的编排方式将数据和经济学站点排列出来。可参见经济学与计算网页,上面提供了很多软件链接。
http://www.helsinki.fi/WebEc/webecc8d.html
经济学网络
这是一个内容非常丰富的资源中心,有大量美国和世界经济与金融市场的在线图表、经济指南、每周经济分析与简评,以及指向其它资源的链接。所有文件都是PDF格式。由德国驻纽约Morgan Grenfell的首席经济学家Ed Yardeni博士提供。
http://www.yardeni.com/
联储经济数据Federal Reserve Economic Data (FRED)
是美国联邦储备银行圣路易斯分行提供的一种很出色的服务。再该站点上,除了有经济研究方面的研究论文和工作论文以外,还提供了有价值的关于美国经济各方面的当前和历史数据。
http://www.stls.frb.org/fred/
联合国数据信息(耶鲁大学)Numeric Data for UN Information (Yale University)
上面有各种数值型数据的链接。由耶鲁大学图书馆维护。
http://www.library.yale.edu/un/un2d.htm
联合国统计年鉴Statistics Yearbook (UN)
主要包括统计数据和指标(如月度统计公报)、统计方法、统计源与参考工具等内容。注册后可以在一段时间以内免费使用统计数据和指标,其它资源不需注册。
http://www.un.org/Depts/unsd/mbsreg.htm
贸易和环境数据库
搜集了几百个贸易与环境的案例,按28种不同标准分类
http://www.american.edu/projects/mandala/TED/ted.htm
美国的贫困问题Poverty in the United States
该站点上提供了美国人口普查局前几年的人口系列报告。可以估算在贫困线以下的美国居民、家庭和个人的情况。文件是PDF格式。
http://www.census.gov/hhes/www/poverty.html
美国家庭的货币收入Money Income in the United States
这是美国人口普查局的系列人口报告的调查数据。对美国的家庭和个人 经济状况的估计;包括年龄、种族、性别、地区、教育程度、收入情况、工作状况等变量。文件为PDF格式。
http://www.census.gov/ftp/pub/hhes/www/incom.html
美国经济指标与数据Economic Indicators and Data (via Census Bureau)
美国人口普查局的最新经济指标。包括: 耐用消费品厂商的运输和定货;房屋起价;商品与服务的国际贸易;制造业和商业创新及销售;制造业的出货、技改和订货;月度批发贸易;月度零售贸易及月度时间序列数据。该站点上还有一个观察当前美国经济状况的小册子,每月出版。常设指标有:GNP、进出口、就业及收入、价格等。有图表,可检索。
http://www.census.gov/ftp/pub/indic...ww/indicat.html
美国历史上的人口普查数据
提供了描述1790-1860年间美国经济的数据。由哈佛大学维护
http://fisher.lib.virginia.edu/collections/stats/histcensus/
美国历史上的人口普查数据浏览United States Historical Census Data Browser
该站点提供了描述1790-1860年间美国经济的数据。由哈佛大学维护。
http://icg.harvard.edu/census/
美国明尼阿波利斯联邦储备银行经济研究和数据(联机)Federal Reserve Banks (Online)
美国明尼阿波利斯联邦储备银行经济研究和数据,大量经济数据可供查找。
http://woodrow.mpls.frb.fed.us/
美国统计(美国商业部)STAT USA ( Department of Commerce)
是美国商业部的一个站点。提供美国联邦政府发布的商业、经济、贸易活动的权威信息。站点上包括有尝联机服务的数据库,也有一些免费的数据库,如经济分析局(Bureau of Economic Analysis Economic Information)、美国国家贸易数据银行(the National Trade Data Bank)等提供的其它数据。
http://www.stat-usa.gov/
能源技术数据交换(ETDE)与能源数据库
收集与交换能源研究与技术的信息,能源文献收藏量为世界第一
http://www.etde.org/
日本统计Statistics in Japan
该站点提供了大量的关于日本的数据和指向其它统计站点的链接。由日本信息网络提供。
http://www.jinjapan.org/stat/
世界统计表格
世界统计表格是IMF的年度报告,由世界银行出版,提供了世界各国经济、社会数据指标集。
http://www.worldbank.org/html/extpb...NG/wdt-home.htm http://www.ciesin.org/IC/wbank/wtables.html
个人所得税Statistics of Income: Individual Income Tax Returns
美国国家税收局(Internal Revenue Service)关于个人税收的年度报告。有税收数量和总量,以及各种收入来源。
http://www.irs.ustreas.gov/tax_stats/ind.html
数据中华
商业数据网站,产业研究、竞争情报分析、市场调查、资信调查等
http://www.allchinadata.com/
统计资源指南Statistical Resources Guide
由Mansfield大学图书馆建立。超文本链接指向统计站点,或介绍印刷型资料。以美国为主,兼有国际性内容,内容涉及经济、社会等各方面。是一个非常有用的资源指南。
http://www.clark.net/pub/lschank/web/govstats.html
网上数据(加州大学圣迭戈分校)Data on the Net (UC San Diego )
收集了关于美国经济和其它数据的站点,有注释,可检索。
http://odwin.ucsd.edu/idata/
政府数据(NetEYE Inc)Government Data (NetEYE, Inc)
由商业服务机构streetEYE建立。全面收集了全球的数据资源。包括美国、加拿大、拉丁美洲、欧洲、远东地区以及国际组织等。
http://www.streeteye.com/index/gov.html
中国产业经济信息网
产业经济的相关数据,部分内容可试用
http://www.cinic.org.cn/
中国导航网
中国导航网,专业的行业研究机构,权威的数据资源,覆盖全国的调研机构,真诚的服务。
http://www.chinaguiding.cn
中国经济信息网数据库
中国经济统计、行业、地区经济、企业等数据库
http://www.cei.gov.cn/default.aspx?tab=157
中国自然数据库
中国资源、环境、人口、社会经济等相关数据的集合。
http://www.naturalresources.csdb.cn/index.asp十一、利用搜索引擎
1、http://scholar.google.com/
虽然还是Beta版,但个人已觉得现在已经是很好很强大了,Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数。略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章。
2、http://www.scirus.com
Scirus 是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科 范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法 学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。
3、http://www.base-search.net/
BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160 个开放资源(超过200 万个文档)的数据。
4、http://www.vascoda.de/
Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。
5、http://www.goole.com/
与google比较了一下发现,能搜索到一些google搜索不到的好东东 。它界面简洁,功能强大,速度快,YAHOO、网易都采用了它的搜索技术。各位可以一试。
6、http://www.a9.com
Google在同一水平的搜索引擎。是http://Amazon.com推出的,Web result部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。现在还是Beta,不过试用后感觉很好,向大家推荐一试 ,不过缺憾是现在书本内搜索没有中文内容。7、http://www.ixquick.com
严格意义上讲不是搜索引擎,是连接搜索引擎和网络用户的信息立交桥。新一代的搜索引擎应运而生,Ixquick meta-search正是目前最具光芒的新星。但是对于大多数国内用户来说,Ixquick还很陌生。Ixquick众多独特的功能我不一一介绍了,只 介绍我们最关心的,搜索数据库密码。
使用方法:先进入Ixquick,以“Proquest”数据库为例。填入Proquest Username Password History Online后点击search,看看出来的结果,第一页中第6个,proquest的username和password赫然在目,别急,再看第4个结 果“HB Thompson Subscription Online Databases”,即http://homework.syosset.k12.ny.us/onlinedbs/HBTDatabases/,进入 后发现这是一个密码页,选择Magazines & Journals栏,就有 EBSCO、Electric Library Elementary、Electric Library Elementary、ProQuest Platinum (in school)、ProQuest Platinum (remote)等众多数据库的密码,都有uesrname和password,随便试一下EBSCO,OK,成功登陆。
8、http://vivisimo.com/
cmu的作品,对搜索的内容进行分类,这样可以有效地做出选择,比较有特色。可实现分类检索,检索速度也很好,如EBSCO 密码几分钟就可找一大堆 .
http://search.epnet.com/,User ID: mountain,Password: ridge,这个密码可以试试。
9、http://www.findarticles.com/
一个检索免费paper的好工具。 进入网页以后,可以看到他有三个功能,driectory web article ,其中article对我们很有帮助,你可以尝试输入你要找的文章,会有很多发现的!
10、http://www.sciseek.com/Sample
感觉不是很好用,内容也不是太多,主要靠用户添加网址,提供信息的搜索引擎,搜索功能也比较差,输入常见的关键词,往往找不到相匹配的内容。
11、http://www.chmoogle.com
现点击后或跳转到http://www.emolecules.com,在此搜索引擎里可以搜索到超过千万种化学品信息或相应的供应商,与Chemblink有点相似,但提供的化学品理化信息没有Chemblink详细,与其不同的是该搜索引擎可提供化学品结构式搜索(主页上有在线绘制化学结构式的搜索框)。
12、http://www.ojose.com/
OJOSE (Online JournalSearch Engine,在线期刊搜索引擎)是一个强大的免费科学搜索引擎,通过OJOSE,你能查找、下载或购买到近60个数据库的资源。但是感觉操作比较复杂。
13、http://citeseer.ist.psu.edu/
一个关于计算机和信息科学的搜索引擎。
14、http://hpsearch.uni-trier.de/
专家个人主页搜索引擎
15、http://cnplinker.cnpeak.com/
为 了给读者用户提供一个方便快捷的查阅国外各类期刊文献的综合网络平台,中图公司组织开发了cnpLINKer(cnpiec LINK service)在线数据库检索系统,并正式开通运行。cnpLINKer即“中图链接服务”,目前主要提供约3600种国外期刊的目次和文摘的查询检 索、电子全文链接及期刊国内馆藏查询功能.并时时与国外出版社保持数据内容的一致性和最新性。点评:只提供了外文检索的功能,但是无法得到全文。个人认为不是很理想。
16、http://guoxue.baidu.com/
百度国学目前能提供上起先秦、下至清末历代文化典籍的检索和阅读。内容涉及经、史、子、集各部。
17、http://infomine.ucr.edu/
NFOMIN是由加州大学、维克森林大学、加州国立大学、底特律大学等大学图书管理员建立的学术搜索引擎。它主要为大学职员、学生和研究人员提供在线学术资源。十二、互联网和传媒
1、资讯类
新浪科技 http://tech.sina.com.cn/
腾讯科技 http://tech.qq.com/
艾瑞网 http://www.iresearch.cn/
艺恩网 http://www.entgroup.cn/
虎嗅网 http://wwww.huxiu.com/
36kr http://36kr.com/
钛媒体 http://www.tmtpost.com/
游戏大观 http://www.gamelook.com.cn/
亿欧网 http://www.iyiou.com/
媒介360 http://www.chinamedia360.com/main
2、数据类
中国票房 http://www.cbooo.cn/
中国互联网络信息中心 http://www.cnnic.net.cn/
艾瑞网 http://www.iresearch.com.cn/report/viewlist.aspx
易观智库 http://www.analysys.cn/
游戏产业网 http://www.cgigc.com.cn/list/79644663134.html
百度指数 http://index.baidu.com/
大数据导航 http://hao.199it.com/
CSM(电视收视率) http://www.csm.com.cn/
微排片 http://www.weipaipian.com十三、医药行业
1、样本医院数据
(1)化药、生物药和中药注射剂 http://pdb.pharmadl.com/
(2)中成药、化药 http://www.menet.com.cn/
(3)国外样本医院数据彭博上有类似PDB的数据库
2、药品中标价格
百度虫,药智网,健康网 (付费),米内网(付费)
3、药品招标政策
各省药品招标平台
4、医疗器械数据
基本没有,米内网有付费数据库(没见过)、海关信息网
5、中药材数据
中药材天地网、万得的EDB、中药材东方网
6、药品审批
药智网、药监局、CDE网站
7、医药行业政策
国家药监局、发改委、中国政府网、卫计委等等
8、国内外行业协会和咨询机构
例IMS Health、XX医药协会
9、新闻网站/微信
赛柏蓝、米内网、生物谷、新康界、医谷、药友汇、丁香园、动脉网、贝壳社十四、策略常用网站
1、国内网站
统计局 www.stats.gov.cn/
中国人民银行 www.pbc.gov.cn/
财政部 www.mof.gov.cn/
海关总署 http://www.customs.gov.cn/tabid/400/Default.aspx
中央结算公司 www.chinabond.com.cn/
发改委 www.sdpc.gov.cn/
审计署 www.audit.gov.cn/
2、国外网站
the world bank: http://www.worldbank.org/
united states census:http://www.icpsr.umich.edu/
BEA: http://www.bea.gov/
CBO: http: //http://www.cbo.gov/
world federation of exchanges: http://www.world-exchanges.org/
最常用wind股票数据库十五、银行业
1、新闻资讯
中证网 http://www.cs.com.cn/xwzx/hg/
一财网 http://www.yicai.com/economy/
财新网 http://finance.caixin.com/bank/
华尔街见闻 http://wallstreetcn.com/news?cid=19
新浪财经 http://finance.sina.com.cn/
证券时报网 http://www.stcn.com/
中国金融新闻网 http://www.financialnews.com.cn/yh/xw/
2、公告、数据查找
中国货币网 http://www.chinamoney.com.cn/index.html
巨潮网 http://www.cninfo.com.cn/
统计局 www.stats.gov.cn/
中国人民银行 www.pbc.gov.cn/
银监会 http://www.cbrc.gov.cn/index.html
上海证券交易所 www.sse.com.cn/
深圳证券交易所 www.szse.cn/
最常用wind股票数据库十六、有色金属行业
1、日报网站
(1)宏观新闻:央行快讯 http://t.news.fx168.com/bank/
(2)行业新闻:中国金属网 http://www.metalchina.com,上海有色网 http://www.smm.cn/index_2015.html,百川咨询 http://www.baiinfo.com
(3)公司公告:巨潮 http://www.cninfo.com.cn
2、其他常用站
高工锂电 http://www.gg-lb.com/default_index_new.php
真锂研究 http://www.realli.net
深交所互动易(查看投资者互动资料) http://irm.cninfo.com.cn/szse/
中金网(有色金属) http://www.metalsinfo.com/news/
银 https://www.silverinstitute.org/site/publications/
银 http://financial.thomsonreuters. ... /articles/gfms.html
新三板咨讯 http://www.sanban18.com
格隆汇港股 http://www.gelonghui.com/portal.php十七、英语技能建议
1、总结: 听,读/复述,记录三者缺一不可FT商学院 http://www.ftchinese.com/channel/mba.htmlFT双语阅读 http://www.ftchinese.com/channel/english.htmlFT英语速读测试 http://www.ftchinese.com/channel ... utm_medium=referral2、推荐材料和网站最实用的听力网站:http://www.hxen.com/englishlistening/页面上方有这么多的选项,可以根据自己的水平选择不同的听力材料,很多材料都有文本甚至有中文翻译,是非常难得的资料! 每天花15分钟,选2-3篇新闻练听力,对照文本和翻译,并把实用的内容记录下来,非常有帮助。提示: VOA慢速:速度非常慢,属于难得最低的材料。VOA标准:常速新闻,难度中等。BBC:标准英式发音,难度较大。NPR: 速度较快,难度较高的美国广播新闻。十八、培养market sense的几个必备网站
1、新浪财经国内最全面,最权威的财经网站,设为浏览器主页,http://finance.sina.com.cn/,各个栏目的质量都很高,有很多值得挖掘的内容绝对的国内财经头条,其中右方的专题策划非常值得一看主页下方很多国内权威杂志的链接,可以免费阅读2、21世纪商业评论http://www.21cbr.com/ 最前沿的商业资讯,文章很有深度,可订阅电子邮件3、FT中文网http://www.ftchinese.com/,权威,可同时读中英文文章,可订阅电子邮件4、华尔街中文网http://cn.wsj.com/gb/ 同样权威,可同时读中英文文章,可订阅电子邮件5、推荐网站视频:罗辑思维,赢在中国(经典的创业节目),中国经营者,CCTV-2 经济半小时,一虎一席谈,财富人生。编辑于 2017-02-213.8K76 条评论分享收藏感谢收起林骏翔忙于追求更好的人生。205 人赞同了该回答我主要针对题主提的问题回答吧,抛砖引玉。看了其它知友的回答,关于数据网站方面的内容都挺全面的(不过居然看到了VOA英语和逻辑思维等是怎么回事)。一、找到了数据,却无法溯源,而数据不能使用的时候?数据说法不一,而没有一个官方的来源,无法抉择的时候?这两个问题有些类似,都是需要找到一个官方的来源。股票基本面财务数据:当然最正统的来源是上市公司的年报:上交所:上海证券交易所深交所:深圳证券交易所港股:http://www.hkex.com.hk/chi/index_c.htm美股:SEC.gov | Home更方便获取年报的网站应该是巨潮资讯网,当然单间公司也可以到公司的官网去下载。一般上市公司网站都有相关栏目。一般叫“投资者关系”。官方经济数据:统计局:中华人民共和国国家统计局美联储:Board of Governors of the Federal Reserve System石油:OPEC:OPEC : Home(OPEC每月都会发布月度报告,这也是很多新闻的来源)伦敦贵金属交易所:London Metal Exchange: Home(伦敦金等)外汇:国家外汇管理局:http://www.safe.gov.cn/等等。有太多了,由于前面很多答主已经列举了很多来源,所以就不再花时间堆链接了,都大同小异。方法:主要说说一下个人找来源的简单方法,姑且叫它“关键字溯源法”吧。其实就是从财经新闻中寻找那些关键字,然后在搜索引擎上寻找它的网站。除去一些伪相关等无意义的财经新闻外,一些新闻是由专业的财经记者写的,一些是引用一些业内著名人士的分析的,还有一些则是翻译外国的一些文件或新闻。在这些新闻内容中,多多少少会有一些机构组织名称(通常是英文名)是容易被我们忽视的,而这些恰恰是关键信息来源,甚至比你看的新闻更加客观。这是一个很久以前的可能不起眼的新闻,以它为例子:2014年全球十大黄金生产商排名<img src="https://pic1.zhimg.com/50/40ee5f4f61d7fb3580b3e31da11ab34c_hd.png" data-rawwidth="632" data-rawheight="539" class="origin_image zh-lightbox-thumb" width="632" data-original="https://pic1.zhimg.com/40ee5f4f61d7fb3580b3e31da11ab34c_r.png">文中列出了十大黄金矿商的产量(这里暂且不论新闻的真实性,如果需要验证的话,可以到相应国家的股市上看或在Google上查询一下,再严格点可以深入各个公司的年报细看。),这里提供了大量的信息:1.十大黄金矿商的名称;2.数据来源(左下角GFMS)。搜索一下GFMS(外国网站当然用Google。虽然即使是中文也比百度满屏广告要好。):<img src="https://pic4.zhimg.com/50/9e7251a05e775aeb2c9b51572203a173_hd.png" data-rawwidth="1175" data-rawheight="523" class="origin_image zh-lightbox-thumb" width="1175" data-original="https://pic4.zhimg.com/9e7251a05e775aeb2c9b51572203a173_r.png">于是我们得知了它是全球领先的贵金属咨询公司,如果还不放心数据的真实性(毕竟这是二手数据了),我们可以直接搜索公司的名称,年报是最标准不过的了。于是我们得知了它是全球领先的贵金属咨询公司,如果还不放心数据的真实性(毕竟这是二手数据了),我们可以直接搜索公司的名称,年报是最标准不过的了。比如搜索Goldcorp,进入其官网下载年报打开,所有的信息一目了然(外国的年报做得很精美)。<img src="https://pic2.zhimg.com/50/5fb09d120ba69a7b6d0b1c30628ea96d_hd.png" data-rawwidth="557" data-rawheight="618" class="origin_image zh-lightbox-thumb" width="557" data-original="https://pic2.zhimg.com/5fb09d120ba69a7b6d0b1c30628ea96d_r.png">在这几百页的PDF里,你看到的就不仅是产量这么简单了。包括维持成本(All-in sustaining costs)等等。你也可以对它们进行整合得出数据:<img src="https://pic3.zhimg.com/50/a9a338b886e8ec299485ba3e8fb59a4a_hd.png" data-rawwidth="688" data-rawheight="445" class="origin_image zh-lightbox-thumb" width="688" data-original="https://pic3.zhimg.com/a9a338b886e8ec299485ba3e8fb59a4a_r.png">如果对大宗商品感兴趣,从这方面入手也是一个切入点,也可以看看外国企业开采黄金的成本等等。可以作出一些调研分析。对于行研有一定的帮助。如果你对看到的新闻追根溯源,能够发现很多对分析有用的东西,比如美国能源署EIA2015展望(现在应该2016了吧。)<img src="https://pic1.zhimg.com/50/6bbc47270b571139b5b1fb93ce08519c_hd.png" data-rawwidth="493" data-rawheight="456" class="origin_image zh-lightbox-thumb" width="493" data-original="https://pic1.zhimg.com/6bbc47270b571139b5b1fb93ce08519c_r.png">2015世界风险报告<img src="https://pic3.zhimg.com/50/a04336f4c1246e5ccf1af2a9ff0f669a_hd.png" data-rawwidth="593" data-rawheight="504" class="origin_image zh-lightbox-thumb" width="593" data-original="https://pic3.zhimg.com/a04336f4c1246e5ccf1af2a9ff0f669a_r.png"><img src="https://pic3.zhimg.com/50/dad7bbbb1a7d7fc95f71a550eeb73cda_hd.png" data-rawwidth="784" data-rawheight="501" class="origin_image zh-lightbox-thumb" width="784" data-original="https://pic3.zhimg.com/dad7bbbb1a7d7fc95f71a550eeb73cda_r.png">等等有意思的文件。还有很多的东西可以去挖掘。二、有些数据就是找不到,不知道如何阐述某个问题的时候?有些数据的确是找不到的,这时候就需要自己预测了。最常用的方法就是利用计量经济学的方法建立经济模型,根据已知的因素进行线性回归分析,进一步去预测某些数据。之前见过一个人,在投行工作期间研究高速公路上市公司,需要未来几年计划铺设的公里数,有些政府网站会提供相关数据,但是有些政府网站并没有提供,网上也没有任何相关数据。最终他根据几个已知的数据,比如历史铺设的公里数、GDP增长率等等自己建立了一个经济模型进行预测,结果据说还挺准确的。比较常用的统计软件就是SPSS、R这些了吧。涉及到的具体问题比较复杂,也需要根据具体问题来分析。三、有些数据明明就有,却来自于某些咨询公司,标价动不动就是上千刀!现有的数据库往往太贵,一般人承受不起。所以当一些数据可以从网页上获取得到,却没有相应的接口时,就需要用爬虫了。1.Excel(相信很多人都会,不了解的可以看看)Excel可以选择复制粘贴的方式,但效率较低,且无法更新。所以在Excel中调用数据是更为明智的做法。优点:简单快捷,不需要太多的计算机知识;数据能够自动更新。缺点:不使用大规模爬取数据;效率较低。具体做法是:在网上找到想要的表格数据<img src="https://pic4.zhimg.com/50/f0c4b4cca7ad5ffbaa663f4eae9daa57_hd.png" data-rawwidth="690" data-rawheight="417" class="origin_image zh-lightbox-thumb" width="690" data-original="https://pic4.zhimg.com/f0c4b4cca7ad5ffbaa663f4eae9daa57_r.png">复制网站,打开Excel,选择数据-自网站<img src="https://pic4.zhimg.com/50/bd1d9d556aaccedbd8af65b46ce9b2bb_hd.png" data-rawwidth="500" data-rawheight="343" class="origin_image zh-lightbox-thumb" width="500" data-original="https://pic4.zhimg.com/bd1d9d556aaccedbd8af65b46ce9b2bb_r.png">在弹出框的地址栏中输入网址,进去后,在需要的表格左上方会有黄色的框黑色的箭头,点击便是选中表格。<img src="https://pic4.zhimg.com/50/d0cb3de903b1d3d1619396ec6c08d327_hd.png" data-rawwidth="533" data-rawheight="249" class="origin_image zh-lightbox-thumb" width="533" data-original="https://pic4.zhimg.com/d0cb3de903b1d3d1619396ec6c08d327_r.png">选中后点击导入就可以了。2.爬虫+数据库(构建自己的数据库)上面的Excel算个“小爬虫”了。但真正高效的还是得用程序编写。个人使用的是Python+MongoDB,当然使用其它的组合也可以。优点:可以大规模的获取数据;效率高;可以构建个性化的数据库。缺点:需要学习编程;可能面临反爬虫的问题等。以我前几天做的举个例子,想要求出A股所有上市公司的资本回报率(Return of Invested Capital ,ROIC),无奈它不是一个会计科目,也不是常用的财务指标,没发现有网站提供这个信息(提供了其实也得用爬虫,寻找的时间成本也高),所以需要自己计算。而完整的财务报表也没有免费的API提供,只有一些网页提供了。所以最终我写了爬虫爬了约5000个网站,搜集了约100000条的财务数据把它算出来了。具体做法是:(1)写出爬虫,将信息爬取下来。具体对应的库:网页操作:urllib:https://pypi.python.org/pypi/urllib3requests:Requests: HTTP for Humans爬虫及爬虫框架:BeautifulSoup:Beautiful Soup Documentationlxml:The lxml.etree Tutorialscrapy:Scrapy入门教程pyspider:pyspider(2)将数据写入数据库中(调用方便快捷,可重复利用)。数据库:pymongo:PyMongo 3.2.2 Documentationsqlite3:11.13. sqlite3 — DB-API 2.0 interface for SQLite databasesMySQLdb:GitHub - farcepest/MySQLdb1: MySQL database connector for Python (legacy version)(3)从数据库调出并作计算。科学计算:numpy:NumPy — Numpypandas:Python Data Analysis Libraryscipy:SciPy.org — SciPy.org(4)数据可视化。画图:matplotlib:http://www.labri.fr/perso/nrougier/teaching/matplotlib/同时pandas也能够画图(有时二三步也可调换,先计算好后将计算结果写入数据库。)通过该种方法,就可以在各个网站上将需要的数据(可获取的或不可获取的)放进自己的数据库,下次需要调用的时候就可以轻易调用了。对于一次性的数据,甚至不用写入数据库,调用一遍并进行计算就可以得到想要的数据了。对于研究相关领域有很大用处。
作者:丁二七
链接:https://www.zhihu.com/question/33255013/answer/56112253
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
一、券商研究报告下载
(收费)
彭博 万得 WIND
汤森路透 Capital IQ
巨灵金融服务平台 同花顺
慧博投研资讯 慧博投研资讯-中国最大最专业的投资研究平台
(免费)渐飞 渐飞研究报告-全国最大的股票研究报告分享平台 研究报告,投资股票,证投资,行业研究,市场分析报告二、其他来源
人大经济论坛 人大经济论坛-国内最大的经济、管理、金融、统计在线教育和咨询网站
人大经济研究所 http://ier.ruc.edu.cn/
百度文库,百度云 豆丁网
新浪爱问 谷歌 (filetype:pdf)
维普,万方等平台 各大咨询公司
www.aol.com里面的搜索引擎功能有google提供,搜索结果与google一样,如果google无法登陆,可以用这个网站代替
全景网:财经资讯 全景网:权威财经资讯网站三、各大咨询公司报告下载页面
德勤中国 | 审计, 企业管理咨询, 财务咨询, 风险管理, 税务服务及行业洞察。
Deloitte | Audit, Consulting, Financial, Risk Management, Tax Services。
http://www.kpmg.com/CN/en/IssuesAndInsights/Pages/default.aspx。
McKinsey Greater China。
IBM - 全球企业咨询服务部。
http://www.bcg.com.cn/cn/newsand ... s_publications.html。
商业评论网—打造最有影响力的管理者社区。
http://www.ey.com/CN/ZH/home/library。
贝恩观点 贝恩公司。
https://china.mckinseyquarterly.com/home.aspx。
http://www.pwccn.com/home/eng/libraryindex.html。
http://www2.hewittassociates.com/Intl/AP/zh-CHT/Default.aspx。
http://www.booz.com/global/home/ ... ding-research-on-ma。四、上市公司公告
香港证监会上市公司公告
http://www.hkexnews.hk/listedco/ ... h_active_main_c.asp
美国证监会上市公司公告
http://www.sec.gov/edgar/searchedgar/companysearch.html
中国上市公司公告
http://www.cninfo.com.cn/information/companyinfo/html五、统计局网站信息汇总
国家统计局 http://www.stats.gov.cn/
【北京】北京市统计信息网 http://www.bjstats.gov.cn/
【天津】天津市统计信息网 http://www.stats-tj.gov.cn/
【河北】河北省统计局 http://www.hetj.gov.cn/
【河南】河南省统计局 http://www.ha.stats.gov.cn/
【黑龙江】黑龙江省统计信息网 http://www.hlj.stats.gov.cn/
【吉林】吉林省统计信息网 http://tjj.jl.gov.cn/
【辽宁】辽宁省统计信息网 http://www.ln.stats.gov.cn/
【山东】山东统计信息网 http://www.stats-sd.gov.cn/
【江苏】江苏省统计局http://www.jssb.gov.cn
【江西】江西省统计局 http://www.jxstj.gov.cn/Index.shtml
【安徽】安徽统计信息网 http://www.ahtjj.gov.cn/
【山西】山西统计信息网 http://www.stats-sx.gov.cn/
【陕西】陕西统计信息网 http://www.sn.stats.gov.cn/
【湖北】湖北省统计局 http://www.stats-hb.gov.cn/
【湖南】湖南统计信息网 http://www.rcinfo.gov.cn/tjwh/tjwh/tjwh.files/hntj.gov.htm
【贵州】贵州省统计局 http://www.gz.stats.gov.cn/
【四川】四川统计局 http://www.sc.stats.gov.cn/sctj/
【云南】云南省统计局 http://www.stats.yn.gov.cn
【甘肃】甘肃统计信息网 http://www.gstj.gov.cn/
【青海】青海统计信息网 http://www.qhtjj.gov.cn/
【宁夏】宁夏统计信息网 http://www.nxtj.gov.cn/
【福建】福建省统计局 http://www.stats-fj.gov.cn/
【广东】广东统计信息网 http://www.gdstats.gov.cn
【广西】广西统计信息网 http://www.gxtj.gov.cn/
【浙江】浙江统计局 http://www.zj.stats.gov.cn/
【新疆】新疆统计信息网 http://www.xjtj.gov.cn/
【海南】海南统计局 http://www.hi.stats.gov.cn/
【上海】上海统计局 http://www.stats-sh.gov.cn/
【内蒙古】内蒙古统计局 http://www.nmgtj.gov.cn/
【重庆】重庆统计信息网 http://www.cqtj.gov.cn/六、投行网站
http://macabacus.com/ http://www.wallstreetoasis.com/ http://www.ibankingfaq.com/
IPO http://stocks.etnet.com.cn/www/sc/stocks/ci_ipo.php
IPO http://www.aastocks.com/sc/ipo/sponsor.aspx
juling http://terminal.chinaef.com/index.action
MA http://www.mergermarket.com/info/七、其他资源网站
统计学软件网站 http://www.ats.ucla.edu/stat/
下载软件 http://app.hustonline.net/index
注册国家图书馆 http://www.nlc.gov.cn/MIT data base
http://libraries.mit.edu/multi/research-guides.html http://data.un.org/ http://libguides.mit.edu/market http://libguides.mit.edu/corpreports八、数据库整理
1、国研网数据库
http://edu.drcnet.com.cn/DRCNet.Edu.Web/
特点:统计数据库包含宏观数据、金融、教育、行业数据等,但是宏观数据年度跨度不大。适合对个别指标进行跨省、跨时间的统一检索。另外有全文数据库等,包含一些专家学者的文章,可以作为参考。
2、中经网
http://162.105.138.185:90/scorpi ... 1014&height=708
特点:以宏观数据为主,包含国家一级、31个省以及200多个市的数据,与国研网的统计数据库类似,统计项目没有国研网多,但是有些指标年份跨度更大。适合统一检索。
3、资讯行
http://www.bjinfobank.com/IrisBin/Select.dll?Special?db=TJ
特点:非常全的数据库,几乎囊括了所有最新的年鉴。适合寻找数据的来源。缺点在于:没有1995年之前的年鉴,数据不是表格形式,需要自己修改。(可行的方法包括:粘贴到word中,把空白(^w)替换为制表符(^t),或者直接粘贴到excel2007,进行数据分列)。
4、统计局数据库
http://219.235.129.58/indicatorYearQuery.do
特点:最近几年刚出的,还在完善中。可以对统计局出版的年鉴数据进行统一检索。(和1、2很相似)有时候能找到1、2所没有的数据。
5、年鉴
http://www.stats.gov.cn/tjsj/ndsj/
包括历年统计年鉴以及普查数据、专题数据等,适合浏览年鉴。实际上,目前很多最新年鉴,包括《新中国六十年统计资料汇编》、《2010年统计摘要》等都可以在网上下载到excel版本。
6、知网
http://epub.edu.cnki.net/grid2008/index.htm
6.1文献
http://epub.edu.cnki.net/grid2008/index/ZKCALD.htm
非常全的学术文献数据库,包括了期刊、学位论文、学术会议论文等。这个加上维普的话,基本上可以把中国比较好的期刊论文都包括了。
6.2年鉴
中国统计年鉴数据库(挖掘版)
http://tongji.cnki.net/Kns55/Nav ... OEFIV2ZBPT0=&p=
提供对统计年鉴的统一检索,但是效果不理想,比较凌乱。列出了500部左右的年鉴,比较全,但是不一定有最新的。可以先在资讯行搜索数据指标所属的年鉴,再在这里找到年鉴。
7、维普
http://162.105.138.192/index.asp
有些知网上找不到的文章可以在这里找到,文章很全。
8、英文数据库
http://www.lib.pku.edu.cn/portal ... ew_sub_nvgt_db.psml
有BVD统计数据库,包括各国的宏观数据、金融数据、企业数据,有JSTOR,含有重要英文文献,有Elsevier Science--学术期刊数据库(science direct),非常全的英文期刊文献。
另外还有:
http://springer.lib.tsinghua.edu.cn/ http://onlinelibrary.wiley.com/
9、人大经济论坛
http://www.pinggu.org/bbs/
会有一些经济学书籍、年鉴、软件的下载。
10、图书馆主页搜索相关的年鉴,也可以提供年鉴下载,但是好像不提供最新一期的。其实,google和百度也是常用的数据来源。图书馆的数据库都是可以凭借校内的IP直接登录的,如果在校外的话可以使用代理服务器或者VPN。在校外要登录学校的数据库,可以采用如下办法:1,代理,https://its.pku.edu.cn/cysz/proxysz.jsp。2,vpn,https://its.pku.edu.cn/wlfw/vpn-o2-web.jsp。但是两个都不稳定。九、如何寻找国外的数据
1、搜集美国相关的数据
由位于华盛顿的美国政府印刷办公室出版、经济顾问委员会撰写的《总统经济报告》(Economic Report of President),提供了有关美国当前经济形势的描述和主要宏观经济变量数据。相当多的数据都可以追溯到1959年,甚至个别的可追溯到1929年。可能你已经留意到了,好多有关美国的图形,都是采用《总统经济报告》(2005)所附数据生成的。这些数据可以免费下载,网址是www.access.gpo.gov/eop/。
如果需要一应俱全安的数据,一个宝贵的权威来源是,美国商务部统计局出版的《美国统计概要》(Statistical Abstract of the United States),相当一部分数据可以免费下载,网址是www.census.gov/statab/www/。
如果想获得最近数据的详细资料,一个不错的选择是,美国商务经济分析局每月出版的《当代商业纵览》(Survey of Current Business)。网址是,www.bea.doc.gov。
2、如何搜集国外其他经济体的数据
对富裕国家来说,最有用的资料来源于经济合作与发展组织(Organization of Economic Cooperation and Development,简称OECD)。经济合作与发展组织的成员包括:奥地利、澳大利亚、比利时、加拿大、捷克共和国、丹麦、芬兰、法国、德国、希腊、匈牙利、冰岛、意大利、日本、卢森堡、墨西哥、荷兰、新西兰、挪威、波兰、葡萄牙、韩国、西班牙、瑞典、瑞士、土耳其、英国和美国。看来,世界上的富裕国家大都属于该组织,其产出占世界产出的70%左右。OECD的网址是www.oecd.org,提供三种极为有用的数据。
《OECD经济展望》(OECD Economic Outlook),每年出版两次,提供许多跨国宏观经济数据。这些数据一般都上溯到20世纪70年代,而且具有很好的一致性。
《OECD就业展望》(OECD Employment Outlook),每年出版一次,专门提供劳动力市场的数据。 《OECD历史统计》(OECD Historical Statistics),不定期出版,将当期数据和过去数据放在一起。
对于不是OECD成员的国家和地区,可以从其它国际组织那里获得相关数据,比如国际货币基金组织(International Monetary Fund,简称IMF),其网址是www.imf.org。IMF提供《国际金融统计年鉴》(International Financial Statistics Yearbook),它主要提供成员国的金融数据,但也包括一些总体数据,比如GDP、失业和通货膨胀等。
至于若干国家长期的统计数据,两个不可多得的数据来源是,Heston-Summers数据库和Madison数据库。Heston-Summers数据库提供168经济体在1950-2000年间的跨国可比数据,在宾夕法尼亚大学国际比较中心(Center for International Comparisons at the University of Pennsylvania)网站上可以下载,http://pwt.econ.upenn.edu/。Madison数据库提供了自1820年以来56个经济体的数据。
最后,如果还没有找到你要的数据,不妨登陆下面的两个网站,也许是根稻草。哈佛商学院的宏观经济学资源网站www.hbs.edu./units/bgie/internet/,提供了大量连接。由密西西比大学Bill Goffe维护的一个网站http://rfe.wustl.edu,不仅列出了数据来源,而且还列出了有关经济的其他信息来源。十、综合性数据
SEC EDGAR数据库
美国国会两院记录、商务部经济数据、伯克莱圆桌会议、斯坦福法律经济词典
http://town.hall.org/radio/JEC
Web统计资源指南(密执安大学)
Statistical Resources on the Web (University of Michigan)由密执安大学文献中心建立。这是一个内容广泛、编排细致的资源指南。包括以下类目:工商业、生活消费、图表、经济学、财政金融、国际经济、国际贸易、劳动与就业等。 http://www.lib.umich.edu/libhome/Do...nter/stats.html
报价公司
提供有价证券的数据、信息。如有价证券一览表、快报
http://finance.lycos.com/qc/default.aspx
产品价格指数(PPI)详细报告
每月一次的产品价格指数报告和数据。包括最终产品和中间产品到原材料等)。
http://stats.bls.gov/ppihome.htm
房产起价和建筑许可Housing Starts and Building Permits (US Census Bureau)
在这里可以看到美国人口普查局最近发布的经济指标。包括私有房产起价和当月、当年的建筑许可摘要。
http://www.census.gov/pub/indicator/www/housing.html
高校财经数据库
收录 12个在线数据库,超过三百万篇商业报告和文章。
http://www.bjinfobank.com/
国际股票市场数据库
包括国际股票市场的价格图表、交易量、共同基金图、上市公司简介等
http://www.stockmaster.com/
国民收入和产品帐户National Income and Product Accounts (University of Virginia)
这是佛吉尼亚大学社会科学数据中心的杰作。可检索自1959年以来的数据。主要包括:政府收入和支出;收入、就业、工业产品;国民生产和收入;个人收入和消费;数量和价格指数;存款和投资等。
http://www.lib.virginia.edu/socsci/nipa/
华通数据中心
宏观经济信息、行业(产业)发展报告、企业(公司)信息、产品市场分析
http://data.acmr.com.cn/
环境安全数据库
多伦多大学和平与冲突研究项目组维护,涉及发展中国家环境压力与暴力冲突
http://www.library.utoronto.ca/pcs/database/libintro.htm
经济数据(国际)EconData (International)
马里兰大学提供的国际性EconData时间序列数据库。新用户要先看数据库说明。文件是PK压缩格式。
http://www.inform.umd.edu/EdRes/Top.../International/
经济数据(美国马里兰大学)EconData (University of Maryland)
可以下载大量的时间序列数据和查看数据的工具。也可以下载一些指令和工作论文。数据覆盖了全球及美国经济。数据文件用PKZip格式压缩。
http://www.inform.umd.edu:8080/EdRe...a/Econdata.html
经济数据和链接(美国加州大学Fresno分校)Econ Data & Links (CAL State Fresno)
由美国加州大学Fresno分校建立。该站点提供了大量表格和统计数据,以及很多相关站点的链接,内容从收入、财富到贫困问题都有。
http://www.csufresno.edu/Economics/econ_EDL.htm
经济学数据Economics Data
是WebEc的一部分。以良好的编排方式将数据和经济学站点排列出来。可参见经济学与计算网页,上面提供了很多软件链接。
http://www.helsinki.fi/WebEc/webecc8d.html
经济学网络
这是一个内容非常丰富的资源中心,有大量美国和世界经济与金融市场的在线图表、经济指南、每周经济分析与简评,以及指向其它资源的链接。所有文件都是PDF格式。由德国驻纽约Morgan Grenfell的首席经济学家Ed Yardeni博士提供。
http://www.yardeni.com/
联储经济数据Federal Reserve Economic Data (FRED)
是美国联邦储备银行圣路易斯分行提供的一种很出色的服务。再该站点上,除了有经济研究方面的研究论文和工作论文以外,还提供了有价值的关于美国经济各方面的当前和历史数据。
http://www.stls.frb.org/fred/
联合国数据信息(耶鲁大学)Numeric Data for UN Information (Yale University)
上面有各种数值型数据的链接。由耶鲁大学图书馆维护。
http://www.library.yale.edu/un/un2d.htm
联合国统计年鉴Statistics Yearbook (UN)
主要包括统计数据和指标(如月度统计公报)、统计方法、统计源与参考工具等内容。注册后可以在一段时间以内免费使用统计数据和指标,其它资源不需注册。
http://www.un.org/Depts/unsd/mbsreg.htm
贸易和环境数据库
搜集了几百个贸易与环境的案例,按28种不同标准分类
http://www.american.edu/projects/mandala/TED/ted.htm
美国的贫困问题Poverty in the United States
该站点上提供了美国人口普查局前几年的人口系列报告。可以估算在贫困线以下的美国居民、家庭和个人的情况。文件是PDF格式。
http://www.census.gov/hhes/www/poverty.html
美国家庭的货币收入Money Income in the United States
这是美国人口普查局的系列人口报告的调查数据。对美国的家庭和个人 经济状况的估计;包括年龄、种族、性别、地区、教育程度、收入情况、工作状况等变量。文件为PDF格式。
http://www.census.gov/ftp/pub/hhes/www/incom.html
美国经济指标与数据Economic Indicators and Data (via Census Bureau)
美国人口普查局的最新经济指标。包括: 耐用消费品厂商的运输和定货;房屋起价;商品与服务的国际贸易;制造业和商业创新及销售;制造业的出货、技改和订货;月度批发贸易;月度零售贸易及月度时间序列数据。该站点上还有一个观察当前美国经济状况的小册子,每月出版。常设指标有:GNP、进出口、就业及收入、价格等。有图表,可检索。
http://www.census.gov/ftp/pub/indic...ww/indicat.html
美国历史上的人口普查数据
提供了描述1790-1860年间美国经济的数据。由哈佛大学维护
http://fisher.lib.virginia.edu/collections/stats/histcensus/
美国历史上的人口普查数据浏览United States Historical Census Data Browser
该站点提供了描述1790-1860年间美国经济的数据。由哈佛大学维护。
http://icg.harvard.edu/census/
美国明尼阿波利斯联邦储备银行经济研究和数据(联机)Federal Reserve Banks (Online)
美国明尼阿波利斯联邦储备银行经济研究和数据,大量经济数据可供查找。
http://woodrow.mpls.frb.fed.us/
美国统计(美国商业部)STAT USA ( Department of Commerce)
是美国商业部的一个站点。提供美国联邦政府发布的商业、经济、贸易活动的权威信息。站点上包括有尝联机服务的数据库,也有一些免费的数据库,如经济分析局(Bureau of Economic Analysis Economic Information)、美国国家贸易数据银行(the National Trade Data Bank)等提供的其它数据。
http://www.stat-usa.gov/
能源技术数据交换(ETDE)与能源数据库
收集与交换能源研究与技术的信息,能源文献收藏量为世界第一
http://www.etde.org/
日本统计Statistics in Japan
该站点提供了大量的关于日本的数据和指向其它统计站点的链接。由日本信息网络提供。
http://www.jinjapan.org/stat/
世界统计表格
世界统计表格是IMF的年度报告,由世界银行出版,提供了世界各国经济、社会数据指标集。
http://www.worldbank.org/html/extpb...NG/wdt-home.htm http://www.ciesin.org/IC/wbank/wtables.html
个人所得税Statistics of Income: Individual Income Tax Returns
美国国家税收局(Internal Revenue Service)关于个人税收的年度报告。有税收数量和总量,以及各种收入来源。
http://www.irs.ustreas.gov/tax_stats/ind.html
数据中华
商业数据网站,产业研究、竞争情报分析、市场调查、资信调查等
http://www.allchinadata.com/
统计资源指南Statistical Resources Guide
由Mansfield大学图书馆建立。超文本链接指向统计站点,或介绍印刷型资料。以美国为主,兼有国际性内容,内容涉及经济、社会等各方面。是一个非常有用的资源指南。
http://www.clark.net/pub/lschank/web/govstats.html
网上数据(加州大学圣迭戈分校)Data on the Net (UC San Diego )
收集了关于美国经济和其它数据的站点,有注释,可检索。
http://odwin.ucsd.edu/idata/
政府数据(NetEYE Inc)Government Data (NetEYE, Inc)
由商业服务机构streetEYE建立。全面收集了全球的数据资源。包括美国、加拿大、拉丁美洲、欧洲、远东地区以及国际组织等。
http://www.streeteye.com/index/gov.html
中国产业经济信息网
产业经济的相关数据,部分内容可试用
http://www.cinic.org.cn/
中国导航网
中国导航网,专业的行业研究机构,权威的数据资源,覆盖全国的调研机构,真诚的服务。
http://www.chinaguiding.cn
中国经济信息网数据库
中国经济统计、行业、地区经济、企业等数据库
http://www.cei.gov.cn/default.aspx?tab=157
中国自然数据库
中国资源、环境、人口、社会经济等相关数据的集合。
http://www.naturalresources.csdb.cn/index.asp十一、利用搜索引擎
1、http://scholar.google.com/
虽然还是Beta版,但个人已觉得现在已经是很好很强大了,Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数。略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章。
2、http://www.scirus.com
Scirus 是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科 范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法 学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。
3、http://www.base-search.net/
BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160 个开放资源(超过200 万个文档)的数据。
4、http://www.vascoda.de/
Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。
5、http://www.goole.com/
与google比较了一下发现,能搜索到一些google搜索不到的好东东 。它界面简洁,功能强大,速度快,YAHOO、网易都采用了它的搜索技术。各位可以一试。
6、http://www.a9.com
Google在同一水平的搜索引擎。是http://Amazon.com推出的,Web result部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。现在还是Beta,不过试用后感觉很好,向大家推荐一试 ,不过缺憾是现在书本内搜索没有中文内容。7、http://www.ixquick.com
严格意义上讲不是搜索引擎,是连接搜索引擎和网络用户的信息立交桥。新一代的搜索引擎应运而生,Ixquick meta-search正是目前最具光芒的新星。但是对于大多数国内用户来说,Ixquick还很陌生。Ixquick众多独特的功能我不一一介绍了,只 介绍我们最关心的,搜索数据库密码。
使用方法:先进入Ixquick,以“Proquest”数据库为例。填入Proquest Username Password History Online后点击search,看看出来的结果,第一页中第6个,proquest的username和password赫然在目,别急,再看第4个结 果“HB Thompson Subscription Online Databases”,即http://homework.syosset.k12.ny.us/onlinedbs/HBTDatabases/,进入 后发现这是一个密码页,选择Magazines & Journals栏,就有 EBSCO、Electric Library Elementary、Electric Library Elementary、ProQuest Platinum (in school)、ProQuest Platinum (remote)等众多数据库的密码,都有uesrname和password,随便试一下EBSCO,OK,成功登陆。
8、http://vivisimo.com/
cmu的作品,对搜索的内容进行分类,这样可以有效地做出选择,比较有特色。可实现分类检索,检索速度也很好,如EBSCO 密码几分钟就可找一大堆 .
http://search.epnet.com/,User ID: mountain,Password: ridge,这个密码可以试试。
9、http://www.findarticles.com/
一个检索免费paper的好工具。 进入网页以后,可以看到他有三个功能,driectory web article ,其中article对我们很有帮助,你可以尝试输入你要找的文章,会有很多发现的!
10、http://www.sciseek.com/Sample
感觉不是很好用,内容也不是太多,主要靠用户添加网址,提供信息的搜索引擎,搜索功能也比较差,输入常见的关键词,往往找不到相匹配的内容。
11、http://www.chmoogle.com
现点击后或跳转到http://www.emolecules.com,在此搜索引擎里可以搜索到超过千万种化学品信息或相应的供应商,与Chemblink有点相似,但提供的化学品理化信息没有Chemblink详细,与其不同的是该搜索引擎可提供化学品结构式搜索(主页上有在线绘制化学结构式的搜索框)。
12、http://www.ojose.com/
OJOSE (Online JournalSearch Engine,在线期刊搜索引擎)是一个强大的免费科学搜索引擎,通过OJOSE,你能查找、下载或购买到近60个数据库的资源。但是感觉操作比较复杂。
13、http://citeseer.ist.psu.edu/
一个关于计算机和信息科学的搜索引擎。
14、http://hpsearch.uni-trier.de/
专家个人主页搜索引擎
15、http://cnplinker.cnpeak.com/
为 了给读者用户提供一个方便快捷的查阅国外各类期刊文献的综合网络平台,中图公司组织开发了cnpLINKer(cnpiec LINK service)在线数据库检索系统,并正式开通运行。cnpLINKer即“中图链接服务”,目前主要提供约3600种国外期刊的目次和文摘的查询检 索、电子全文链接及期刊国内馆藏查询功能.并时时与国外出版社保持数据内容的一致性和最新性。点评:只提供了外文检索的功能,但是无法得到全文。个人认为不是很理想。
16、http://guoxue.baidu.com/
百度国学目前能提供上起先秦、下至清末历代文化典籍的检索和阅读。内容涉及经、史、子、集各部。
17、http://infomine.ucr.edu/
NFOMIN是由加州大学、维克森林大学、加州国立大学、底特律大学等大学图书管理员建立的学术搜索引擎。它主要为大学职员、学生和研究人员提供在线学术资源。十二、互联网和传媒
1、资讯类
新浪科技 http://tech.sina.com.cn/
腾讯科技 http://tech.qq.com/
艾瑞网 http://www.iresearch.cn/
艺恩网 http://www.entgroup.cn/
虎嗅网 http://wwww.huxiu.com/
36kr http://36kr.com/
钛媒体 http://www.tmtpost.com/
游戏大观 http://www.gamelook.com.cn/
亿欧网 http://www.iyiou.com/
媒介360 http://www.chinamedia360.com/main
2、数据类
中国票房 http://www.cbooo.cn/
中国互联网络信息中心 http://www.cnnic.net.cn/
艾瑞网 http://www.iresearch.com.cn/report/viewlist.aspx
易观智库 http://www.analysys.cn/
游戏产业网 http://www.cgigc.com.cn/list/79644663134.html
百度指数 http://index.baidu.com/
大数据导航 http://hao.199it.com/
CSM(电视收视率) http://www.csm.com.cn/
微排片 http://www.weipaipian.com十三、医药行业
1、样本医院数据
(1)化药、生物药和中药注射剂 http://pdb.pharmadl.com/
(2)中成药、化药 http://www.menet.com.cn/
(3)国外样本医院数据彭博上有类似PDB的数据库
2、药品中标价格
百度虫,药智网,健康网 (付费),米内网(付费)
3、药品招标政策
各省药品招标平台
4、医疗器械数据
基本没有,米内网有付费数据库(没见过)、海关信息网
5、中药材数据
中药材天地网、万得的EDB、中药材东方网
6、药品审批
药智网、药监局、CDE网站
7、医药行业政策
国家药监局、发改委、中国政府网、卫计委等等
8、国内外行业协会和咨询机构
例IMS Health、XX医药协会
9、新闻网站/微信
赛柏蓝、米内网、生物谷、新康界、医谷、药友汇、丁香园、动脉网、贝壳社十四、策略常用网站
1、国内网站
统计局 www.stats.gov.cn/
中国人民银行 www.pbc.gov.cn/
财政部 www.mof.gov.cn/
海关总署 http://www.customs.gov.cn/tabid/400/Default.aspx
中央结算公司 www.chinabond.com.cn/
发改委 www.sdpc.gov.cn/
审计署 www.audit.gov.cn/
2、国外网站
the world bank: http://www.worldbank.org/
united states census:http://www.icpsr.umich.edu/
BEA: http://www.bea.gov/
CBO: http: //http://www.cbo.gov/
world federation of exchanges: http://www.world-exchanges.org/
最常用wind股票数据库十五、银行业
1、新闻资讯
中证网 http://www.cs.com.cn/xwzx/hg/
一财网 http://www.yicai.com/economy/
财新网 http://finance.caixin.com/bank/
华尔街见闻 http://wallstreetcn.com/news?cid=19
新浪财经 http://finance.sina.com.cn/
证券时报网 http://www.stcn.com/
中国金融新闻网 http://www.financialnews.com.cn/yh/xw/
2、公告、数据查找
中国货币网 http://www.chinamoney.com.cn/index.html
巨潮网 http://www.cninfo.com.cn/
统计局 www.stats.gov.cn/
中国人民银行 www.pbc.gov.cn/
银监会 http://www.cbrc.gov.cn/index.html
上海证券交易所 www.sse.com.cn/
深圳证券交易所 www.szse.cn/
最常用wind股票数据库十六、有色金属行业
1、日报网站
(1)宏观新闻:央行快讯 http://t.news.fx168.com/bank/
(2)行业新闻:中国金属网 http://www.metalchina.com,上海有色网 http://www.smm.cn/index_2015.html,百川咨询 http://www.baiinfo.com
(3)公司公告:巨潮 http://www.cninfo.com.cn
2、其他常用站
高工锂电 http://www.gg-lb.com/default_index_new.php
真锂研究 http://www.realli.net
深交所互动易(查看投资者互动资料) http://irm.cninfo.com.cn/szse/
中金网(有色金属) http://www.metalsinfo.com/news/
银 https://www.silverinstitute.org/site/publications/