-
Notifications
You must be signed in to change notification settings - Fork 259
/
test.py
68 lines (51 loc) · 3.44 KB
/
test.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
# -*- coding: utf-8 -*-
from cocoNLP.extractor import extractor
ex = extractor()
text = '急寻特朗普,男孩,于2018年11月27号11时在陕西省安康市汉滨区走失。身份证号码410105196904010537丢失发型短发,...' \
'如有线索,请迅速与警方联系:18100065143,132-6156-2938,[email protected] 和yangyangfuture at gmail dot com13673630861'
text = '急寻特朗普,男孩,于2018年11月27号11时在鼓楼区走失。身份证号码410105196904010537丢失发型短发,...' \
'如有线索,请迅速与警方联系:18100065143,132-6156-2938,[email protected] 和yangyangfuture at gmail dot com13673630861'
# text = '4点15分钟后的番茄炒蛋'
# text = '我下午2点15分30秒的番茄炒蛋'
# text = '晚上8点15的番茄炒蛋'
# 抽取邮箱
emails = ex.extract_email(text)
print(emails)
# 抽取手机号
cellphones = ex.extract_cellphone(text,nation='CHN')
print(cellphones)
# 抽取身份证号
ids = ex.extract_ids(text)
print(ids)
# 抽取手机归属地、运营商
cell_locs = [ex.extract_cellphone_location(cell,'CHN') for cell in cellphones]
print(cell_locs)
# 抽取地址信息
locations = ex.extract_locations(text)
print(locations)
# 抽取时间点
times = ex.extract_time(text)
print(times)
# 抽取人名
name = ex.extract_name(text)
print(name)
from cocoNLP.config.phrase import rake
r = rake.Rake()
# Extraction given the list of strings where each string is a sentence.
r.extract_keywords_from_text('2015年5月11日,“奶茶妹妹”章泽天分别起诉北京搜狐互联网信息服务有限公司、'
'华某(25岁)名誉权纠纷及成某(38岁)名誉权纠纷二案,要求被诉人公开赔礼道歉、恢复名誉、'
'删除相关视频、断开转载该视频的链接,赔偿经济损失、精神损害抚慰金共计170万元。北京市海淀'
'法院已经受理了这两起案件。原告章泽天诉称,她被许多网友称为“奶茶妹妹”,在网络上获得相当的'
'关注度。2014年4月18日,北京搜狐互联网信息服务有限公司的“搜狐视频娱乐播报调查”节目制作并'
'发布了名为“奶茶妹妹恋情或为炒作,百万炒作团队浮出水面”的视频,该段视频捏造包括“奶茶妹妹走红'
',实为幕后商业策划”、“100万,奶茶妹妹花巨资,请人策划走红”、“奶茶妹妹在清华大学挂科、作弊、'
'想方设法地转学院”等等。华某在上述节目中捏造了大量的对原告的虚假言论,包括声称其就是原告聘请的'
'“幕后推手和炒作专家”,原告曾花100万聘请其为之宣传策划,原告与刘强东的恋情系两者合作的结果等等。',2,4)
# r.extract_keywords_from_sentences(['如果您认识的人你要通知他一下就行了好吧对吧因为我们这边都,如果您认识的人你要通知他一下就行了好吧对波因为我们这边都'],2,4)
# To get keyword phrases ranked highest to lowest.
ranked_words = r.get_ranked_phrases()
# To get keyword phrases ranked highest to lowest with scores.
ranked_words_score = r.get_ranked_phrases_with_scores()
print(ranked_words_score)
for ele in ranked_words_score:
print(ele)