Skip to content

基于词频、互信息、左右熵的新词发现算法

Notifications You must be signed in to change notification settings

HDRBgg/newword_discovery

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

newword_discovery

基于词频、互信息、左右熵的新词发现算法

运行

将语料库路径输入run.py中,运行即可。

原理

  1. 首先统计每个词的词频,并按照设定的词频阈值过滤一部分词。
  2. 计算每个词的互信息,并按阈值过滤一部分互信息较低的词。
  3. 计算每个词的左右熵,取左右熵的较小值最为最终的熵值,按照设定的熵阈值过滤一部分低熵的词。
  4. 结合互信息和左右熵字典,将二者的值相加,按照设定最终的阈值进行最终的过滤。
  5. 将最终得到的词典,按照词频排序,写入输出文件中。

About

基于词频、互信息、左右熵的新词发现算法

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%