newword_discovery 基于词频、互信息、左右熵的新词发现算法 运行 将语料库路径输入run.py中,运行即可。 原理 首先统计每个词的词频,并按照设定的词频阈值过滤一部分词。 计算每个词的互信息,并按阈值过滤一部分互信息较低的词。 计算每个词的左右熵,取左右熵的较小值最为最终的熵值,按照设定的熵阈值过滤一部分低熵的词。 结合互信息和左右熵字典,将二者的值相加,按照设定最终的阈值进行最终的过滤。 将最终得到的词典,按照词频排序,写入输出文件中。