设\(S\)是指定语料中所有字符串\(s_i\)(词频为\(f_i\))的集合。字符串\(s\)(词频为\(f\))由子字符串\( \{ {s_1} , {s_2} , …… , {s_N} \} \)按顺序拼接而成。定义相关系数:\( \gamma_s = \frac{f}{N}\sum\limits_{i = 1}^N {\frac{1}{{{f_i}}}}\quad (s,s_i \in S)\)
新词提取
★★
分词算法
★★★
词性检测
★★
孤独的美食家
专注于中文的自然语言处理
设\(S\)是指定语料中所有字符串\(s_i\)(词频为\(f_i\))的集合。字符串\(s\)(词频为\(f\))由子字符串\( \{ {s_1} , {s_2} , …… , {s_N} \} \)按顺序拼接而成。定义相关系数:\( \gamma_s = \frac{f}{N}\sum\limits_{i = 1}^N {\frac{1}{{{f_i}}}}\quad (s,s_i \in S)\)
新词提取
★★
分词算法
★★★
词性检测
★★
原始语料字数
词典词条数
核心词条数
核心字符数
数量词特征明显。特别是基于阿拉伯数字的数量词,特征十分明显,且易于区别。对于基于中文数字的数量词则麻烦一些,主要因为数量词也充当一些词汇的具体成分。
断句算法的主要目的就是将数据库中的段落语料,切分成相对合理的完整句子。该算法主是对语料进行自动分析的必要算法,有利于加速文章的进一步处理。
分词算法是将语料进一步切分成词汇的算法。英文词汇均以单词的形式体现,而中文词汇并没有固定的规定和形式。因此分词算法很大程度上与”人择原理“相关,而且总有不符合规定的例子出现。