Algorithm.Main(args[]) – 孤独的美食家

Focus on Chinese

自然语言处理
NATURE LANGUAGE PROCESSING

专注于中文的自然语言处理

算法文章

相关系数

设\(S\)是指定语料中所有字符串\(s_i\)（词频为\(f_i\)）的集合。字符串\(s\)（词频为\(f\)）由子字符串\( \{ {s_1} , {s_2} , …… , {s_N} \} \)按顺序拼接而成。定义相关系数：\( \gamma_s = \frac{f}{N}\sum\limits_{i = 1}^N {\frac{1}{{{f_i}}}}\quad (s,s_i \in S)\)

新词提取

★★

分词算法

★★★

词性检测

★★

数据统计

语料数据库统计

1,523,912,312

原始语料字数

17,708,150

词典词条数

111,516

核心词条数

17,520

核心字符数

专题栏目

专题文章

数量词提取

数量词特征明显。特别是基于阿拉伯数字的数量词，特征十分明显，且易于区别。对于基于中文数字的数量词则麻烦一些，主要因为数量词也充当一些词汇的具体成分。

断句算法

断句算法的主要目的就是将数据库中的段落语料，切分成相对合理的完整句子。该算法主是对语料进行自动分析的必要算法，有利于加速文章的进一步处理。

分词算法

分词算法是将语料进一步切分成词汇的算法。英文词汇均以单词的形式体现，而中文词汇并没有固定的规定和形式。因此分词算法很大程度上与”人择原理“相关，而且总有不符合规定的例子出现。