Focus on Chinese

自然语言处理
NATURE LANGUAGE PROCESSING

专注于中文的自然语言处理

算法文章

相关系数

设\(S\)是指定语料中所有字符串\(s_i\)(词频为\(f_i\))的集合。字符串\(s\)(词频为\(f\))由子字符串\( \{ {s_1} , {s_2} , …… , {s_N} \} \)按顺序拼接而成。定义相关系数:\( \gamma_s = \frac{f}{N}\sum\limits_{i = 1}^N {\frac{1}{{{f_i}}}}\quad (s,s_i \in S)\)

新词提取

★★

分词算法

★★★

词性检测

★★

数据统计

语料数据库统计

1,523,912,312

原始语料字数

17,708,150

词典词条数

111,516

核心词条数

17,520

核心字符数