指专门处理语言的机器学习模型。 统计语言模型 src: 《计算之魂》 统计语言模型 基于统计概率的语言模型。 P(S)=P(w1,w2,w3,…,wn) S 句子出现的概率,w1 … wn 各个单词出现的概率,语义为:连续出现一段单词的联合概率,等于单个句子出现的概率 马尔可夫假说 马尔可夫假说的二元模型:任意一个词出现的概率,仅仅与它前面的词有关: P(S)=P(w1)⋅P(w2∣w1)⋅P(w3∣w2)⋅…⋅P(wi∣wi−1)⋅…⋅P(wn∣wn−1) 引申出来的 N-1 阶马尔可夫假说即位“N 元模型”,语义为当前词的概率只取决于前面 N-1 个词: P(wi∣w1,w2,⋯,wi−1)=P(wi∣wi−N+1,wi−N+2,⋯,wi−1)