NLP

词向量

用一个向量表示一个词

word2vec将每个词以固定维度的向量表现出来，如前面的“向量表现出来”，一共有三个词，每个词都有一个n维的向量。

从实现方式来看只是输入层和输出层上的变化（输入层是上下文或是中心词）

当然在预测的时候不会用全部上下文的数据，会有一个窗口（[x-r,x+r]），用这个窗口中的数据来搞

每个叶子节点有一个点权，构建一颗树使得每个叶子节点的点权乘上根节点到叶子节点的路径只和最小(在合并果子上就相当于，根节点到叶子节点的路劲就相当于一个果子被合并的次数)

在数据通信中，需要将传送的文字转化成二进制的字符串。比如说一串文字，出现了”A,B,C,D”的字符，分别出现了100,100,10,10。然而我们在进行二进制编码的时候如果用00,01,10,11来编码，那么00,和01的出现次数会很多，这样会浪费空间

$$
P(S)=(w_1,w_2,…,w_n)\
=P(w_1)P(w2|w1)P(w3|w1,w2)…P(wn|w1,w2,…)
$$

这样计算到后面，参数空间过大，条件概率非常难计算

为了解决参数空间过大的问题，根据马尔科夫链的定义：随意一个词的出现的概率只与前面出现的有限的一个或几个词有关

所以假设每个词只和前面那个词的出现概率有关，所以就有
$$
P(w_1,w_2,…,w_n)≈P(w_1)P(w_2|w_1)P(w_2|w_3)…P(w_{n-1}|w_n)
$$
然后$P(w_i)和P(w_x|w_y)$的概率直接用大数定律就可以了

各个词出现概率独立
$$
P(w_1,w_2…w_n)=P(w_1)P(w_2)…P(w_n)
$$

每个词的出现概率和前一个有关
$$
P(w_1,w_2,…,w_n)≈P(w_1)P(w_2|w_1)P(w_2|w_3)…P(w_{n-1}|w_n)
$$

每个词的出现概率和前两个有关
$$
P(w_1,w_2,…,w_n)≈P(w_1)P(w_2|w_1)P(w_1,w_2|w_3)…P(w_{n-2},w_{n-1}|w_n)
$$