NLP—Word2vec词向量表达

yuan lang

2024-03-21

算法-NLP

NLP

原理：
word2vec原理(一) CBOW与Skip-Gram模型基础
 word2vec原理(二) 基于Hierarchical Softmax的模型
 word2vec原理(三) 基于Negative Sampling的模型

实验：
转载：https://www.zybuluo.com/hanxiaoyang/note/472184

个人理解：自然语言向量表达，用于比较词的相识度，位置词预测
过程： one hot 编码-》构建共现矩阵-》（巧妙采用Huffman编码树【离根节点近的节点出现概率越大】来做神经网络输出函数）-》调整theta 的值计算缺失的词（CBOW）或句子（Skip-Gram）
后期优化：负采样代替Huffman编码

问题：矩阵的svd分解意义