发布网友 发布时间:2022-04-19 12:06
共2个回答
热心网友 时间:2023-06-25 02:07
我觉得word2vec在工业上或者是网络上还是有很多应用的。
理解这种学术工具,重要的是搞懂它背后的道理和设计哲学。
很多人对word2vec不是了解,不知道word2vec是什么,其实word2vec是一个将单词转换成向量形式的工具,通过转换,可以把文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,这在实际应用中就有很大的价值。
word2vec在应用方面也是呈多样化的,其目的用一个向量去表示一个对象,然后基于向量相似度去计算对象的相似度,找到相关的对象。对象可以是任何目标。一个单词,一个句子,一个文章,一个图片,一个用户,一个商品。。发现相关关系,发现知识,比如同位词,别名。也可以做推荐运用,推荐文章、朋友、商品、店铺等等。
找相关词,注意是相关词而不是同义词。例如你输入”雷军”,计算出来的相关词就会有:手机,小米,乔布斯等等;根据上下文预测句子中缺失的单词, 根据不同语种里相同单词的词向量之间的特定关系做机器翻译;由词向量构建句子向量。
word2vec在多方面的应用上还是很多的。
热心网友 时间:2023-06-25 02:08
我觉得,它的应用主要还是数据分析这一块。
Word2vec本质上是一个矩阵分解模型。
它简单地指出,矩阵是每个单词和它的上下文的一组词的特征。要分解这个矩阵,只需要在隐含空间中取对应于向量的每个词。所以word2vec的合适之处是,对于一个序列的数据,序列的本地数据之间有很强的相关性。
典型的是文本的顺序,单词的接近性非常强,甚至一个词的上下文也可以预测中间的单词是什么。所学习的词向量代表了词汇的语义含义,可以用来分类、聚类,也可以用来计算单词的相似度。而Word2vec本身,对流行项的分类器或抽样方式的水平是一个很好的惩罚,所以不像一般的矩阵分解,最后计算语义方法是一个热门词,它是一个非常好的Word2vec特性。
对于论文的分类。
直接将文档中所有对应向量的线性相加,作为文本的特征训练分类器,效果也很好。这种方法也适用于word2vec训练过程。此外,如果将非线性分类器替换为RBF核SVM,分类精度也会更高,这也符合预期。其他的数据序列也可以做到这一点,记住一篇文章DeepWalk KDD,在一个社交网络节点生成随机漫步在一组序列上,然后通过word2vec训练每个节点对应的向量。
我觉得,可能做相关方面工作的人才会有更深的体验吧。所谓,干一行才能了解这一行的情况。