当前位置:  软件>C/C++软件

单词转换成向量形式 word2vec

    来源:    发布时间:2015-02-02

    本文导语:  word2vec(word to vector)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效的连续词袋(b...

word2vec(word to vector)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现。

来自维基百科对余弦距离的定义:

通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个 向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为 0;两个向量指向完全相反的方向时,余弦相似度的值为-1。在比较过程中,向量的规模大小不予考虑,仅仅考虑到向量的指向方向。余弦相似度通常用于两个向 量的夹角小于90°之内,因此余弦相似度的值为0到1之间。

可通过 SVN 获取代码:

snv co http://word2vec.googlecode.com/svn/trunk/


    
 
 

您可能感兴趣的文章:

 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 统计单词个数
  • 懒人背单词 LazyWord
  • 黑客背单词 reciteword
  • vim删除命令"d3e"为什么删除单词的数目不一致?
  • 如何提取单词到每一行
  • 语言岛智能记单词
  • 在vim中,怎么选择非某个单词开头的行?
  • vim怎么替换以3f开头h结尾的单词?
  • 一个IO中的单词!!!
  • 请问在一些驱动中ty,tty分别是什么单词的所写?
  • 请问telnet是由哪几个英文单词组成的呀?
  • 请问在vi中怎么把包含某个单词的所有行都删除,谢谢了!
  • 布同 统计英文单词的个数的python代码
  • PHP统计字符串中单词出现次数的函数
  • 请师兄告诉一下transistions 在下面这句话中的意思!(找不到这个单词,心里总憋得慌!)
  • Python开发的单词频率统计工具wordsworth使用方法
  • JS:正则将首字单词转成大写
  • 请教几个有关JAVA的英语单词!
  • 单词 overhead 应该怎么翻译啊?
  • 问三个单词意思


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3