Zhe Yang

Word2Vec实验流程

Word2Vec 用于计算词与词的相似度,用于近义词挖掘。

1、下载Word2Vec源码

https://github.com/yoyodns/word2vector

2.把其中makefile文件的.txt后缀去掉,在终端下执行make操作,这时能发现word2vec文件夹下多了好几个东西。接下来就是输入resultbig.txt进行分析了:

./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1

3 这里我们指定输出为vectors.bin文件,显然输出到文件便于以后重复利用,省得每次都要计算一遍,要知道处理这2.2G的词集合需要接近半个小时的时间

QQ20170809-145208

 

4下面再输入计算距离的命令即可计算与每个词最接近的词了:./distance vectors.bin

下图是一些例子

QQ20170809-145253

 

由于word2vec计算的是余弦值,距离范围为0-1之间,值越大代表这两个词关联度越高,所以越排在上面的词与输入的词越紧密。

至于聚类,只需要另一个命令即可:

./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

按类别排序

sort classes.txt -k 2 -n > classes.sorted.txt

 

码字很辛苦,转载请注明来自Zhe Yang – Shandong University《Word2Vec实验流程》

评论