Zhe Yang

Word2Vec实验流程

Word2Vec 用于计算词与词的相似度,用于近义词挖掘。 1、下载Word2Vec源码 https://github.com/yoyodns/word2vector 2.把其中makefile文件的.txt后缀去掉,在终端下执行make操作,这时能发现word2vec文件夹下多了好几个东西。接下来就是输入resultbig.txt进行分析了: ./word2vec -train resultbi […]

JGibbLDA入门

LDA用于文档的主题挖掘。 手册地址:http://jgibblda.sourceforge.net/ .others为“信息文件”。文件保存的是跟该LDA模型有关的参数,比如alpha,beta,ntopiccs,ndocs,nwords,liter(the Gibbssampling iteration at which the model was saved) .phi文件为“词项-主题概率 […]