Zhe Yang

JGibbLDA入门

手册地址:http://jgibblda.sourceforge.net/

.others为“信息文件”。文件保存的是跟该LDA模型有关的参数,比如alpha,beta,ntopiccs,ndocs,nwords,liter(the Gibbssampling iteration at which the model was saved)
.phi文件为“词项-主题概率分布文件”。表现上是一个大矩阵M。其中,假设设类簇的数目topict为1000个,每一个主题需要列出top 100个词项wordw,则M以100为行,1000为列。即M每一行是词项,每一列是主题。M元素值则为条件概率p(wordw|topict),即每个词属于每个主题的概率。
.theta文件为“文档-主题概率分布文件”。表现上也是一个大矩阵M。每行i代表训练数据的一个文档,每一列代表一个主题,元素值则为条件概率 p(topict|documentm),即该文档属于不同主题的概率。
.tassign文件为“文档-词项-主题分布文件”。该文件与输入文件的格式一致,一行一个文档,只不过原来的输入文件中的词项换成了一个一个“词项ID:类别”。文件每一行代表训练数据的一条文档,原文档由一组词项组成,现每一行为原来的记录词项指派了其最大可能的所属主题。注意,该文档所属主题分布是在theta文件中,并未在tassign文件中指明。
.twords文件为“词项-主题推断文件”。这个文件作为模型参数结果推断出了每一个主题下最优的topN个词项及其概率。请注意这里的主题数和N都是事先指定的。

常用命令:
-est -alpha 0.5 -beta 0.1 -ntopics 100 -niters 1000 -savestep 100 -twords 20 -dfile models/casestudy/newdocs.dat
这条命令训练初次模型
-estc -dir models/casestudy/ -model model-01000 -niters 800 -savestep 100 -twords 30
这条在原有model上继续迭代
-inf -dir models/casestudy/ -model model-01800 -niters 30 -twords 20 -dfile newdocs.dat
这条命令对新的document进行测试

参数含义:
-est 从训练语料中评估出LDA模型
-alpha LDA模型中的alpha数值,默认为50/K(K是主题数目)
-beta LDA模型中的beta数值,默认是0.1
-ntopics 主题数目,默认值是100
-niters GIbbs采样的迭代数目,默认值为2000
-savestep 指定开始保存LDA模型的迭代次数
-dir 训练语料目录
-dfile 训练语料文件名称

码字很辛苦,转载请注明来自Zhe Yang's Blog|Web全端技术博客《JGibbLDA入门》

评论

  1. a #1

    您的博客拥有旺盛的生命力!!

    回复
    2016-07-23