Skip to content

torao/samplecode.mallet-lda

Repository files navigation

Sample Code for Mallet LDA (ParallelTopicModel)

Mallet の gibbs-sampling LDA を使用してドキュメントのトピック分類を行うサンプルコード。

  1. 学習用とトピック推定用に使用するデータは1行に1ドキュメントが保存されているテキストファイル。
  2. 日本語の形態素解析には Kuromoji + NEologd を使用している。
$ sbt "runMain train.txt --predict predict.txt"

Maven に登録されているライブラリを使用しているが、Mallet のサイトからコマンドライン版がダウンロードできる。 コマンドラインで使用するには Getting Started with Topic Modeling and MALLET のチュートリアルを参照。

About

Mallet Training, Prediction Sample

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages