Ubuntu に word2vec を入れる

Facebook にシェア
Pocket
LINEで送る
このエントリーを Google ブックマーク に追加

自然言語処理を勉強中のため、word2vecを触っていく。

[amazonjs asin=”4339027510″ locale=”JP” title=”言語処理のための機械学習入門 (自然言語処理シリーズ)”]

subversion と build-essential をインストール

[shell] sudo apt-get install subversion build-essential
[/shell]

subversionでword2vecをダウンロード

[shell] cd
svn checkout https://word2vec.googlecode.com/svn/trunk
[/shell]

word2vecでdemoをしてみる

[shell] cd trunk
[/shell]

word2vecのdemoは、入力したワードの関連度の高い順に40個表示されるが見づらいため、20個表示するように変更する。

[shell] vi distance.c
[/shell] [c title=”21行目の変数Nの値を20に変更する”] const long long N = 20;
[/c]

変更を有効にする

[shell] make
[/shell]

サンプルデータのダウンロードと学習を実行
[shell] ./demo-word.sh
[/shell]

ダウンロードと学習が終わるまで、しばらく待つ。

Enter word or sentence (EXIT to break):
が表示されたら、英単語を入れると、関連度の高いワード順に表示される

[shell] Enter word or sentence (EXIT to break): cat
meow 0.602817
cats 0.568666
feline 0.561879
bobcat 0.533922
purebred 0.533411
caracal 0.522878
kitten 0.513501
dog 0.510227
rabbits 0.509389
tabby 0.502431
stuffed 0.487774
eared 0.474368
felis 0.473093
leopardus 0.466681
longhair 0.464093
ox 0.460524
squirrel 0.459999
marten 0.457460
bitten 0.454296
dogs 0.449612

[/shell]

meowが一番。鳴き声。

次回から、twitterやwikipediaのデータをcsvに落としてきて解析して見る予定。

Related posts

2 Thoughts to “Ubuntu に word2vec を入れる”

コメントを残す