関連語や連想語、類語的なキーワードの取得について、昨晩、いろいろとWebAPIを調べていました。
でも、どうも利用制限とか、求めている物とは方向性が違うとか、いろいろと問題があったので、簡単な手順で、それっぽいものを作れないかと、いくつか論文を読んでいました。
そして、一晩で適当に作ったのが「動的シソーラス」。
□ 動的シソーラス
http://crocro.com/dynamic_thesaurus/
仕組みはアホみたいに単純です。精度は、まあジョーク用途にしか使えません。
Yahoo!のWebサービスを利用しているのですが、その利用制限が1日5万回までなので仕方がないです。1回の計算に、平均して50回の検索を掛けています。なので、1日の利用回数は1000回までです。
ほんとうは1度に500回ぐらい検索をしたいのですが、それだと1日100回しか使えなくなってしまいますので仕方がないのです。
ちなみに、取得結果は、こんな感じになります。上位10件まで書いておきます。横の数字はスコアです。関係ない単語も、かなりの率で紛れ込んでいます。
□ バイク
http://crocro.com/dynamic_thesaurus/?kw=%e3%83%90%e3%82%a4%e3%82%af原付 3120
カブ 870
ハーレー 462
パソコン 275
ステップワゴン 272
キャンピングカー 240
オデッセイ 210
ズーマー 210
アルミホイール 210
ホイール 182
□ 早食い
http://crocro.com/dynamic_thesaurus/?kw=%e6%97%a9%e9%a3%9f%e3%81%84小林尊 42
ドラマ 42
世界一 42
カロリー 42
イラスト 30
ペットショップ 20
ブログ 20
ネイサンズ 12
コストコ 12
ハーレー 12
アルゴリズムについては、リンク先に解説を書いています。
こんな感じで、昨晩は緩いプログラムを書いていました。