連想単語検索のケーススタディ

ただ使い倒してるだけなんですが。

  • ダディクール』 => 勉強、漢字、英単語
  • 『年賀状』 => イラスト、無料、素材
  • 『名刺』 => 印刷、作成、デザイン

ダディには本当に感服した。
大きな数値を叩き出す単語にしばしば見られる現象ですが、おそらくインターネット特有の文脈を持つ連想単語というのがありまして、世界の有名都市の名前を入れればツアーとかホテルとかの観光情報のキーワードが抽出されてしまいますし、上記のように印刷物のサービス関連キーワードが出てくる場合もあります。さらに、音楽のアーティスト名を入れれば無料、試聴、ダウンロードという具合です。これらの結果は、知識・常識の抽出といった意味合いでいえばノイズに分類される可能性があります。
入力単語に「◯◯という」などといった形で接続する言葉を付け加えて検索サイトに投げるというのが効果的であるという向きもあります。◯◯が音楽家の名前であるならば、「◯◯という」+「音楽家」という形の共起を抽出する効果を狙ったものでしょう。しかし、自分はこの方法を採用しないことにしました。有意な情報が捨象されてしまうことが少なくないですし、仮に効果があったとしても、その根拠に欠けるところがあります。「という」といった語法に結果が左右されるのも、分析的であるとはいえないのではないでしょうか。
そういうことを言うからには何か代替策を練る必要があるのですが、それについてはエントリを改めることにしましょう。まだ実装してないだけだっていうのは秘密ですよ!