r(


同一文脈内において共起する名詞同士でネットワークを形成することを考える。そのために、文脈単位での名詞共起頻度を数値化するための簡易データベースを作成。名詞と数字とがコロンを挟んでいる行においてはGoogleでの検索結果にその名詞の出現する数が示されており、タブでインデントされている行においては上の名詞と同じ行内(≒同一の文脈)に共起している名詞とその総数とが示されている。
より多くの名詞がより高いレートで相互に再帰的なネットワークを形成できる場合、そのクラウドこそが連想されうる文脈であるということが確かめられるであろうという仮定に至る。つまり、有意なネットワークが形成できない場合は、Webマイニング的には「連想できない」「ピンと来ない」という計算結果になる。写真の例だと、最上位の名詞(?)である「さん」という単語もいくつかの語とネットワークを形成してはいるが、その下の位につけている「坂本」「龍一」「タウン」「ダウン」「感じ」のほうが、より高いレートでより大きなクラウドを形成しているため、クラウドのランク的には「さん」よりも上位に食い込むというりくつ。実際、「さん」というのはヤッホー知恵袋のアカウント名に「アホアホマン」という名詞を用いている人への敬称であるのだ。本家アホアホマンとは文脈的にまったく関係ない。よって、最上位に躍り出たクラウドからトピックワードを抽出することになる。浮上してくるのはもちろん、「坂本龍一」である。うおお! こ、香ばしい! 言っておきますけど半分ネタですからね!
ただしこの方法だと、上位概念以外は抽出されにくい傾向にある。しかし、「◯◯という△△」的な方法にしても、取り出せるのは上位概念にほかならないのであるから、うまくいけばこちらの方がいくらか精度の高い抽出も可能なのではないか。仕様上、ノイズ以外の語まで消してしまうという造作がないのであるから(実際にはMeCabの精度によって若干数生ずるが)。
研究室に同じ研究している人いるんだよな……いや、こんな一日二日で思いつけるものは誰だって考えます。車輪の再発明