2015年12月13日日曜日

KH Coderが出力した分析結果を解釈する

KH Coderでテキストデータを読み込んで階層クラスターや共起ネットワーク図などの出力結果が得られたとして、問題となるのがどうその出力結果を解釈したらよいか。図なので、この語とこの語が関連がありそうだというのは視覚的にわかるが、その関連がどういう意味を持つのかよくわからないことも多い。ここではKH Coderのインストールフォルダにあるc:\khcoder\tutorial_jp\kokoro1.txtの解釈を試みる。KH Coderの設定はデフォルトのままで階層的クラスター図を出力した。デフォルトでは「集計単位」は段落、「最小/最大 出現数による語の取捨選択」は45、「最小/最大 文書数による語の取捨選択」は1になっており、テキストデータ全体を通して45回以上出現している語が分析対象としてクラスター分析の結果にあらわれる。kokoro1.txtでは、対象語数は78。

1.階層的クラスター図の出力
メニューから[ツール]>[抽出語]>[階層的クラスター分析]を開き、デフォルト設定のまま「OK」を押して階層的クラスター図を出力。


KH Coderでkokoro1.txtを分析すると、上図のような階層的クラスターが得られる(縦長なため一部のみの画像)。クラスターが色分けされており、全部で9のクラスターがある。

2.各語の出現数を求める
実際の出現数を確認するために[ツール]>[抽出語]>[抽出語リスト]から各語の出現数を求めて、表にまとめる。


3.クラスターごとの解釈
1つのクラスターには互いに関連性が高い語が集まっており、クラスターごとにどういう語が集まっているか調べることで、テキストデータ全体における1つの傾向や特徴を読み取ることができる。ちなみに、僕は「こころ」を読んだことがないので、どういうストーリーが知らない。実際に解釈を行うときは、分析対象のテキストデータで記述されている分野の知識はあった方がよいと思う。

クラスター1を見ると、「手紙」「書く」だけで構 成されている。この小説では「手紙を書く」という表現が多く使われていると予想できる。手紙を書くという行為が物語の中で重要な位置づけになっているのかもしれない。クラスター2では「兄」「父」「母」があるので、家族のことが主題と考えてよさそう。家族の誰かが病気なのかもしれない。クラスター3については共通するテーマを見つけるのは難しい。小説の内容を知っていれば何かの共通点を見いだせるかもしれない。

4.解釈の裏取り
階層的クラスター図や表から得られた解釈に間違いがないか裏をとる。それにはKH CoderのKWICコンコーダンスを使う。これは指定した語を前後の文章も含めて表示する機能。この機能を使うと指定した語がどういった文脈で使用されているか確認できる。使い方は、[ツール]>[抽出語]>[KWICコンコーダンス]で別ウィンドウが開くので、抽出語に検索対象の語を入力するだけ。以下は 「手紙」を検索した結果。


上図は検索結果の一部のみだが、全体をみると、実際に「手紙を書く」という表現が比較的多く使われていることが確認できる。クラスター2についても同様に確認すると、「卒業」するのは小説の 「私」のことで、「病気」であるのは「父」ということがわかる。クラスター2が家族のことに関する語が集まっているのは間違いなさそう。

・クラスターの解釈がうまくできない場合
データの整形方法や分析対象語の絞り込み方法によって出力結果がかわるので、KH Coderで分析対象語の取捨選択をするKH Coderで分析対象語の取捨選択をする2の方法で分析対象語を変えることで解釈できる結果が得られるかもしれない。ただ、都合のよい結果が出るようにデータをいじってしまうことにもなりかねないので、どの語を取捨選択するかは慎重に検討する必要がある。

0 件のコメント:

コメントを投稿