2015年12月30日水曜日

KH Coderで英文を分析する

テキストデータを統計的に分析できるフリーソフトウェアKH Coderは、英文の分析にも対応している。英文を分析できるようにするまでの手順をまとめた。

1.javaをインストールする。
KH Coderでは英単語の抽出方法としてLemmatizationかStemmingが選べるが、Lemmatizationの方が詳細な抽出ができる。Lemmatizationを使用する場合はjavaが必要。javaをインストールするにはjavaのサイトからファイルをダウンロードしてインストールする。

2.KH Coderで英文分析用の設定をする
メニューから[プロジェクト]>[設定]を開き、「Lemmatization with...」にチェックをつける。また、「config」ボタンを押して、分析対象からはずす語のリストを読み込む。ここでは、c:\khcoder\tutorial_enにあるサンプルのstopwords_sample_en.txtを使用する。

[プロジェクト]>[設定]

以上で「OK」ボタンを押す。

3.前処理
英文テキストデータを読み込んだら前処理をする。英文データの分析では「分析対象ファイルのチェック」はグレイアウトされているので、前処理をそのまま実行する。


4.分析結果の出力
分析結果の出力は日本語のときと同じ。共起ネットワークを出力する場合は、メニューから[ツール]>[抽出語]>[共起ネットワーク]を開いて出力する。KH Coderのインストールフォルダにあるサンプルc:\khcoder\tutorial_en\botchan_en.txtの出力結果は以下の通り。

0 件のコメント:

コメントを投稿