テキストデータを統計的に分析できるフリーソフトウェアKH Coderは、英文の分析にも対応している。英文を分析できるようにするまでの手順をまとめた。
1.javaをインストールする。
KH Coderでは英単語の抽出方法としてLemmatizationかStemmingが選べるが、Lemmatizationの方が詳細な抽出ができる。Lemmatizationを使用する場合はjavaが必要。javaをインストールするにはjavaのサイトからファイルをダウンロードしてインストールする。
2.KH Coderで英文分析用の設定をする
メニューから[プロジェクト]>[設定]を開き、「Lemmatization with...」にチェックをつける。また、「config」ボタンを押して、分析対象からはずす語のリストを読み込む。ここでは、c:\khcoder\tutorial_enにあるサンプルのstopwords_sample_en.txtを使用する。
[プロジェクト]>[設定]
以上で「OK」ボタンを押す。
3.前処理
英文テキストデータを読み込んだら前処理をする。英文データの分析では「分析対象ファイルのチェック」はグレイアウトされているので、前処理をそのまま実行する。
4.分析結果の出力
分析結果の出力は日本語のときと同じ。共起ネットワークを出力する場合は、メニューから[ツール]>[抽出語]>[共起ネットワーク]を開いて出力する。KH Coderのインストールフォルダにあるサンプルc:\khcoder\tutorial_en\botchan_en.txtの出力結果は以下の通り。
1.javaをインストールする。
KH Coderでは英単語の抽出方法としてLemmatizationかStemmingが選べるが、Lemmatizationの方が詳細な抽出ができる。Lemmatizationを使用する場合はjavaが必要。javaをインストールするにはjavaのサイトからファイルをダウンロードしてインストールする。
2.KH Coderで英文分析用の設定をする
メニューから[プロジェクト]>[設定]を開き、「Lemmatization with...」にチェックをつける。また、「config」ボタンを押して、分析対象からはずす語のリストを読み込む。ここでは、c:\khcoder\tutorial_enにあるサンプルのstopwords_sample_en.txtを使用する。
[プロジェクト]>[設定]

以上で「OK」ボタンを押す。
3.前処理
英文テキストデータを読み込んだら前処理をする。英文データの分析では「分析対象ファイルのチェック」はグレイアウトされているので、前処理をそのまま実行する。

4.分析結果の出力
分析結果の出力は日本語のときと同じ。共起ネットワークを出力する場合は、メニューから[ツール]>[抽出語]>[共起ネットワーク]を開いて出力する。KH Coderのインストールフォルダにあるサンプルc:\khcoder\tutorial_en\botchan_en.txtの出力結果は以下の通り。

0 件のコメント:
コメントを投稿