いるかのボックス: KH Coderで新語に対応するためにmecab-ipadic-NEologdを使う

KH Coderでテキストマイニングをするで書いたように、フリーソフトウェアのKH Coderを使ってテキストマイニングができる。テキストマイニングでは形態素解析という、文章を名詞や形容詞などを品詞単位に分解する行程が必要になる。KH Coderでは形態素解析エンジンとしてChaSenかMeCabを選べるが、どちらでもデフォルトの辞書では最近登場した言葉には対応できない。そこで、MeCabのデフォルト辞書の代わりにmecab-ipadic-NEologdを使う。この辞書はWEBサイトをクロールして定期的に新語を追加しているので、最近の言葉にも対応できる。ここではWindows版KH CoderでMeCabの辞書をmecab-ipadic-NEologdに変更する手順をまとめておく。

※この投稿よりも簡略化した手順はこちら（2018/10/17追記）。
もう少し簡単にKH Coderで新語に対応するためにmecab-ipadic-NEologdを使う

環境

Windows10
Windows版 KH Coder Version 3.Alpha.11a
Bash on Ubuntu on Windows（mecab-ipadic-NEologdの作成に使用）

$ cat /etc/issue
Ubuntu 16.04.3 LTS \n \l

mecab-ipadic-NEologdの作成

mecab-ipadic-NEologdはLinux環境でしか作成できないので、今回はWindows10のBash on Ubuntu on Windowsで作成する。その手順はmecab-ipadic-NEologdで形態素解析を新語に対応させるを参照。

辞書ファイルは/usr/local/lib/mecab/dic/mecab-ipadic-neologdに作成される。mecab-ipadic-neologdディレクトリごとKH CoderがインストールされたWindows環境にコピーしておく。コピーする方法はいくつかあるが、Bash on Ubuntu on WindowsにSSHでアクセスできるようにするにあるようにSSHでアクセスできる状態なら、WinSCPなどでSCP接続してコピーできる。

KH Coderのインストール

KH CoderのダウンロードページからKH Coder3のWindows版をダウンロードする。インストールは、ダウンロードしたファイルをKH CoderをインストールするWindows環境で実行し、開いたポップアップ画面で「unzip」をクリックすると「C:\khcoder3」にファイルが解凍される。kh_coder.exeを実行するとKH Coderが起動する。

MeCabのインストールと動作確認

KH CoderをインストールするとMeCabもいっしょにインストールされるが、別途MeCabをインストールする。まずはMeCab: Yet Another Part-of-Speech and Morphological AnalyzerからBinary package for MS-Windowsをダウンロードする。ダウンロードしたファイルを実行して以下の文字コードを選択する画面で「UTF-8」を選択する。MeCabはC:\Program FilesMeCabにインストールされる。

KH Coderで使うのに必須ではないが、動作確認のためにコマンドラインで使えるようにパスを通しておく。コマンドプロンプトで以下のコマンドを実行。

>setx /M PATH "%PATH%;C:\Program Files\MeCab\bin"

MeCabの辞書情報を確認。

>mecab -D
filename:       C:\Program Files\MeCab\etc\..\dic\ipadic\sys.dic
version:        102
charset:        UTF-8
type:   0
size:   392126
left size:      1316
right size:     1316

動作確認のため、テスト用のテキストファイルを作成する。notepadを開いて「東京特許許可局」と入力し、UTF-8でtest.txtというファイルに保存する（MeCabの辞書をUTF-8でインストールしているので、コマンドプロンプトでの入力だと文字化けしてしまう）。

> notepad

MeCabを実行して形態素解析してみる。結果はout.txtに保存。

>mecab test.txt -o out.txt
>notepad out.txt

結果は以下の通り。

    記号,一般,*,*,*,*,*
東京    名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー
特許    名詞,サ変接続,*,*,*,*,特許,トッキョ,トッキョ
許可    名詞,サ変接続,*,*,*,*,許可,キョカ,キョカ
局    名詞,接尾,一般,*,*,*,局,キョク,キョク
EOS

MeCab辞書をmecab-ipadic-NEologdに変更する

デフォルトで「東京特許許可局」はちゃんと形態素解析できているのだが、お決まりの早口言葉なので「東京特許許可局」として認識してほしい。そこで、MeCabの辞書をmecab-ipadic-NEologdに変更する。

まずは、Bash on Ubuntu on Windowsで作成したmecab-ipadic-neologdをディレクトリごとC:\Program Files\MeCab\dicにコピーする。

続いてMeCabの辞書設定を変更する。C:\Program Files\MeCab\etc\mecabrcをデスクトップなどの他の場所にいったんコピーする（元の場所のままだとファイルの変更ができない）。コピーしたmecabrcをテキストエディタで開いて、dicdirを以下のようにmecab-ipadic-neologdのフォルダに変更してファイルを更新。

dicdir = $(rcpath)..\dic\ipadic

↓

dicdir = $(rcpath)..\dic\mecab-ipadic-neologd

mecabrcを元の場所に上書きコピーして、MeCabの辞書設定を確認。辞書がmecab-ipadic-NEologdに変わっている。

>mecab -D
filename:       C:\Program Files\MeCab\etc\..\dic\mecab-ipadic-neologd\sys.dic
version:        102
charset:        UTF8
type:   0
size:   4530502
left size:      1316
right size:     1316

再度、形態素解析してみる。

>mecab test.txt -o out.txt
>notepad out.txt

以下のように「東京特許許可局」が分割されずにひとつの語として認識された。

    記号,一般,*,*,*,*,*
東京特許許可局    名詞,固有名詞,一般,*,*,*,東京特許許可局,トウキョウトッキョキョカキョク,トーキョートッキョキョカキョク
EOS

KH Coderの設定

KH CoderでインストールしたMeCabを使えるようにする。メニューの［プロジェクト］－［設定］を開く。

「mecab.exeのパス」をインストールしたMeCabのパス「C:\Program Files\MeCab\bin\mecab.exe」に変更し、「Unicode辞書」にチェックをつける。

mecab-ipadic-NEologdの効果

MeCabの辞書をデフォルトのIPA辞書からmecab-ipadic-NEologdに変更した効果を確認してみる。使うのはRaspberry PiのPython3でMecabを使うのはじめの段落の文章。この文章をテキストファイルに保存してKH Coderで取り込んで抽出語リストを作成する。

プロジェクトの新規作成で保存したテキストファイルを参照するとき、デフォルトの形態素解析エンジンはChaSenなのでMeCabに変更する。