2017年12月25日月曜日

mecab-ipadic-NEologdで形態素解析を新語に対応させる

Raspberry PiのPython3でMecabを使うでPythonで形態素解析をできるようにしたが、使用したIPA辞書は更新が止まっていて、形態素解析で新語に対応できない。そこで、WEBサイトをクロールして定期的に新語を追加しているmecab-ipadic-NEologdをIPA辞書の代わりに使うようにする。

はじめはRaspberry Piにインストールしようとしたが、mecab-ipadic-NEologdを使うには最低1.5GBのメモリが必要でRaspberry Pi 3(メモリ1GB)では無理そう。そういう訳で、Bash on Ubuntu on Windowsにインストールして使用してみる。


環境


Bash on Ubuntu on Windows。Ubuntuのバージョンは16.04。



Mecabとmecab-ipadicのインストール


mecab-ipadic-NEologdをインストールする前にMecabとmecab-ipadicをインストールしておく必要がある。Mecabとmecab-ipadicのインストール方法はRaspberry PiのPython3でMecabを使うを参照。


mecab-ipadic-NEologdのインストール


mecab-ipadic-NEologdの記載通りにコマンド実行。



Mecabでmecab-ipadic-NEologdを利用する


Mecabでmecab-ipadic-NEologdを利用するために、mecab-ipadic-NEologdのパスを確認しておく。


実際にmecab-ipadic-NEologdで形態素解析してみる。


ただ上の例だとIPA辞書との違いがわからないので、Raspberry PiのPython3でMecabを使うのはじめの段落の文章を形態素解析して比較する。まずはIPA辞書。


次にmecab-ipadic-NEologdを使った場合。


IPA辞書で分割された「テキストマイニング」「形態素解析」「Raspberry Pi」が、mecab-ipadic-NEologdを使うことで固有名詞として認識されるようになった。

0 件のコメント:

コメントを投稿