いるかのボックス: Pythonで日本語WordNetから類義語を取得する

WordnNetは英語の概念辞書で、英単語が類義語のグループ（synset）に分類されている。このWordNetの日本語版が日本語WordNetで、sqlite3のデータベース形式で公開されている。今回はこのデータベースを利用して単語の類義語をPythonで取得してみる。

環境

WSL2(Ubuntu20.04)。

$ lsb_release -dr
Description:    Ubuntu 20.04.2 LTS
Release:        20.04
$ python3 -V
Python 3.8.5

Python3ではデフォルトでSqlite3を使用できるが、コマンドラインからも使用したいので、Sqlite3パッケージをインストールしておく。

$ sudo apt install sqlite3

日本語WordNetデータベースの準備

日本語WordNetのリリース・ダウンロードから「Japanese Wordnet and English WordNet in an sqlite3 database」をダウンロードする。

ダウンロードしたファイルgunzip wnjpn.db.gzを適当な場所において解凍しておく。

$ gunzip wnjpn.db.gz

WordNetデータベースの確認

まずはWordNetデータベースの中身を確認してみる。データベースに接続してテーブル一覧を表示。

$ sqlite3 wnjpn.db
sqlite> .tables
ancestor    pos_def     synlink     synset_def  variant     xlink
link_def    sense       synset      synset_ex   word

いくつかテーブルがあるが、ここでは今回使うwordテーブルとsenseテーブルを確認する。

「.headers on」でselect文でカラム名を表示するようにして、wordテーブルの中身を確認。wordテーブルには日本語だけでなく英単語の情報も格納されている。

sqlite> .headers on
sqlite> select * from word limit 3;
wordid|lang|lemma|pron|pos
1|eng|expletive||n
2|eng|measles||n
3|eng|contras||n

日本語だけに限定して確認。

sqlite> select * from word where lang = 'jpn' limit 3;
wordid|lang|lemma|pron|pos
155288|jpn|頭金||n
155289|jpn|どうにかこうにか||r
155290|jpn|大砲||n

続いてsenseテーブルの確認。このテーブルで単語と概念（synset）が紐づけられている。こちらも英語と日本語が混在しているので日本語に限定して表示してみる。

sqlite> select * from sense where lang = 'jpn' limit 3;
synset|wordid|lang|rank|lexid|freq|src
13349834-n|155288|jpn||||hand
00151040-r|155289|jpn||||hand
02950632-n|155290|jpn||||multi

Pythonで類義語を取得する

WordNetデータベースから、引数で指定した単語の類義語を取得するPythonコードを作成する。実際のところ、指定した単語の概念（synset）を取得してその概念をもつ単語の一覧を取得するSQLを実行し、その結果を出力するだけ。

import sys
import sqlite3

def main():
    word = sys.argv[1]

    con = sqlite3.connect('./wnjpn.db')
    cur = con.cursor()

    # 指定した単語の概念を取得（IN句）
    # 取得した概念をもつ単語を取得
    # テーブルには英単語も混在しているので日本語単語に限定
    # はじめに指定した単語は除外
    sql="""
SELECT word.lemma 
FROM sense 
INNER JOIN word 
ON sense.wordid = word.wordid 
WHERE sense.synset 
IN (
    SELECT sense.synset 
    FROM word 
    INNER JOIN sense 
    ON word.wordid = sense.wordid 
    WHERE word.lemma = ?
) 
AND sense.lang='jpn' 
AND word.lemma != ?
"""

    cur.execute(sql, (word, word))
    rows = cur.fetchall()

    # 類義語一覧表示
    # 重複があるので省く
    syns = set([r[0] for r in rows])
    print(syns)

    cur.close()
    con.close()

if __name__ == '__main__':
    main()

試しに類義語を取得してみる。

$ python3 synsearch.py 電気
{'エレキトル', 'ランプ', '明り', '灯火', '電力', 'エレキ', '灯かり', '灯', '光', '灯し火', 'エレキテル', '灯り', '燭', '明かり'}
$ python3 synsearch.py 温かい
{'寛大', '懇ろ', '情け深い', '温暖', '情深い', '生あたたかい', '懇篤', '優渥', '優しい', 'ぬくい', '世話好き', '懐こい', '親切', '暖かい', '情ぶかい', '深切', '新切', '厚い', '寛容', '篤い', '温和', '和やか', '親身', '人懐こい', '暖か', '穏和', '温', '人なつこい', 'ねんごろ', '細やか', '暖い', '良い', '愛想のいい', '暖和', '慈悲深い', '人懐っこい', 'なま暖かい', '温か', '手厚い', '情けぶかい', '温い', 'なごやか', '濃やか', '懐っこい', '温順', '懇切'}

いるかのボックス

2021年3月21日日曜日

Pythonで日本語WordNetから類義語を取得する

環境

日本語WordNetデータベースの準備

WordNetデータベースの確認

Pythonで類義語を取得する

0 件のコメント:

コメントを投稿