2022年2月25日金曜日

Pythonで漢字やひらがなをローマ字やカタカナに変換する

PykakasiというPythonライブラリを使うと、漢字やひらがなをローマ字やカタカナに変換できる。Pykakasiをインストールして漢字やひらがなを変換するところまでやってみる。


環境

WSL2(Ubuntu20.04)。

$ lsb_release -dr
Description:    Ubuntu 20.04.3 LTS
Release:        20.04
$ python3 -V
Python 3.8.10


Pykakasiのインストール

変換ライブラリのPykakasiはpipでインストールできる。

$ pip3 install pykakasi
$ pip3 show pykakasi
Name: pykakasi
Version: 2.2.1
...


漢字やひらがなをローマ字やカタカナに変換する

Pykakasiがインストールできたら、漢字やひらがなを変換してみる。kakasiクラスのインスタンスを作成して、convertメソッドを使うだけで変換結果が得られる。

from pprint import pprint
import pykakasi

kks = pykakasi.kakasi()
text = "ふんわり名人サイコー"

# 漢字やひらがななどの文字種ごとに変換結果が得られる
result = kks.convert(text)
pprint(result, indent=2)

結果は以下のように、漢字やひらがななどの文字種ごとに変換結果が得られる。origが変換元の文字、hiraがひらがな、kanaがカタカナ、hepburnはヘボン式ローマ字、kunreiは訓令式ローマ字、passportはパスポート表記。

[ { 'hepburn': 'funwari',
    'hira': 'ふんわり',
    'kana': 'フンワリ',
    'kunrei': 'funwari',
    'orig': 'ふんわり',
    'passport': 'funwari'},
  { 'hepburn': 'meijin',
    'hira': 'めいじん',
    'kana': 'メイジン',
    'kunrei': 'meizin',
    'orig': '名人',
    'passport': 'meijin'},
  { 'hepburn': 'saikoo',
    'hira': 'さいこー',
    'kana': 'サイコー',
    'kunrei': 'saikoo',
    'orig': 'サイコー',
    'passport': 'saikoo'}]


0 件のコメント:

コメントを投稿