Tesseract-OCRというオープンソースのOCRエンジンがあって、Raspberry Piでも使える。インストールして使ってみたので、その結果をまとめておく。
Raspberry PiとRaspbian Jessie。
はじめにシステムにインストールされているパッケージを最新にしておく。
続いてTesseract-OCRと日本語用の学習データをインストール。
インストールされたバージョンは3.03。
使い方は、第一引数にOCRする画像ファイル、第二引数に結果の出力先、言語は「l」オプションで指定(デフォルトは英語)する。結果の出力先をstdoutにすると標準出力になる。
ホームページの文章をPCで画面キャプチャした画像をOCRしてみる。
これは厳しい。解像度が低すぎるのか?
文字の解像度を上げてみるが、これでも実用に耐えるレベルではない。
漢字なしの文章でもうまくいかない。
このくらいまで解像度を上げると大丈夫なようだ。
と思ったら、2行の文章だとうまくOCRできない。
英語だと日本語より低い解像度でもうまくOCRできそう。
言語は複数指定できるので日本語と英語混在の文章をOCRしてみるが、ちょっと残念。
結果としては、英語のOCRは使えそうだが、日本語は微妙。日本語のときは1行限定にした方がいいかもしれない。
環境
Raspberry PiとRaspbian Jessie。
Tesseract-OCRのインストール
はじめにシステムにインストールされているパッケージを最新にしておく。
続いてTesseract-OCRと日本語用の学習データをインストール。
インストールされたバージョンは3.03。
使い方は、第一引数にOCRする画像ファイル、第二引数に結果の出力先、言語は「l」オプションで指定(デフォルトは英語)する。結果の出力先をstdoutにすると標準出力になる。
OCRを試してみる
ホームページの文章をPCで画面キャプチャした画像をOCRしてみる。
sample.png |
これは厳しい。解像度が低すぎるのか?
sample2.png |
文字の解像度を上げてみるが、これでも実用に耐えるレベルではない。
sample3.png |
漢字なしの文章でもうまくいかない。
sample4.png |
このくらいまで解像度を上げると大丈夫なようだ。
sample5.png |
と思ったら、2行の文章だとうまくOCRできない。
sample6.png |
英語だと日本語より低い解像度でもうまくOCRできそう。
sample7.png |
言語は複数指定できるので日本語と英語混在の文章をOCRしてみるが、ちょっと残念。
結果としては、英語のOCRは使えそうだが、日本語は微妙。日本語のときは1行限定にした方がいいかもしれない。
0 件のコメント:
コメントを投稿