Tesseract-OCRというオープンソースのOCRエンジンがあって、Raspberry Piでも使える。インストールして使ってみたので、その結果をまとめておく。
Raspberry PiとRaspbian Jessie。
はじめにシステムにインストールされているパッケージを最新にしておく。
続いてTesseract-OCRと日本語用の学習データをインストール。
インストールされたバージョンは3.03。
使い方は、第一引数にOCRする画像ファイル、第二引数に結果の出力先、言語は「l」オプションで指定(デフォルトは英語)する。結果の出力先をstdoutにすると標準出力になる。
ホームページの文章をPCで画面キャプチャした画像をOCRしてみる。
これは厳しい。解像度が低すぎるのか?
文字の解像度を上げてみるが、これでも実用に耐えるレベルではない。
漢字なしの文章でもうまくいかない。
このくらいまで解像度を上げると大丈夫なようだ。
と思ったら、2行の文章だとうまくOCRできない。
英語だと日本語より低い解像度でもうまくOCRできそう。
言語は複数指定できるので日本語と英語混在の文章をOCRしてみるが、ちょっと残念。
結果としては、英語のOCRは使えそうだが、日本語は微妙。日本語のときは1行限定にした方がいいかもしれない。
環境
Raspberry PiとRaspbian Jessie。
Tesseract-OCRのインストール
はじめにシステムにインストールされているパッケージを最新にしておく。
続いてTesseract-OCRと日本語用の学習データをインストール。
インストールされたバージョンは3.03。
使い方は、第一引数にOCRする画像ファイル、第二引数に結果の出力先、言語は「l」オプションで指定(デフォルトは英語)する。結果の出力先をstdoutにすると標準出力になる。
OCRを試してみる
ホームページの文章をPCで画面キャプチャした画像をOCRしてみる。
![]()  | 
| sample.png | 
これは厳しい。解像度が低すぎるのか?
![]()  | 
| sample2.png | 
文字の解像度を上げてみるが、これでも実用に耐えるレベルではない。
![]()  | 
| sample3.png | 
漢字なしの文章でもうまくいかない。
![]()  | 
| sample4.png | 
このくらいまで解像度を上げると大丈夫なようだ。
![]()  | 
| sample5.png | 
と思ったら、2行の文章だとうまくOCRできない。
![]()  | 
| sample6.png | 
英語だと日本語より低い解像度でもうまくOCRできそう。
![]()  | 
| sample7.png | 
言語は複数指定できるので日本語と英語混在の文章をOCRしてみるが、ちょっと残念。
結果としては、英語のOCRは使えそうだが、日本語は微妙。日本語のときは1行限定にした方がいいかもしれない。







0 件のコメント:
コメントを投稿