2011年04月28日

フリーのOCRソフト「RealReader Lite」を使ってみる(3) - 意地の悪い画像


OCR機能を利用できるフリーソフト「RealReader Lite」で、活字文字(こちら)と手書き文字(こちら)という点から画像ファイルからのテキスト抽出を試行しました。

今回は少し意地の悪い試行をしてみます(利用資料はこれまでのものに更に「るるぶ エジプト」から加えています)。


1.傾いた(10度)画像(原画像ファイル300dpiはこちら。スキャナーで読み取る時、良くある事。ここまでは酷くありませんが・・・)のテキスト抽出結果はこちら




「自動用紙方向補正」がデフォルトで「自動判別」になっていて、画像ファイルを読んだ直後に画像修正した上で抽出処理をしています。


2.解像度の低い(モニター表示程度の72dpi)画像ファイルのテキスト抽出結果はこちら




見づらいです(表示倍率100%以上になりません・・・)が、予想通り酷い結果です。300dpiぐらいの画像(できたら600dpi)を使うのが良いようです。


3.活字文字と手書き文字の混在(イラストの中の手書き文字というのも良くあります)

解像度300dpiの場合はこちら(600dpiはこちら)。




認識エンジンを「活字一般」としているので、解像度に依らず手書き文字を含めイラストと見做されています。尤も、「手書き」指定しても、(活字の方が多いので・・・?)活字文字の扱いでテキスト文字抽出しています。


4.文字の背景が濃淡のある色彩になっていたり、カラー反転文字になっている場合

解像度300dpiの場合はこちら




解像度600dpiの場合はこちら




この場合には画像解像度の低い方が背景の影響を受ける事が少ないようです。



今回は意地の悪い状況を試した訳ですが、有償のProfessional版でどこまで改善できるのでしょうか。フリーウエアの範囲でこれだけの機能・性能があれば、満足できるのではないでしょうか・・・


 
ラベル:RealReader OCR
posted by 鎌倉太郎 at 16:38| 神奈川 ☀| Comment(0) | TrackBack(0) | 体験利用 | 更新情報をチェックする
この記事へのコメント
コメントを書く
コチラをクリックしてください

この記事へのトラックバック