2011年04月30日

フリーのOCRソフト「RealReader Lite」を使ってみる(4) - 表形式のデータ画像


これまでOCR機能を利用できるフリーソフト「RealReader Lite」で、活字文字(こちら)と手書き文字(こちら)に加えて、意地の悪い画像ファイル(こちら)からのテキスト抽出を試行しました。

今回は表形式で印刷された資料の画像からテキスト抽出を試行してみます。



1.罫線の入った表の画像ファイル(原画像ファイルの解像度:600dpi)からのテキスト抽出結果はこちら




この際の「認識設定」(「表」タブと「スマートリーディング」タブ)では、罫線関連のセル区切りは自動判別にしてありました。

しかし、原画像ファイルが解像度:300dpiの場合のテキスト抽出結果はこちらで、全く解析できていません。罫線の入った表の画像ファイルの場合、解像度を上げるのは効果があるようです。



2.表形式の画像ファイルからテキスト抽出できれば、Excelなどのファイルにして処理をし易くしたいもの。テキスト抽出結果は、「ファイル」→「認識結果を保存」で各種ファイル(テキスト、CSV、pdf、HTML、リッチテキスト、Excel、Wordなど。但し、Excel、Wordはインストールされていないと出力指定で不可)へ出力できます。

項目1の罫線の入った表の場合、Excelファイルに出力した結果がこちら




若干の編集は必要ですが、入力の手間がかなり省けるはず。



3.罫線の入っていない表の画像ファイル(原画像ファイルの解像度:300dpi)からのテキスト抽出結果はこちら







テキストの抽出としては問題ありませんが、Excelファイルなどに出力すると各行は1つのセルにまとめられます(こちらを参照)。




表形式として認識させる指定方法がないのでしようがないか・・・


 
ラベル:RealReader OCR
posted by 鎌倉太郎 at 23:36| 神奈川 | Comment(0) | TrackBack(0) | 体験利用 | 更新情報をチェックする
この記事へのコメント
コメントを書く
コチラをクリックしてください

この記事へのトラックバック