以前の記事でGoogle Docsにおける画像ファイルからテキストを抽出するOCR機能について投稿しました。
- Google Docsでpdfファイルや画像ファイルのアップロード時にテキストを抽出する機能(2)【2011年04月25日】
そこでは日本語に対する機能が不足していたので、今回はOCR機能を利用できるフリーソフト「RealReader Lite」を紹介します。
業務用OCR「RealReader Pro」の機能限定版ですが、その性能や機能を実際に確認できるようにOCR基本機能は網羅しています。
こちらからダウンロードできます(若干時間が掛かります)。
インストール後に「RealReader Lite」を起動した所がこちら。
単純に画像ファイルからのテキスト抽出について確認する為、日本語だけの画像(「海のエジプト展」展示作品集より)、英語だけの画像(「海のエジプト展」展示作品集より)、英語と日本語が混在する画像(「IT Leaders」No.20より)、レイアウトを考慮した画像(「るるぶ エジプト」より)を、夫々に解像度300dpiと600dpiの2種ファイル(Jpeg、低圧縮)を用意しました。
1.日本語だけの画像ファイルからのテキスト抽出:
解像度300dpiの画像ファイルの変換結果がこちら(手書き朱線は筆者の追記。以下同様)。600dpiの結果はこちら。
解像度300dpiの場合
解像度による差異は無く、「=」が「・」と判断されている以外は、綺麗にテキスト抽出ができています。
2.英語だけの画像ファイルからのテキスト抽出:
解像度300dpiの画像ファイルの変換結果がこちら。600dpiの結果はこちら。
解像度300dpiの場合
「I」と「l」が誤って判断されている点と「n」がうまく変換されない点。600dpiでは綺麗にテキスト抽出されていますが、(300dpiでも同じに)文字サイズの判断が誤っているようです。
3.英語と日本語が混在する画像ファイルからのテキスト抽出:
解像度300dpiの画像ファイルの変換結果がこちら。600dpiの結果はこちら。
解像度300dpiの場合
300dpiの時、空白が「47」と改行になっている原因が不明です。それ以外は綺麗にテキスト抽出できていますが、何れの解像度でも2行に跨る単語継続の「-」が「_」になる場合があります。
4.レイアウトを考慮した画像ファイルからのテキスト抽出:
解像度300dpiの画像ファイルの変換結果がこちら。600dpiの結果はこちら。
解像度300dpiの場合
テキストは綺麗に抽出されますが、レイアウト上で別のパラグラフが、解像度300dpiでは同一の横長パラグラフと判断されています。ルビの扱いがデフォルトで「そのまま」となっていますが、処理結果との関係理由が分りません(「ルビ処理」の指定を変更しても変化なし)。
Lite版の制限でレイアウトや文字認識でより深い処理がなされません(こちらを参照)が、Professional版では改善されるかもしれません・・・
Lite版の範囲でも上記の現象(これだけではないと思いますが)を認識して変換結果をチェックすれば、十分に利用価値があります。
次回にもう少しケースを変えて使ってみたいと思います。
ラベル:OCR RealReader