2011年04月25日

Google Docsでpdfファイルや画像ファイルのアップロード時にテキストを抽出する機能(2)


前回はGoogle Docsでpdfファイルのアップロード時にテキストを抽出するオプション機能でした。

今回は画像ファイルからのテキスト抽出です。十数文字程度では、再入力してもそれほど負担にならないので意味がありませんから、1ページでも100文字以上のテキストを抽出する事を想定します。

こちらにグーグル社による解説があり、日本語対応していない旨を明示していますので興味半減の部分もありますが、英語(アルファベット)を中心に日本語文字についても程度を確認しておきます。



画像ファイルからのテキスト抽出は所謂OCR(Optical Character Recognition、光学文字認識)機能ですが、一般には手書き文字は対象外で(勿論、手書き文字対応のソフトはあります)、活字文字を対象にした市販の(日本語対応)ソフトもあります(この系統ソフトの最近の変換品質についてチェックしていません)。

pdfファイルの場合と同様に、作業ステップの削減ができますからその利用可能性をチェックしておくのも良いかと思います。


まず、PCモニターから取り込んだ程度の画像ファイルにおける品質文字の場合。

英語(アルファベット)の画像ファイルについて抽出したGoogle Docsドキュメントがこちら(ページの上部が原本の画像イメージ、下部が抽出テキスト。色マーカー部分は筆者追加)。




概ね綺麗にテキスト抽出できているようです。但し、文字認識誤り(黄色マーカー)の他、空白の取りこぼし(茶色マーカー)やピリオッド(.)の認識誤り(青色マーカー)があります。



日本語については対応していないのですが、試しに抽出したGoogle Docsドキュメントがこちら(ページの上部が原本の画像イメージ、下部が抽出テキスト)。






次に、印刷された書籍(あるメーカー添付の資料)からスキャナーで取り込む方法で、プリンター印刷可能とされる300dpiで読み取った画像ファイル(水平化の画像処理を実施)の場合。

英語(アルファベット)の画像ファイルについて抽出したGoogle Docsドキュメントがこちら(1ページ目が原本の画像イメージ、2ページ目が抽出テキスト。色マーカー部分は筆者追加)。




グーグル社による解説でも、「・・・ドキュメントのテキストの 1 行の高さを少なくとも10ピクセル・・・」としていますので、PCモニターから取り込んだ程度の画像ファイルで十分なようで、それ以上にしても見た目にはそれほど品質の改善はないようです。

画像ファイルについてはファイルサイズの制限:最大2MBがあります。スキャナーから300dpiなどで読み取るとサイズ制限で苦しくなります。


尚、これらの結果については文字のサイズや画像品質にも依るので、参考データと考えてください。


 
ラベル:Google Docs
posted by 鎌倉太郎 at 14:16| 神奈川 ☀| Comment(0) | TrackBack(0) | 体験利用-Googleドキュメント | 更新情報をチェックする
この記事へのコメント
コメントを書く
コチラをクリックしてください

この記事へのトラックバック