Google Docsにpdfファイルや画像ファイルをアップロードする時、テキストを抽出してくれる機能があります。対応公式ブログはこちらですが、日本の環境で使えそうか試してみました。
操作としてはGoogle Docsの「ファイルをアップロード」で、「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する。」にチェックを入れてアップロードを開始します(こちらを参照)。
まず、pdfファイルの変換抽出ですが、単にテキストを抽出するのであれば、Adobe Readerでも可能です。しかし、Google Docsに登録する際に抽出できるのであれば作業ステップを削減できるメリットがあります。
こちらはDocs Blogのページ(英語)をブラウザ(Google Chrome)から印刷できるドライバーPrimoPDFを用いて、最初の1ページだけをpdfファイルとして生成し、アップロードしてテキスト抽出したGoogleドキュメントです。
1ページ目は空白、2ページ目にオリジナルのpdfファイルの内容、3ページ目以降に抽出したテキストになっています。
pdfの構成要素順に出力されているようで、印刷時のレイアウト順序とは違う場合があります(広告やフッター部分)。
こちらはブログ「写真を絵画に」のページ(日本語)を同様に生成し、テキスト抽出したGoogleドキュメントです。
生成順序の問題は前例と同じです。単純なテキスト部分は抽出できているようですが、見出し部分などでは重複してテキストが生成されています(生成の結果はブラウザにより若干異なります・・・IEの場合はこちら)。
こちらにグーグル社による解説があり、pdfファイルについてはファイルサイズの制限:最大2MB(これ以上では最初の10ページのみ)があります。上記2例では(隠れて見えないHTMLタグなどもあり)1.7MBと0.4MB(と0.5MB)ですから、個人で作ったドキュメントとしてはそれほどの制限ではないでしょう(画像が多く入っていたり、大量ページになる公式文書の場合は制限になりますが・・・・)
こんな事を認識しながらであれば、オプションとしては使ってみてもいい機能です。次回は画像ファイルからのテキスト抽出。
ラベル:Google Docs