2009年12月03日

グーグル社がWebから統計的に辞書を生成する新たな日本語入力ソフト「Google日本語入力β版」を公表【改訂・64ビット版】

公式ブログによると、グーグル社が新たな日本語入力ソフト「Google日本語入力β版」を公表しました。

思いどおりの日本語入力 - Google 日本語入力【2009/12/03】





最大の特徴は、「Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成している」事。



実際にここからインストールしてみました。




システム環境は、Windows XP(SP2以降)・Vista(SP1以降)・Windows 7とMac OSX Leopard (10.5)以降(Intelプロセッサ)の各日本語版、但し、Windows64ビット版は開発中 公式ブログによると2009年12月15日より公開。インストール直後に既定のIMEに指定する事もできますし、Windowsの場合に言語バーでの切換えもできます(戻す事も容易)。詳細はここを参照。



「Web から機械的・自動的に辞書を生成」している(クラウドで生成して、随時ローカルの言語辞書と同期を取っている?)ので、新語などへの対応が早いと思われます。
例えば、「いしかわ」+「りょう」と2つを続けて変換すると、「石川」+「遼」と今注目のプロゴルファーの名前に変換してくれます。単に「りょう」とした場合には、「料」などとなります。但し、「りょう」に対して色々な漢字を選択した後で「いしかわ」+「りょう」としても、100%「遼」になるとは限りません。また「ういきぺでぃあ」と入力すると、直ちに「ウイキペディア」になります(MSのIMEでも学習機能から2度目以降は正しく変換されます)。


Google検索のサジェスト機能と同様に、日本語入力文字変換でも候補を出してくれます。これはスマートフォンや携帯電話の入力変換でも既にある機能で、欲しかった機能でもあります。例えば、「夏休み」。
「なつやすみ」を変換すると、「夏休み」・「夏休み明け」・「夏休み中」を候補として挙げてくれる(日本語入力「プロパティ」でサジェストする個数の設定が可能。利用しない設定も可)ので、入力量の削減にもなります。


上記2点を合わせた機能として、例えば、「クリエイティブ」とまで入力してみると、「クリエイティブ・コモンズ」と「クリエイティブ」の2つがサジェスト機能で表示されます。


「まだベータ版です。アプリケーション互換性問題、誤変換、未実装の機能を含め多くの改善点が残って…」いるとしていますが、少し使った範囲ですがMSのIMEとの比較で次のような今後の課題があります。
  1. 入力済みテキストのマークした部分の「再変換」機能の実現
  2. 同じ読みに対する漢字の意味を表示する機能の実現。例えば、「てまがかかる」とした時の「かかる」に対する漢字として、MSのIMEのように「掛かる」・「罹る」・「架かる」などに用途例を表示してくれる機能。
  3. MSのIMEとの機能差で、特に私の場合には「IMEパッド」の実現や日本語入力「プロパティ」→「和英混在入力」タブの自動で英数に変換(特に「一時的に半角英数モード」機能)など。漢字の読みが分からない時に、文字をなぞってみたりして漢字を選択できるのが便利。

注:デフォルトでは半角記号への変換で手間が掛かる。例えば、"「"とか"("。この場合には、日本語入力「プロパティ」→「入力補助」タブで、対応する文字グループを「学習」に変更しておく事をお勧めします。


β版といえども十分に使えるレベルにあり、新語(流行語、芸能人名)や(カタカナの)専門語を多用する文書を作成する時に価値がありそう.


【改訂】2009年12月15日 17:20 64ビット対応版のの公開


 
posted by 鎌倉太郎 at 18:11
"グーグル社がWebから統計的に辞書を生成する新たな日本語入力ソフト「Google日本語入力β版」を公表【改訂・64ビット版】"へのコメント
コメントを書く
お名前:

メールアドレス: [必須入力]

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。