単純に活用方法として考えられるのが、(提供者側もいっている通り)各種業務アプリの試験データ。
今回提案している使い方が、「大量の疑似個人情報の中に、本物の個人情報を紛れ込ませる」事で、盗まれた個人情報のデータの正確性を低くし、データそのものの市場価値を低下させてしまうという発想。『 疑似個人情報 』をシステムの中に何気なく不十分な管理状態にしておくという「影武者」の設置も効果があるかも・・・・としています。
『 疑似個人情報 』と「本物の個人情報」は、システム的に特定のロジックで区別できるようなっているので、業務アプリとしての負荷は殆どないでしょう。
100%盗まれないようにするというのは不可能であるという事を前提に、万が一漏洩事故が起きたときの被害を最小限に止める事を目標にするという発想の転換をしています。有効な個人情報が100件に1件でもあればいいという場合もあるでしょうが、多くの場合は使いたくもないでしょう。
『 疑似個人情報 』の3000件(無償)ダウンロードサイトがこちら(非営利目的での利用に限定)。
(これはデータの一部の項目のみです)
そのデータの1つを見ると、「xx県yy市zz区a町bb4-9-14」となっている場合、実際に住所検索をすると「bb1-・・・」~「bb3-・・・」はあっても、「bb4-・・・」はないという結果でした。
『 疑似個人情報 』は、統計データを基に、統計的に正しく分布させていてるそうです。
- 住所が日本全国に分散
自治体の人口比率に基づいた確率で居住地を決定 - 人口統計に基づいた年齢・性別比率
2005年の年齢別人口比率に基づいた確率で性別・年齢・生年月日を決定 - よくある姓・名を、性別・年齢に基づいて選択
日本人の姓トップ10000位の人口比率に基づき、姓を決定
また、生まれ年別名前の統計に基づき、名を決定
データの項目には、WEBサイト・ログイン用(?)のID・パスワードも含まれていて、現実味のある情報の形をしています。ただ、メールアドレスはデータとして更に疑似化する工夫が必要であるのと、会社情報(所属会社・部門、クレジットカード関係)をどうするかといった課題はあります。これらの事は、(現状のメニューではできないが、特別の?)カスタマイズで対応できるかもしれません。
一方、「疑似個人情報が個人情報として使用されたことを検出する漏洩検出サービスを現在企画」しているとの事。著作権の確認で電子透かしを入れるのと似た使い方にも発展させようとしています。
今後を期待したい。
ラベル:個人情報