NTTグループのソリューションガイド
月刊ビジネスコミュニケーションによるエキスパートブログ
HOME | ABOUT |
atom rss2.0

« previous next »

BigDataの活用動向 その4-匿名化技術-

2012.07.30|新ネットワーク このエントリーをはてなブックマークに追加Yahoo!ブックマークに登録この記事をクリップ!BuzzurlにブックマークBuzzurlにブックマーク

前回、多種多様化する情報の中で事業者側の負担は増大しており、取扱いについては個人情報を保護・加工していくことの重要性が増していることを述べた。

事業者が情報を取り扱っていく上で、全ての部門が全情報を扱う必要はない。
例えば、直接顧客対応をしていく部門では顧客の氏名や性別、住所など詳細な情報が必要な場合があるが、マーケティングを行う部門では、個人を特定するほど詳細な情報は必要がないこともある。前回も述べたように、複数の企業がアライアンス等で情報を共有したい場合や、報告書や公表資料を作成する場合など、個人情報を提供する必要がない場合も存在する。その中で、安全で効果的な情報活用を進めていくためには、必要に応じて、情報を省いたり、曖昧化するためのルールが必要となる。ここでは一つの考え方として匿名化の手法について述べていく。

■単純匿名化
単純匿名化とは、その属性だけで個人を類推できてしまう情報(識別情報)を隠すことで、個人の特定ができないように情報をマスクするという考え方である。
識別情報の代表的なものとしては氏名や電話番号、住所などがあげられ、個人単位に一意に割り振られている顧客番号等もそれに含まれる。(図4-1参照)

■集団匿名化
上記、単純匿名化を行う事で、個人特定ができないように情報をマスクしたが、それだけでは不十分だと考えられる。それ単体では個人の識別はできないが、複数組み合わせることで個人を類推できる可能性がある準識別情報というものが存在するためである。準識別情報の代表的なものとしては年齢や性別等が挙げられる。集団匿名化とは任意のk値以上の値が同一のレコード数を担保するように、それら準識別情報を曖昧化し、一般化することによって、情報を複数組み合わせても、個人を類推できないようにする考え方である。k値は小さければ小さいほど情報としては曖昧化する前の生の情報に近く、情報の損失が少ないが、個人を特定されるという危険性は高い。逆にk値が大きければ情報の損失は多いが、より個人を特定されるリスクは減少されるというトレードオフの関係になっている。(図4-2参照)

個人情報の取扱いについては用途や目的によって安全かつ、情報の損失もできるだけ少ない適切なk値を見極めて設定していくところに課題がある。

これまでの全4回でBigDataをとりまく状況について説明をしてきた。ハードウェアやソフトウェアの進歩により、情報を収集し、分析する環境は整いつつある。今後BigDataとどう向き合い、活用していくかについては分析ノウハウや成功事例の蓄積、分析スキル者の育成方法などまだまだ試行錯誤が必要と言えそうだ。

Latest