#1 大量データのマスキングもこんなにカンタン!プライバシーに配慮したデータの高度活用術

特集

開発者が実践&解説!かんたんデータ連携(EAI)の活用術

この特集の記事一覧へ

IIJ クラウド本部 プラットフォームサービス部

部長

鈴木 透

執筆・監修者ページ/掲載記事:11件

かんたん・セキュアにデータ連携(EAI)を実現できる「IIJクラウドデータプラットフォームサービス」は、使い方が無限大。本企画では、具体的にどんな活用方法があるのか、開発者が実践してみせます。今回のテーマは「データのマスキング」です。

目次
  1. 機微情報を扱う上でマスキングは必須条件
  2. 連携アダプターは90種類以上。ルール設定もノンプログラミング
  3. マスキングしたいフィールドを選んでプロパティを設定するだけ
  4. オンプレミスのデータマスキング、開発検証用のテストデータ作成もかんたんに
あらゆるデータを“かんたん連携(EAI)”
サービスガイドブック
ダウンロード(無料)

登場人物

IIJ
クラウド本部
プラットフォームサービス部長

鈴木 透

IIJ
クラウド本部
プラットフォームサービス部 プラットフォームサービス課

佐藤 陽平

機微情報を扱う上でマスキングは必須条件

近年ますますクラウド活用が進んでいます。一方で、個人情報などの機微情報は外部のクラウドに出しづらいという課題もありますよね。「マスキング」でこれを解決できるということですか?

鈴木

はい。マスキングとは、データの全体や一部を、本来のデータとは別の数字や文字列に置き換えることです。
例えば、顧客情報一覧にはお客様の氏名、住所、電話番号、会員番号などが登録されています。これを第三者に見られたり、不正に入手されたりすると悪用される恐れがありますよね。しかし、マスキングすれば、元データの内容を第三者が見ることはできません。情報セキュリティやプライバシー保護の観点からマスキングの重要性が高まっています。

法律改正の影響もあると聞きましたが、そうなんですか?

佐藤

はい。2022年4月から施行された改正個人情報保護法では、本人の特定ができないように加工した場合、その本人の同意なしに情報の利用ができるようになりました。機微情報を匿名化しても、それ以外の属性情報があれば統計データとしては有用です。MA(マーケティング・オートメーション)やBI(ビジネス・インテリジェンス)、CRM(顧客管理システム)などによるデータの分析・活用の幅が広がります。

そうなんですね。具体的にマスキングを使ったデータ活用の例も出てきているのでしょうか?

佐藤

はい。例えば、とあるECサイトを運営されているお客様ですと、以前は個人情報を含む顧客データを外部の分析基盤に置けなかったそうです。今ではマスキングによってそれが可能になり、社内の様々な部門でセキュリティリスクを気にせずにデータを利活用できるようになったそうです。

連携アダプターは90種類以上。ルール設定もノンプログラミング

IIJクラウドデータプラットフォームサービス」を使えば、かんたんにデータをマスキングできるそうですね。

佐藤

一般的には、マスキングするためには、独自にルールを定めてプログラミングしたり専用ツールを使う方法がありますが、どちらもそれなりに手間とコストがかかります。
しかし、このサービスには提供機能の1つとしてマスキング機能がもともと備わっているんです。これを利用すれば、プログラミングや専用ツールは不要です。様々なSaaSやデータベースに対応した90種類以上の連携アダプターがあり、図1のように、アイコンを並べるだけで素早くかんたんにデータフローを作成できますよ。

図1:データ連携のフロー

マスキング機能を利用する上で、何か条件はありますか?

鈴木

Word文書の情報などフリーテキストは対象外ですが、CSVファイルやデータベースのレコードなど「行」と「列」で構成されるデータならマスキング可能です。
百聞は一見に如かず。早速、マスキングの手順を紹介しましょう!

マスキングしたいフィールドを選んでプロパティを設定するだけ

最初にどんな作業を行うのですか?

鈴木

まず、どのデータの何を、どのようにマスキングするかを決めます。今回は、サービスに連携済のCSV形式の顧客情報ファイルに対し、電話番号の下4桁を「*」でマスキングしてみましょう。
図2のように、マスキング前の顧客情報ファイルには生のデータが記録されています。

図2:マスキング前の個人情報CSVファイル

このファイルを選択し、図3のようにマッピング設定画面を開きます。

図3:マッピング設定画面

画面左側のフィールド項目から画面右側のフィールド項目へ矢印がつながっていますね。これは何ですか?

鈴木

左側がマスキング前、右側がマスキング後を表しています。マスキングしたいフィールド項目を選択すると、図3のように矢印が変更されアイコンが表示されます。このアイコンを選択すると、図4の右側にあるプロパティ設定画面が開きます。

図4:プロパティ設定画面

このプロパティ設定画面でマスキングのルールを設定するわけですね。

鈴木

はい、そうです。今回は操作説明のデモなので、「再現性」は「いいえ」を選択しましたが、「はい」を選択すれば、データの論理的特性を維持できます。これについては後で詳しく解説しますね。

分かりました。「ルール」の項目では、どのようにマスキングするか選択できるということですね?

佐藤

その通りです。今回は「一部置換(後方から)」を選択してみますね。そして「引数」の項目がありますが、これは対象フィールドのどこをどのようにマスキングするかを定義する変数のことです。今回の場合、電話番号の下4桁を「*」でマスキングするので、引数1は「4」、引数2は「*」を指定します。「閉じる」をクリックすれば設定は完了です。

「引数」にはどんな値を入れられるのか決まっているのですか?

佐藤

それはルールごとに異なりますが、ヘルプページもあるので、何を入れればいいか分からない、ということはないと思いますよ。

なるほど。それは安心ですね。

佐藤

最後に、確認のためマスキング後のファイルを開いてみましょう。図5のように電話番号の下4桁が設定通りに「*」でマスキングされていますね。

図5:マスキング処理後の個人情報CSVファイル

オンプレミスのデータマスキング、開発検証用のテストデータ作成もかんたんに

え、もう終わったんですか!?本当にかんたんですね。

佐藤

はい。今回はデータを連携した状態から始めましたが、オンプレミス環境と接続されていれば、オンプレミスのデータもマスキングできますよ。
マスキングしたデータは、ファイルとして出力できますし、SaaSをはじめとする様々なクラウド環境にそのまま連携することもできます。

鈴木

先ほどお話した、元データの論理的特性を保持できるのも特徴です。
データの集計や分析には、データを一意に識別するキーとなる項目が欠かせません。典型的なのは、ユーザIDのような数字の羅列で作られた識別番号ですね。ユーザ名やメールアドレスの場合もあります。
一見、ユーザIDもメールアドレスも数字や文字の羅列でしかないのですが、メールアドレスは文字列に名前が含まれていたり、ユーザIDも関係者が見れば容易に個人を特定できてしまうため、利用ケースによっては厳重に取り扱うべき情報です。
このサービスのマスキング機能は、項目の一意性や、テーブル間のキー項目の関係性を維持したまま、別の数値や文字列に置き換えるマスキングが可能です。

図6:参照整合性の維持

これができることで、外部に見せたくない情報を秘匿化しながらも、集計や分析に利用できるデータを作成できるというわけです。

なるほど。データ間の関係性が分からなければ、分析のしようがないですからね。非常に重要な機能ですね。

鈴木

そうですね。従来、こういったデータマスキングは専用ツールの導入や自社でプログラム開発をして実現するものでした。このサービスではデータ連携(EAI)の一機能としてノーコードツールから利用できる仕組みになっているので、かんたんに実現できます。

今回紹介された方法以外のルールでもマスキングできますよね?

佐藤

もちろんです。今回ご紹介した方法は対象データの一部を置き換える「一部置換」ですが、そのほかにも「全置換」や「ランダム化」など豊富なルールでマスキングできますよ。

最後に、マスキングの“賢い”使い方を教えてください。

鈴木

冒頭で紹介したようにMA、BI、CRMなどで活用すれば、データから様々な知見が得られます。
それだけでなく、本番データと同様の量とバリエーションのテストデータをかんたんに作成できるので、アプリケーションの開発・検証も大幅に効率化できます。テストのためのデータ準備に多くの時間と労力を費やさずにすみます。
マスキングを活用すれば、データ活用の幅が大きく広がりますよ!