このところ、文科省・厚労省・経産省の3省合同会議「医学研究等における個人情報の取扱い等に関する合同会議」*1を傍聴している。これは、昨年11月23日の日記「ゲノム情報医療等実用化推進タスクフォースを傍聴してきた」で書いていた件の、解決に向けた作業会議である。
昨年のタスクフォースで示された課題は、個人情報保護法の改正により、「個人識別符号」にゲノム情報の一部が政令で指定される見通しであることから、これまでそれを非個人情報として扱ってきた「ヒトゲノム・遺伝子解析研究に関する倫理指針」や「人を対象とする医学系研究に関する倫理指針」のルールに見直しが迫られるというものであった。
しかし、11月23日の日記で「議論の背景(連結不可能匿名化の個人識別性)」として書いていたように、課題はそこだけではない。向井副政府CIOからの指摘が出ていたように、個人識別符号に指定されるか否かに関わらず、見直しが迫られるのであり、これまで厚労省系の指針の一部において、氏名等さえ削除すれば個人情報でなくなる(よって、本人同意なく第三者提供できる)かのような、誤った法解釈を前提として書かれている規定の見直しが迫られたものだった。
この課題の解決は、この3年にわたる個人情報保護法制立直しの大詰めとなる局面である。ちょうど3年前、「破綻している日本のデータプライバシー法制」という日記を書いて筆を置いた。このとき「破綻している」としていたのは、Tポイント事業における履歴データの取扱いについてCCC社から得た以下の回答について述べたものであった。そしてその直後、JR東日本がSuicaの乗降履歴を仮名化しただけで日立製作所に提供していた事案が発覚し、そのときもこれと同じ理屈で合法だとされたのであった。今から思えば、日本の個人情報護法制が瓦解する危機の第1波*2が押し寄せてきた時であった。
回答2
(略)第三者提供時において、提供元と提供先のいずれを基準にして個人識別性を判断すべきかについては、現段階では複数の解釈があることは承知しているが、本人の同意なき第三者提供が禁じられている趣旨は、通常、個人データと他のデータとの結合、照合等が容易であり、本人の予想外の個人データが流出することによる、本人の予想を超えた権利の侵害の可能性を避けるものと理解している。この趣旨を鑑みれば、提供先において個人識別性を取得する可能性がなければ、その趣旨に反しないと解釈しているし、現にその旨を明記する岡村久道弁護士等の学説などもある*2。当社において、提供に先立ち、あえてT-IDを置換したコードを作成しているのは、提携先において個人識別性が獲得されることがないのを確実とするためのものである。
破綻している日本のデータプライバシー法制, 2013年6月30日の日記
このときのCCCとJR東日本の理屈は、医学・医療系の分野で普及していた「連結可能匿名化」もしくは「連結不可能匿名化」を真似たものだったのだろう。医学・医療系の分野でそれが許されるなら、民間の一般の利用目的においても同様に許されるという理屈である。
そのような理屈がまかり通るなら、ありとあらゆる人々の詳細なプライバシーデータが、氏名さえ削除すれば野放図に転々流通させてかまわないということになってしまう。これにNo!を突き付けたのが、Suica事案に対する5万5千件ものオプトアウトであった。医学・医療分野でそのような提供が認められているのは、野放図な転々流通ではなく、一定の利用目的の範囲内で、一定の範囲の提供先に限定されて利用されることが社会的に十分に期待されるからであって、一般の民間事業とは一線を画すものだからだろう。
これが個人情報保護法の解釈ではどうなのか。CCCの回答では「複数の解釈があることは承知している」とされていたが、2013年10月に消費者庁が提供元基準を明言し、2015年の通常国会で、個人情報保護法改正の審議の中で、政府見解は従前より一貫して提供元基準であったことが明確にされた。これにより、まず「連結可能匿名化」については、提供元において非個人情報化には当たらないことがはっきりした。CCCも、2014年8月の発表で、オプトアウトを受け付けるとして、個人データの第三者提供に当たるとする解釈に変更していた*3。
一方、本家本元の「連結可能匿名化」は、2014年の文科省・厚労省による指針見直し(「疫学研究に関する倫理指針」と「臨床研究に関する倫理指針」を統合した「人を対象とする医学系研究に関する倫理指針」の制定)で、提供元において個人情報に当たることが意識されていた様子があった。これについては、2014年9月7日の日記「医学系研究倫理指針(案)パブコメ提出意見」に書いている。
残る問題は「連結不可能匿名化」であった。2013年のSuica事案においても、批判が噴出した後になって、対応表を捨てるとJR東日本が言い出しており*4、これが「連結不可能匿名化」に相当するものであり、個人データの第三者提供に当たらないのかが論点となっていた。
「連結不可能匿名化」とは、指針が定義する「匿名化」処理のうち、「連結可能匿名化」とは異なり、加工後のデータと元データとの対応表を残さないものを指す。ここで、加工後のデータと元データとの対応関係は、対応表がなければ照合不可能なのかが問題となる。名称は「不可能」と言うけれど*5、実際には、データの内容が詳細なものであれば、元データとの「データセットによる照合」が可能な場合がある。そのような「データセットによる照合」を、個人情報保護法における容易照合性として認めるのかが論点となる。これについて、直近では「匿名加工情報は何でないか・中編(保護法改正はどうなった その3)」に書いた。
元データとの「データセットによる照合」を容易照合性として認めるかは、未だ公式見解が出ていない。改正法立案担当者らによる解説書(瓜生和久編著, 一問一答 平成27年改正個人情報保護法, 商事法務, 2015年12月)にはこれに関する記述がなく、「匿名加工情報は何でないか・中編」では、「法律時報」88巻1号の記事に立案担当者との質疑応答の様子が掲載されているものが唯一だとした。その後、新たに、「法律のひろば」2016年5月号の濱島秀夫元内閣官房IT総合戦略室参事官の記事で、以下のように明確にこの点に言及されたが、これは元参事官としての個人の見解にとどまっている。
設例2は、移動履歴の蓄積による復元のケースである。個人情報データベースのDB/Aから氏名を削除して、加工用情報DB/Bを作成した。DB/B単体でみれば、特定の個人は識別できない。しかし、個人情報取扱事業者がDB/Aを見れば、一部のデータセットが一致しているので、これは日興太郎のものとわかり、DB/Bの個人情報を復元できてしまう。したがって、DB/Bを匿名加工情報にするには、加工用情報DB/Bにおいて氏名が復元できないように入場・退出日時を丸める(グルーピング)などの措置をとる必要がある。もっとも、一般に移動履歴は蓄積が進めば進むほど、個人情報の復元リスクは高まるため、より多様な措置が必要となると考えられる。(略)
なお、設例1及び設例2の加工用情報DB/Bの情報は、それぞれの個人情報取扱事業者(作成者)において容易照合性のある個人情報である。したがって、(略)
濱島秀夫, 匿名加工情報への期待, 月刊法律のひろば Vol.69 No.5, ぎょうせい, 2016年4月
そして、6月3日には、個人情報保護委員会が、匿名加工方法基準の委員会規則制定に向けて、「匿名加工情報に関する委員会規則等の方向性について」を示したが、この中でも「データセットによる照合」のことが触れられていない。また、4月の行政機関法改正での国会審議でも、この論点を踏まえた議論がなかった。
つまり、「ちょっと個人情報保護委員会しっかりしてよ!」という状況*6であった。
そういう状況で、「医学研究等における個人情報の取扱い等に関する合同会議」(以下、合同会議)はどのように展開していくのか、このままでは抜本的な見直しに至るのは無理かもしれないと心配していた。
ところが、合同会議第2回会合で、眠気が吹っ飛ぶ発言が委員から飛び出した。
2点目です。この「個人情報保護法等の改正に伴う主な論点」の8ページの匿名加工情報の取扱いの所です。現在のゲノム指針の匿名性の定義からきちんと見直したほうがいいと思っています。特に、連結可能匿名化という概念が入っているのですが、改正法ではなくて現行の個人情報保護法に照らしても、個人情報の定義から外れないとしか読めない説明がされています。連結不可能匿名化のところについてもきちんと書き分けていただかないと混乱します。対照表を取っている取っていないとか、対照表の有無だけ、あるいはそれを全く残さないということだけで俊別することができるわけではなくて、提供者基準で個人情報の定義はされていますので、そこはきちんと匿名化の定義のところから見直していただいた上で、匿名加工情報の取扱いをどうするのかとしていただきたいと考えております。
事務局が議題に挙げていなかったこの論点を、委員から提起されたのだ。どなたの発言?と委員席に目を向けると、なんと、我らが別所直哉せんせいのご発言ではないですか。どうしたの別所さん!
そして、先週23日に開かれた第3回会合では、連結可能/不可能匿名化概念の見直しの事務局案(案1~案3)が示されるに至った。
(※1)「匿名化」は、特定の個人を識別することができることとなる記述等の全部を取り除き、照合性も完全に無くし、個人情報に該当しないようにする処理。(例えば個人識別符号を含んでいる、もしくは希少な疾患などで特定の個人を識別できる場合、データを連結することで特定の個人を識別できる場合などは個人情報である)
(※2)「匿名化」は、特定の個人を識別することができることとなる記述等の全部又は一部を取り除く処理とする。なお、個人情報に該当しない情報は、特定の個人を識別できないものに限るとする。
(※3)「匿名化」は、特定の個人を識別することができることとなる記述等の全部又は一部を取り除く処理。(安全管理措置としての*7本人到達性の高い記述の削除する行為を指し、全て個人情報として取り扱う)
(※4)技術の進展等に伴い、(容易)照合性を完全に消失させることが困難な状況になりつつあるため、全て個人情報として取り扱うこととするもの。「非個人情報」を前提とした取扱い(同意手続不要等)ができなくなるため、IC等の手続に当たっては、個情法等の同意取得に係る例外規定等の適用可否を確認する必要がある。
(※5)研究に必要な情報を残した上で、氏名、住所等の本人到達性の高い記述を可能な限り削除し個人識別性を低減させる措置。当該措置を施した情報の位置付けは、対応表を保有しない場合でも個人情報となる。なお、研究に必要な情報にゲノムデータ等の個人識別符号が含まれる場合は、非個人情報化できなくなること等の留意点については、ガイダンスやQ&A等において示すこととする。
合同会議第3回配布資料3-1「指針見直しの方向性(案)(匿名化)」
これら案1~案3は、いずれも、これまでの指針の「匿名化」(「連結可能匿名化」及び「連結不可能匿名化」)の定義を変更するものとなっているようだ。
案1の「匿名化」定義は、「(※1)」に書かれているように、要するに、「個人情報」の正しい解釈に沿った意味での「非個人情報化」のことであり、案1で新たに設けられる「仮名化」が、「(※5)」に書かれているように、従前の現場で行われてきたであろう実際の連結可能/不可能匿名化に相当するものとなっている。
案2、案3の「匿名化」は、「(※2)」及び「(※3)」に書かれているように、照合による識別性を失わせることを求めず、「特定の個人を識別することができることとなる記述等の全部又は一部を取り除く処理」という、要するに、情報公開法6条2項の部分開示に似たもの*8で、これも、従前の現場で行われてきた連結可能/不可能匿名化に近いものということであろう。
案1の「仮名化」と、案2の「匿名化」の多くの場合(表の右の列)は、「個人情報」の正しい解釈上、提供元において個人情報に該当するものとなる。これは、これまで「連結不可能匿名化」と呼んでいたものついても該当するのであり、現行のゲノム指針が「個人情報を連結不可能匿名化した情報は、個人情報に該当しない。」と明言しているところを撤回する趣旨の案だということになる。
ということは、事務局案は、元データとの「データセットによる照合」を容易照合性として認めることを前提としていると推察される。ただ、事務局資料にはそのことが明記されていない*9。
この事務局案に対する委員の反応は、総じて反対とする声はなく、難しすぎてよくわからないから次回でもっとわかりやすく整理してほしいというような声が相次ぐ形となった。
事務局の整理が今ひとつ明確なものとならないのは訳アリだと思われる。なぜなら、今回の見直しの根源は、これまでの指針が個人情報保護法の解釈を誤っていたのを改めるところにあり、まずはその誤りを認めることから始めなければ、すっきりした説明とならないところ、役所としては「間違っていました(テヘヘ)」とはなかなか言い出せない*10からだ。
指針が法解釈を間違っていたと指摘するには、元データとの「データセットによる照合」のことを言わねばならず、その解釈の公式見解が出ていない段階では説明が難しい。だが、条文レベルで指針の間違いを指摘できることに最近になって気づいた。2年前の「医学系研究倫理指針(案)パブコメ提出意見」のときには見落としていたが、指針の「匿名化」の定義は以下のようになっていて、明らかに誤りがあると指摘できる。
医学系研究倫理指針:
特定の個人(死者を含む。以下同じ。)を識別することができることとなる記述等の全部又は一部を取り除き、代わりに当該個人と関わりのない符号又は番号を付すことをいう。なお、個人に関する情報のうち、それ自体では特定の個人を識別することができないものであっても、他で入手できる情報と照合することにより特定の個人を識別することができる場合には、照合に必要な情報の全部又は一部を取り除いて、特定の個人を識別することができないようにすることを含むものとする。
ゲノム研究倫理指針:
提供者の個人情報が法令、本指針又は研究計画に反して外部に漏えいしないよう、その個人情報から個人を識別する情報の全部又は一部を取り除き、代わりに当該提供者とは関わりのない符号又は番号を付すことをいう。資料・情報に付随する情報のうち、ある情報だけでは特定の人を識別できない情報であっても、各種の名簿等の他で入手できる情報と組み合わせることにより、当該提供者を識別できる場合には、組み合わせに必要な情報の全部又は一部を取り除いて、当該提供者が識別できないようにすることをいう。匿名化には、次に掲げるものがある。(略)
このように、いずれの指針も、個人情報保護法の「個人情報」定義の裏返しを「匿名化」と規定して、「個人情報」に該当しないものとしようとした意図が読み取られる。前半の「……を取り除き」の部分は、個人情報定義の「当該情報に含まれる……その他の記述等により特定の個人を識別することができるもの」の裏返しであり、後半の「……であっても……場合には……」の部分は、個人情報定義の「(他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む。)」を裏返したつもりだったのだろう。
ところが、後半が裏返しになっていないのである。法律は「他の情報と容易に照合することができ」としているのに、指針では、どういうわけか「他で入手できる情報」との照合に限定してしまっている。つまり、自組織内の元データとの照合は問わない形になっており、個人情報保護法の「個人情報」該当性を失わせるものにはなっていないのである。
どうしてこうなったのか。おそらく、指針にこの定義が最初に設けられたとき、法律の「他の情報」を解釈する際に、自組織内の元データとの照合のことが全く念頭になく*11、「他の情報」の意味をわかりやすくしようとの親切心で余計な文言を付け加えたものではなかろうか。
もしくは、個人情報該当性の単位を、組織単位ではなく、取り扱う人(従業者)単位で捉えていたために、「他で入手」の主体を従業者として想定して、組織内に元データがある場合であっても従業者が元データを「入手」できない状にあれば個人情報に当たらないと解釈していたのかもしれない。法律上は組織単位であるので、このような考え方もまた誤りである。(これについては、「Q14問題とは何か(パーソナルデータ保護法制の行方 その9)」で書く予定。)
事務局資料は、ここの誤りについて触れていないが、案1の「匿名化」の定義「(※1)」を見れば、従来の定義とは変えていることがわかる。定義を変えるからには理由が必要となるところ、事務局資料は、その必要性を次のように位置付けている。
合同会議第3回配布資料3-1「指針見直しの方向性(案)(匿名化)」
- 現行指針では、匿名化された情報は、対応表を保有しない機関においては個人情報に該当しないとされている。しかし、改正個人情報保護法の施行後に、ゲノムデータの全部又は一部が個人識別符号に位置付けられた場合、研究に用いられる情報にこれらの個人識別符号が含まれるときは、従来の匿名化処理を行っても非個人情報化できなくなる。
- また、現行指針では、「照合」に必要な情報の全部又は一部を取り除いて、特定の個人を識別することができないようにしなければ、匿名化したことにならないとしている。改正個情法等において、匿名加工情報(非識別加工情報)の概念が導入され、当該情報への加工の基準が示されるため、匿名加工(非識別加工)より個人識別性の低減度合いが低い匿名化処理を、非個人情報化とみなすことはできなくなる。
1つ目はよいとして、2つ目の点。なるほど、「匿名加工より個人識別性の低減度合いが低い匿名化処理を、非個人情報化とみなすことはできなくなる」とは、なかなかうまい理由だ。これならあくまでも法改正に伴って必要となる改正なのだという位置付けにできる。ただ、残念ながら、「非個人情報化とみなすことはできなくなる」は、改正法の匿名加工情報の解釈として正しくないと指摘せざるを得ない。
なぜなら、「匿名加工情報は何でないか・前編(保護法改正はどうなった その2)」の「匿名加工情報の定義に該当するからといって36条~39条の義務が課されるわけではない」で述べたように、「匿名加工情報」の制度は、従前の匿名化手法を制限するような規制強化ではないとされているからである。
合同会議での事務局の説明では、もう少しうまい言い方がされていた。厚労省の事務局は、「ちょっと難しい言い方になるが、匿名加工基準が示されたときに、今まで、研究の場合に匿名化と言って名前・住所を適宜削除していたものが、それで非個人情報としていたのが、匿名加工情報より粒度の細かい情報で残っていた場合は、個人情報でないと言い切れるのかという問題が出ている。」と説明していた。
この説明でもまだ苦しい。結局、これまで「匿名化」と称して現場で行われていた加工方法が、多くの場合で非個人情報化になっていなかった実態を踏まえて、それが非個人情報化になっていない理由を示さないと、なかなか理解されにくいだろう。
そのためか、医師会の委員から、資料にある「非個人情報化」が何なのかがわからないので、再度整理してほしいとする指摘が出ていた。これに対して座長から回答を促された事務局は、「非個人情報とは個人情報に該当しないという意味だが、何が個人情報に該当しないかをこちらとしても示しきれないところが悩ましいところだ。少なくとも集計表といったものは非個人情報だと考えている。」と述べるにとどまった。
ここはやはり、元データとの「データセットによる照合」のことを言わなければ、理解されないだろう。
そんな中、別所委員からこんな発言が飛び出した。
混乱の原因は定義のわからないものが多いことだと思うのです。連結可能匿名化も特殊な言葉で、他で存在していないものです。用語は法律用語に全部統一していただけないか。匿名加工はちゃんとした法律用語であって、行個法の方でも新しい定義が出た。これらは範囲が明確で、それ以外の言葉を使うこと自体が混乱を招くと思っている。法律に戻れば大丈夫なのであり、匿名化とか個人情報は、法律用の用語にきちんと平仄を合わせていただきたい。なので、連結可能匿名化とか連結不可能匿名化という用語もやめていただきたいと思っている。そもそも特別な定義をガイドラインでできるものではなく、法律の枠を超えることはできないのだから。そこをきちんとしていただきたいと考えています。
もう一つは、混乱が起きているのは、ゲノム情報が個人識別符号になるかどうかということだけではなくて、その前の段階があって、今まで対照表のありなしが議論のポイントになっていましたが、実は、対照表のありなしは意味がないということを、みなさんご理解いただいた方がいいのではないかと思っています。対照表が仮になかったとしても、元々のデータが、特定の人についてユニークなデータだった場合には、名前を外そうと、住所を外そうと、どうしても個人情報なのであり、それは現行でそうなんですね。ですので、対照表があるとかないとかで個人情報に該当するしないという概念が、個人情報保護法にはないのですよ。そういうことの誤解がある。仮にゲノム情報が個人識別符号に該当しないとしたとしても、ユニークな情報の集まりなものについて言うと、個人情報として取り扱わざるを得ないのだということをですね、まずそもそもの前提として、ご理解いただく必要があるんではないかと思っているんです。これ、たぶん、私が解説すべきところではないんですけど(笑)、個人情報保護委員会の方、間違っていたらご訂正ください。
医学研究等における個人情報の取扱い等に関する合同会議, 第3回 (議事録未公表につき、傍聴時メモより)
前半には全く賛成できないが(後述)、後半、元データとの「データセットによる照合」のことが述べられている。内容も正確だ。どうしちゃったんだ別所さん!(笑)
これに対して個人情報保護委員会事務局からのコメントはなかった。ただ、その後、議論が続き、横野委員から、「表の左列の非個人情報というのは、改正法の匿名加工情報とは同じものなのか、別のものなのか。」との質問が出た際に、厚労省の事務局が、「これは個人情報保護委員会に教えていただきたいところだが、「匿名加工情報 = 非個人情報」ではないと理解している。今まで使っていた連結不可能匿名化が匿名加工情報とどういう関係性を持つかもかなり議論があるかと思う。非個人情報とは何かというときに、少なくとも集計表みたいなものは個人情報ではないが、どれくらい個人情報を削ったら非個人情報かというのは、なかなか難しいところがある。」と答えると、個人情報保護委員会事務局の山本参事官から次の発言があった。
慎重に答えなければならないが、基本的に先ほど別所委員がおっしゃっていただいたことと同じことを言いたい。個人情報保護法における個人情報というのは、特定の個人を識別できるものとしている。個人情報かどうかは、その性質・性状による。具体的にどのような枠組みで理解するかについては、多種多様でありなかなか難しいというのが、先ほどの市川補佐の説明かと思う。ここの考え方は、さきほど別所委員おっしゃられたように、個人を識別できるゲノムデータが仮にあったとしたら、名前が山本という個人かは別にして特定の個人がわかるから、個人情報であるということになるのが、まずその1である。その2として、今改正で匿名加工情報というものができたが、これは、個人情報を、特定の個人を識別できないように加工したものを、匿名加工情報と、少し縮めて述べているが、そういう概念である。例えば、「個人情報保護委員会事務局参事官の山本」という情報があれば私のことだと誰しもわかるが、この役名、名前とかを削除していく、削除したものを、削除するような加工を施したものを匿名加工情報としている。なので、資料3-1の表については、対応表の有無という問題も、匿名加工のような具体的な加工プロセスも典型的な一例として意識していただく必要がある。ただし、個人情報というのは「個人に関する情報」というその属性、性質に着目する必要があるというそもそものところも意識していただく必要がある。
医学研究等における個人情報の取扱い等に関する合同会議, 第3回 (議事録未公表につき、傍聴時メモより)
誠に残念なことであるが、個人情報保護委員会事務局は、この質問に答えることができなかった。「その1」の点はよいが、「その2」について、答えようとして答えることができていない。ただ、「別所委員のおっしゃる通り」と2回も発言されたのだから、もう、別所委員の指摘通りということでいいではないか。
この直後に、医師会の委員から発言があり、NDBでもハッシュ関数をかけて連結可能匿名化をしているが、非連結にしても、別所委員の指摘のような状況が実際に起こっていることがわかってきたと、要するに、別所委員指摘のケースは個人情報であると言うべきだと、肯定する発言があった。この点に反対する声はなかったので、この点については合意に達したと言えるのではなかろうか。*12
この考え方が事務局資料に明記されなかったのは、個人情報保護委員会のお墨付きがない限り、事務局から独自に言い出すわけにはいかないということであろう。そうすると、個人情報保護委員会がなすべきことは、別所委員の解釈と同じことを、公式見解として出すことだ。
非個人情報となる条件を示せというのが難しい問いであるのは理解するところだが、非個人情報とならない条件の一つを示したのが別所委員の指摘である。そうした条件を列挙していくことでしか、境界は明らかになっていかないのだから、まずはこの条件を公式に示すことが最低限のできることであろう。
6月3日に出た個人情報保護委員会の「匿名加工情報に関する委員会規則等の方向性について」を見ると、次のように書かれており、匿名加工基準の委員会規則には、ほとんど何も基準を示さないつもりらしいことがわかる。
2.委員会規則及びガイドライン等の記載の方向性
(1)規則における規定について
①加工に関する基準について(第36条第1項)
(ア)本項の趣旨本項の規則は、匿名加工情報が特定の個人を識別すること及びその作成の元となった個人情報を復元することができないものであることから、そのような状態とするために必要な加工手法その他の必要な事項を定めるものである。
(イ)規則で定める基準の方向性
基準では、匿名加工情報を作成する事業者全てに共通する一般的な加工手法その他最低限の規律を定めることとし、これに従って事業者が具体的にどのような加工を行うかについては、取り扱う個人情報、取扱い実態等に応じて定めることが望ましいことから、認定個人情報保護団体が作成する個人情報保護指針等の自主的なルールに委ねることとする。
このようにせざるを得ないのは理解できるにしても、「最低限の規律」として、2条9項の「匿名加工情報」に該当させるための非個人情報化には、別所委員の指摘で言うところの「特定の人についてユニークなデータ」、「ユニークな情報の集まりなもの」とならないよう加工することを最低限の条件の一つとして、委員会規則に明示的に規定してはどうか。それが、我々の言葉で言うところの、元データとの「データセットによる照合」のことである。
これまで、個人情報保護委員会(発足前においては内閣官房IT総合戦略室)が、「データセットによる照合」を容易照合性の一つと認めているのか認めていないのか、ずっと謎なままで来ていた。今年の行政機関個人情報保護法の改正においても、その点を個人情報保護委員会がはっきりさせないことが遠因となって、行政管理局が混乱させられたようにも見えた。
もっとも、これをはっきりさせられなかった事情はわからなくもない。もし、「データセットによる照合」を容易照合性の一つと認めれば、仮名化しただけでは(多くの場合)非個人情報とならないことになるから、特に、医学・医療の領域で「連結不可能匿名化 = 非個人情報化」としてきたことが誤りだったということになり、この領域の業務が立ち行かなくなることが懸念され、そう易々と認めるわけにはいかないという面はあったのだろう。
だが、上記のように、今回の3省合同会議で、仮名化は非個人情報化ではないとし、指針のルールを抜本的に見直そうと前進し始めたのである。ならば、もはやそのうような懸念はないのだから、むしろ見直しを前進させるためにも、この際、その前提となる「データセットによる照合」の容易照合性を、個人情報保護委員会が公式に認めるべきである。
合同会議第3回では、案1~案3のどれにするかについて、若干の議論があった。医師会の委員からは、「頭を整理すれば、案3しかない」との声が挙がった。その理由ははっきりしないが、「別所委員のおっしゃったことは案3だと思う。」との発言もあったことから、全ての場合においてk=1になるとの誤解*13があるのではなかろうか。
あるいは、もしかすると、案1の「匿名化」の解釈にブレがあって、そのせいで混乱が生じているのかもしれない。
案1の「匿名化」の説明は、「(※1)「匿名化」は、特定の個人を識別することができることとなる記述等の全部を取り除き、照合性も完全に無くし、個人情報に該当しないようにする処理。」となっている。当初私は、これを、提供元において非個人情報化する処理のことであり、個人情報保護法の「個人情報」定義のちょうど裏返しを書いたものだと思っていた。しかし、改めて見ると、「照合性も完全に無くし」とあり、完全にとはどういうことだろうか?という疑問が湧く。もしかすると、どこへ提供しても提供先で照合性が完全に無くなることを求めているのかもしれない。そうだとすると、続く文の「個人情報に該当しないようにする」というのが、提供先においても、どうやっても個人情報に該当するものとなり得ないようにするという意味なのかもしれない。
つまり、図1の表の左列が「非個人情報」とされているのは、「提供元において非個人情報」という意味ではなく、「どこにおいても必ず非個人情報となるもの」という意味なのかもしれない。そう解釈すると、その類推から、案3の左列が「なし」というのは、そんな場合はほとんどありえないから「なし」に等しいということと理解できる。実際、「なし」の注釈「(※4)」にそれらしきことが書かれている。医師会委員の発言は、そういう意味で述べられたのではかろうか。
しかし、事務局の説明からすると、そういう趣旨ではないようにも聞こえた。
事務局資料には続きの資料3-2「指針見直しの方向性(案)(インフォームド・コンセント等)」がある。こちらに、同意などの手続きルールの見直し案が示されており、案1~案3のどれを採用するかでルールがどう変わるかが検討されている。案1を採用すると変更点が最も少なく、案3を採用すると変更点が最も多いというものになっている。
案3を採用すると、これまでの指針のルールの②と③を削除することになるという。つまり、「手続不要」としていたルールの場合分けの全部をなくすということだ。②と③は、これまで、連結可能/不可能匿名化すれば非個人情報になるという前提で「他機関への提供」を「手続不要」としていたものであり、これをやめるということになる。
図1の「匿名化」定義の場合分けは、こちらの手続きルールをどうするかを出発点として見た方が趣旨を理解しやすい。「手続不要」としていた②と③の場合分けをもうやめると決めてしまえば、図1の左列は、分類上不要となるので、案3では「なし」と書かれているのだと理解できる。
つまり、図1の案3で左列が「なし」となっているのは、「そのような情報は存在しない」という意味ではなく、「指針のルール上区別を要しない」ということだろう。実際、案3の注釈「(※3)」には「全て個人情報として取り扱う」と書かれており、法的な個人情報該当性の評価から離れて、「個人情報とみなして取り扱う」という意味であろう。
それを踏まえて、案2について見てみると、案2は、手続きルールの場合分けに「特定個人を識別できない」か否かを分岐条件としている。これの定義がはっきりしない(図1には「特定の個人を識別できないものに限る。」としか書かれていない)が、事務局からの口頭説明では、案2のデメリットとして、「匿名化」処理をした後、提供に際して手続不要かを判断するには、処理後のデータが個人情報に該当するかの法的な評価が必要となる旨の説明があったので、これは「法律上の個人情報に該当しないもの」という意味だろう。
そうすると、図1の左列と右列は、案2では法的評価によって決まるのに対して、案3では法的評価に関係なく右列と「みなす」ということであり、案ごとに左列と右列の趣旨が異なっているわけで、このことが理解を難しくしている。
では、案1はどうなのか。右列の「仮名化」は、処理方法は「(※5)」に書かれている*14ものであり、その処理結果が法律上の「個人情報」に該当するかは、データの内容による。k=1となる場合が多いであろうが、k≧2となる場合もある。それにもかかわらず、「(※5)」には、「当該措置を施した情報の位置付けは、対応表を保有しない場合でも個人情報となる。」と書かれていて、常に「個人情報」だと言っている。
これをどう理解するか。医師会委員の発言にもあったように、事務局も「全ての場合においてk=1になると誤解」しているのかもしれない。あるいは、案3同様に、法的評価から離れて、「個人情報とみなして扱う」という意味ともとれる。これがどちらなのかが、資料からも口頭説明からもはっきりしなかった。
つまり、まとめると、第3回の整理ではっきりしていないのは以下の点である。
これらをどう整理するか。私の意見を述べると以下の通りである。
1.の点については、前記の通り、「(※3)」に「全て個人情報として取り扱う」と書かれているので、事務局の趣旨としても、後者ということでいいだろう。注釈「(※4)」が言っている「技術の進展等に伴い、(容易)照合性を完全に消失させることが困難な状況になりつつある」云々は蛇足だ。前者の解釈は法律論として乱暴すぎる。個人情報保護法はそこまでのことを求めてはいない。たしかに、昨年の改正法の議論の中で「照合性を完全に消失させることが困難な状況になりつつある」的な話が出てきたが、それは、匿名加工情報の制度を設けるに際して、再識別禁止義務の規定を設ける必要性の根拠として、可能性をゼロにできないという程度の意味で言われていたのであって、そこまで加工しない限り提供できないという趣旨のものではなかったわけで、そこを混同してはいけない。1.が後者の趣旨であるなら、この蛇足は書く必要がないし、書かない方が誤解を招かなない。
2.の点については、前者は誤解に基づくものと言えるので、後者とするしかない。「(※5)」の「個人情報となる」との記述は、「個人情報とみなして扱う」と書いた方がよい。「みなす」と書くわけにはいかないのであれば、案3の「(※3)」のように「個人情報として取り扱う」と書けばよい。(より正確に言えば、「一部の場合を除き個人情報となる。個人情報とならない場合であっても、個人情報として取り扱う。」といったところか。)
3.の点については、前者とするべきだ。後者のような加工を個人情報保護法は求めていない*15。改正法で新設される「匿名加工情報」でさえ、そこまでの加工を求めるものとはおそらくならないだろう。後者とした場合、はたしてどうすればそのような情報となるのかの確定が難しくなる。前記の通り、事務局も「何が個人情報に該当しないかをこちらとしても示しきれないところが悩ましいところだ」としていたわけで、後者だとこれが本当に難しくなる。ここを前者とすれば、法的評価と一致するので、「データセットによる照合」が容易照合性に当たることを認めれば、その意義はある程度明確にできるだろう。
このような混乱が生じるのは、指針でのルールの対象と法律上の客体とを1対1対応させようとして、ルールの決定と法律への適合性とをいっぺんに決めようとするからで、そこに無理が生じているのだろう。
ここで、前掲の別所委員の発言に「全く賛成できない」としたことが関係してくる。別所委員は、「用語は法律用語に全部統一していただけないか」と述べたが、私の意見は真逆だ。
むしろ、指針の用語(指針でのルールの対象を指す用語)は、法律用語とは別にして、独立したものとするべきと考える。「個人情報」の語すら指針では使わないのがよい。その上で、指針のルールがどのようにして個人情報保護法に適合するものとなっているかを、指針とは別の解説として書けばよいのだ。
つまり、この方法に従えば、案1を選択した場合、「仮名化」(2.の後者)の処理方法を定義して、指針のルールは「仮名化」の語を用いて規定する*16ことになる。その上で、各ルールが個人情報保護法に適合している理由を「個人情報」の語を用いて解説することになる。
このようにすれば、「個人情報とみなす」といった規定にしなくて済むし、指針のルールを策定する際に、法律上の「個人情報」概念に囚われすぎることなくある程度自由に検討することができる。
そもそも、指針の読者である研究実施者からすれば、何を知りたいかは、何を守ればいいのかという指針のルールそのものであって、それが個人情報保護法上どういう関係にあるかなどということは、普通は興味がないことで、指針の制定者に任せておきたいところだろう。これまでの指針は、法律の用語を用いて、「個人情報保護法を遵守する必要がある」などと書いていたものだから、見通しの悪いルールとなったばかりか、「何が個人情報なんだ!」といった不満が生じ、個人情報保護法に対する不信感さえ生じていた。
これを踏まえると、合同会議第3回配布資料3-1「指針見直しの方向性(案)(匿名化)」の4頁に書かれている、以下の案には大反対である。*17
照合性と容易照合性について
現状
現行の医学系指針において、個人情報の定義は「他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む。」と規定している。一方、匿名化の定義は「他で入手できる情報と照合することにより特定の個人を識別することができる場合には、照合に必要な情報の全部又は一部を取り除いて、特定の個人を識別することができないようにする」と規定している。このため、「特定の個人を識別することができない」情報の考え方が、指針内で整合していない。(なお、ゲノム指針における当該考え方は「照合性の可否」に統一されている。下記<現行指針における定義>参照)
このため、医学系指針における個人情報の定義を「他の情報と容易に照合する」から「他の情報と照合する」に見直すこととする。
合同会議第3回配布資料3-1「指針見直しの方向性(案)(匿名化)」
法律で民間部門と公的部門とで「容易に」のあるなしが異なるところ、指針もバラバラだったから、厳しい方の「容易に」なしに合わせるということと思われるが、むしろ、指針で「個人情報」の語を定義しないべきである。
指針の適用対象者には、独立行政法人と国立大学(独立行政法人等個人情報保護法が適用される)や私立大学(個人情報保護法の4章が適用される)、市民病院(その自治体の条例が適用される)等が含まれ、それぞれの法律・条例ごとに「個人情報」の定義が異なっている。それらに共通の指針を策定しているのだから、定義はこれら全部をカバーする最も広い範囲とするというのが、「容易に」なしに合わせるとする見直し案の考え方だろうが、そうやっていると、無用に厳しいルールとなっていくおそれがある。
だが、上記のように、指針で「個人情報」の語を用いずにルールを規定すれば、この問題を避けて通ることができる。ルールが各法律・条例に適合しているかは、解説で確認しておけばよいことだ。
ところで、もう一つ、事務局資料3-1にはおかしな点がある。資料の最初に出てくるこの図である。
この図では、提供先となる受領者「機関B」において、「非個人情報化された情報とみなすことができない」とされているが、元データが「※個人識別符号を含む場合」のときはそれで正しいが、「※匿名加工基準より個人識別性の低減度が低い匿名化処理による場合」のときは、正しくない。
後者を問題とするときは、提供元で元データとの照合ができるデータならば提供元において個人情報であるから提供に際して同意が原則となるという話であり、提供先の受領者でもそれが個人情報となるとは誰も言っていない*18。合同会議の第1回でも、提供先での個人情報該当性は提供元とは独立に判断されるとしていたはずだ。
これがただの誤記ならばよいのだが、どうもそうには見えない。図1の表の注釈を見ると、提供元で個人情報として提供したものは、提供先でも必ず個人情報となるのを前提としているように見える。特に、案1の「仮名化」と案3の「匿名化」は、提供先でも個人情報として扱うという趣旨で書かれているように見える。
これは、従来の指針が、連結可能/不可能匿名化したデータについて、その受領者に対しても安全管理措置義務を課していた*19ことと関係するかもしれない。
すなわち、これまでの指針は、連結可能/不可能匿名化されたデータの提供を受けた受領者にとって、それが非個人情報であるにしても、元が連結可能/不可能匿名化データであったからには、引き続き匿名化データとして扱うというルールになっていた。したがって、案1で「仮名化」概念を新たに設けるにしても、同様の性質を持たせる必要がある。
この点、案3や、案1の仮名化(2.の後者)を採用する場合、「個人情報として取り扱う」ということだから、不都合はない。つまり、受領者において、受領したデータが「個人情報」に当たらないものだとしても、指針のルールでは、「仮名化データ」としてルールの対象とするのである。
ここでも、やはり、「個人情報とみなす」とか「個人情報として取り扱う」と規定すると、「個人情報じゃないのに?」などと話がややこしくなるので、指針の規定には「個人情報」の語を用いず、「仮名化データ」で通して、法的評価は解説に任せるのがよいと思う。
このように整理すれば、矛盾のない図が書けるのではなかろうか。
さて、以上を踏まえて、案1~案3のどれを選択するかであるが、私の一推しは、どれからも少しずつ改変した案4(新規)である。
案1の問題点は、案1左列の「匿名化」は、現行の指針の「匿名化」に係る義務規定を維持したまま、「匿名化」の定義を変えてしまうというものであり、その変更された定義は、「非個人情報化」そのものであり、従前の現場での「匿名化」処理の実態からかけ離れているので、現場からの抵抗が強いと予想されることである。また、従前の現場での「匿名化」処理の多くは、案1で新設する「仮名化」に当たるわけだから、「仮名化データ」に係る義務規定に従うことになるので、現行の「匿名化」に係る義務規定は、あまり使われなくなると予想され、そのようなレアケースのためだけに、連結可能/不可能匿名化の概念を残すのは、複雑さが増すばかりで無益であるように思える。というか、それ以前に、連結可能匿名化については、提供元で元データと照合できるので常に個人情報なのであり、非個人情報化したものを「匿名化」としているのに「連結可能匿名化」というのは、定義矛盾となっており、ここは明らかにおかしい。案1では、連結可能匿名化は存在しないことになるはずである。
他方、案1の利点は、現場の処理の実態に即した「仮名化」を新たに定義することで、法律上の個人情報該当性から一旦離れて、取扱いルールを決めることができ、提供先の受領者にも統一したルールを課すことがシンプルに実現できそうなところにあるように思える。
これに対し、案2は、「匿名化」の定義を現場の実態に合わせて変更しつつ、現行の指針の「匿名化」に係る義務規定を維持するというものであるから、現場からの抵抗は抑えられそうなところが利点である。
案2の問題点を探してみると、図2のルールを見ると、結局「特定個人を識別できない」場合にのみ「手続不要」となっているから、「連結不可能匿名化」の概念はもはや不要であるように思える。端的に言えば、これまで非個人情報化の手段として「連結不可能匿名化」の概念を用いてきたが、実は非個人情報化になっていなかったということで改正するのであるから、もはやその概念は不要ではないかということである*20。さらに、図2の③のところ*21で、「連結可能匿名化」なのに「特定個人を識別できない」と条件付けしているのは、存在し得ないものを指していることになる*22。つまり、案2では、連結可能匿名化と連結不可能匿名化の区分は無用であり、単に、左列と右列の区別、すなわち「特定個人を識別できない」か否かだけで区別すればいいということになるはずだ。
対して、案3は、連結可能匿名化も連結不可能匿名化も、どんなデータでも「個人情報として扱う」というものである。これに対しては、さすがに反対の声が出るはずである。合同会議第3回でも、複数の委員から、非個人情報が世の中に存在しないとまでは言えないので、2つに分けざるをえないとして、案3には反対する意見が出た。
このように、いずれの案にも問題があるので、新たに案4を提案したい。
案4は、案1の右列の「仮名化」はそのままに、左列の「匿名化」を「非個人情報化」に変更する案である。なお、ここで言う「非個人情報化」は、提供元において個人情報に当たらなくするという意味(前記 3.の前者)である。これにより、現行指針の「匿名化」定義とその取扱いルールは一旦消えてなくなる。代わりに「仮名化」が従来の「匿名化」(現場での実態における)のことであるとし、その取扱いルールは、個人情報に該当するとみなして保護法に適合するルールとする。そして、左列に当たる「非個人情報化」したデータについては、「手続不要」のルールとする。
これは、案2の「匿名化」を「仮名化」に差し替えたものに近い(「匿名化」の定義と取扱いルールが消えてなくなるので、連結可能と連結不可能と区別もなくなり、前記の矛盾点が解消する。)が、違いは、案2ベースでは、「仮名化」したものについて、それが非個人情報に当たるときは、「手続不要」のルールとなるのに対し、案1ベースでは、個人情報として扱うとしている点である。ただし、案4では、「非個人情報化」を規定することから、「仮名化」かつ「非個人情報化」という状況が存在し得て、「非個人情報化」を優先することにより、仮名化に相当するデータ加工であっても、それが「非個人情報化」したものとも言えるときは、「手続不要」のルールを適用できる。
案3との違いは、「匿名化」を「仮名化」に差し替え、「非個人情報化」の規定を加えたものと言える。後者により、前記の「非個人情報が世の中に存在しないとまでは言えない」とされる案3の問題点が解消される。
案4で、加工の方法として、案2、案3の「匿名化」の方法(情報公開法6条2項の部分開示に近いもの)を採用せず、案1の「仮名化」の定義を採用するのは、もはや、個人情報該当性から離れて、安全管理措置のための加工方法の一つを規定しようとしているのだから、案2、案3の「匿名化」のような、個人情報定義の一部を残すことには、もはや意味がないので、それよりも、自由に決められる案1の「仮名化」定義の方が相応しいと考えた。
「仮名化」定義の加工方法(「(※5)研究に必要な情報を残した上で、氏名、住所等の本人到達性の高い記述を可能な限り削除し個人識別性を低減させる措置」)は、ちょうど、ICH(日米EU医薬品規制調和国際会議)の E15(ゲノム薬理学における用語集)(2007年)における「coded data」(日本で言う連結可能匿名化に当たる)の定義、「Coded data and samples are labelled with at least one specific code and do not carry any personal identifiers.」における、「do not carry any personal identifiers.」の部分に相当するものになっているように思える。「personal identifiers」は公式日本語訳では、「個人識別情報」と訳されている。「個人識別情報」という語もまた誤解を招きかねない(個人情報自体と混同されそうな)感じがしなくもないが、こうした国際的な用語に合わせていくことも重要だろう。*23
今年4月に採択されたEUの一般データ保護規則(GDPR)では、「pseudonymisation」(仮名化)の語が定義されており、これもちょうど、これまでで言う連結可能/不可能匿名化が該当するものとなっている。GDPRでの定義は、「‘pseudonymisation’ means the processing of personal data in such a manner that the personal data can no longer be attributed to a specific data subject without the use of additional information, provided that such additional information is kept separately and is subject to technical and organisational measures to ensure that the personal data are not attributed to an identified or identifiable natural person;」となっており、元データとの照合について、ICH E15のように「code」による方法に限定せず一般化して書かれているから、「データセットによる照合」のことも想定内のようにも見える。この定義では、分離されて扱われることと、技術的・組織的対策がなされることが定義中に含まれている。このような定義方法も見倣うべきところがあるかもしれない。
なお、GDPRでは、「pseudonymisation」を、processing of personal data の一形態としている点に注意したい。つまり、GDPRでは、仮名化は非個人情報化を意味するのではなく、あくまでも個人情報としての処理であって、安全管理措置として奨励される処理方法の一つとして規定されているにすぎない。
このように、やはり、国際的整合性からも、データの加工方法と個人情報該当性とは、初めから直結させて定義しようとするのではなく、加工方法の目的と定義がまず先にあって、それに対する個人情報該当性は後から評価するという形で進めていくのがよいように思える。
合同会議第3回では、改正法の「匿名加工情報」との関係も論点となった。委員の発言を聞いていると、案1~案3の「匿名化」と同じものと捉える委員も少なくないように見えた。
案1の「匿名化」は非個人情報化なので、改正個人情報保護法2条9項の「匿名加工情報」と同じといえばそうかもしれない*24。案2、案3の「匿名化」は、個人情報のまま(となることが多い)なので、「匿名加工情報」とは異なる概念である。案1の「仮名化」も同様である。
どの案を採用する場合も、「匿名加工情報」の制度は、指針が規定の中心とする「仮名化」の取扱いとは別のものであり、これまで指針に規定してこなかったものであるから、今回の指針改正で「匿名加工情報」のことを取り入れる必要性は薄いように思える。法改正に伴って規制強化がなされるなら、指針も合わせて強化ということになろうが、今改正の「匿名加工情報」の新設は、規制強化ではないとされているので、対応は必ずしも要しないはずである。
したがって、事務局資料3-3「指針見直しの方向性(案)(匿名加工情報・非識別加工情報)」に、「匿名加工情報等は指針の適用対象外とし、指針で上乗せの規制をしないこととしてはどうか。」とある点に賛成である。
続く段落には、学術研究機関の学術研究目的の場合が、個人情報保護法4章の適用除外となって、匿名加工情報に係る義務規定も適用されないからという理由で、「指針で最低限の上乗せの規則を求めてはどうか。」と書かれているが、これも、「匿名加工情報」の新設は規制強化ではないとされているのだから、へたに対応しない方がよいのではないか。改正法施行後に、この指針の適用領域において、「匿名加工情報」の制度がよく用いられるような事態になったら、そのとき指針に盛り込むことを検討するようにすれば足りるのではないだろうか。
*1 文科省の「ライフサイエンス研究における個人情報の取扱い等に関する専門委員会」と、厚労省の「医学研究における個人情報の取扱いの在り方に関する専門委員会」と、経産省の「産業構造審議会商務流通情報分科会バイオ小委員会個人遺伝情報保護ワーキンググループ」の合同会議。
*2 第2波については、2015年3月8日の日記「世界から孤立は瀬戸際で回避」参照。
*3 もっとも、それ以前にそもそも第三者提供自体を実はやっていない(一部を除いて)のではないかという話もある。詳しくは2015年11月21日の日記「CCCはお気の毒と言わざるをえない」参照。
*4 詳細は、日経コンピュータの「Suica乗降履歴データの外部提供で 問われるプライバシー問題――JR東日本に聞く」(2013年7月24日)参照。
*5 この「連結不可能」という用語は日本独自のもので、実際には不可能ではないものまで不可能と呼んでいるところに誤解の種があるように思える。この際、用語を「仮名化」に変更するのであれば、「連結不可能仮名化」とするのではなく、「非連結仮名化」などとしてはどうか。「連結仮名化」(linked pseudonymisation)と「非連結仮名化」(unlinked pseudonymisation)という語が実態に即しているのではないか。
*6 11月のタスクフォースで向井副政府CIOの発言があったのは、個人情報保護委員会が設置される前だったからで、1月以降は、改正法の所掌が個人情報保護委員会に移り、向井副政府CIOの出番はなくなっているようだ。
*7 図1の表の右列は「安全管理措置の一環」として書かれており、その趣旨が、表の直前の文章で、「情報漏洩時のリスクを低減するための安全管理措置として」と説明されているが、ここは、漏洩時のリスクだけではないだろう。ゲノム指針で、匿名化を担当する「個人情報管理者」と研究実施者を分けて、研究実施者に氏名等を持たせないようにしている趣旨は、「情報漏洩時のリスクを低減」だけでなく、研究実施者が研究対象データの本人を認識することがないようにという、プライバシー保護の趣旨もあるはずで、むしろこちらが主ではないだろうか。もちろん、それも安全管理措置の一つということになるが。
*8 異なるのは、情報公開法6条2項の部分開示では、「特定の個人を識別することができることとなる記述等の部分を除く」となっているのに対し、この案2、案3では、「……こととなる記述等の全部又は一部を取り除く」となっているから、ごく一部を取り除くだけで該当してしまう。情報公開法6条2項は、「全部を除く」とは書かれていないが、「……こととなる記述等の部分」というのは、特定の個人を識別することができなくなるまで必要な部分を取り除くという意味だろう。案2、案3の規定ぶりは、そうなっていないので、情報公開法に合わせた方がよいのではないか。
*9 いちおう、「(※1)」のところに書かれている、「希少な疾患などで特定の個人を識別できる場合、データを連結することで特定の個人を識別できる場合など」との記述が、そのことを言っているようにも聞こえるが、「データセットによる照合」の概念を説明するものとしては不完全であるし、「データを連結する」が何と何とのどういう連結を指しているのかが書かれておらず、それを説明したものなのかはっきりしない。
*10 これは、しばしば役所の無謬性が如何の斯うのと言われるところであるが、この場合、単に役所の都合というわけではなく、現行の指針はこの委員会で決めたことであるから、委員会の各委員も間違っていたことになるため、そう簡単に間違っていたとは言い出しづらい。「ここが間違っていると指摘されているので、委員でご検討いただきたい。」と進める方法もあろうが、一部の委員が間違っていないと言い出して面倒なことになるリスクもあるので、そこはうまいこと進めるのも役人のスキルであり、「間違っていた」ことを理由とせず、別の理由から改正を進めてしまうのが得策という面もあるのであろう。
*11 ここで、「元データとの照合なんか要件にしてどうするの?」という疑問の声が出ても不思議でないが、これについては、また稿を改めねばならないが、とりあえず少しだけ申し添えておくと、「防衛庁情報公開請求者リスト事件は10年先行くSuica事案だった(パーソナルデータ温故知新 その2)」に示したように、昔からそうだったということ、また、英国法(Data Protection Act 1998)においても「personal data」の定義で同様に規定されているように、日本だけ独自の考え方というわけではない。
*12 ただ、別所委員発言の内容を、それぞれの委員が正確に理解して肯定しているかは怪しいところがあるように思える。
*13 仮名化しただけでk≧2となる場合は存在する。その代表的な例は、消費者庁が2013年10月に規制改革会議に注文されて示した、「週3日以上ワインを飲んでいるか否か」という二値の属性情報のデータを、対応表を残さずに提供するケースである。
*14 表中の「(※5)」の位置が間違っているようだ。「仮名化」の傍に置くべきものと思われる。
*15 これについては、「現行法の理解(パーソナルデータ保護法制の行方 その2)」の「6. 照合の対象情報の範囲」を参照。
*16 仮名化の元となるデータのことを指す用語が必要で、これにこれまで「個人情報」の語が用いられてきたが、ここを「個人に関する情報」としてはどうか。「個人に関する情報」のうち「個人情報」に該当するものには個人情報保護法の義務がかかる。そのこととは別に、指針では、「個人に関する情報」は「仮名化」処理を施した上で指針のルールに則って利用したり提供するものとすればよいのではないか。
*17 かくいう私も、2014年9月7日の日記「医学系研究倫理指針(案)パブコメ提出意見」では、「意見1「個人情報」の用語定義から「容易に」を削るべき【第2 (20)】」という意見を提出していたが、その後の考察で、「容易に」の有無は、照合の程度問題として捉えるべきではなく、「散在情報的照合性」か「処理情報的照合性」かの違いとして、次の改正で整理し直されるべきだとの考えに至ったので、この意見は取り消したい。
*18 それでいいのかという論点はある。つまり、例えば、記名式Suicaの乗降履歴が、仮名化されただけで、本人同意により第三者提供されたときに、提供先の受領者にとっては非個人情報となるから、だからといって、受領者がさらに第三者提供するときに、無断でやっていいのかという論点がある。また、初めから無記名のSuica乗降履歴が、個人情報保護法で保護されなくてよいのかという論点がある。これは、将来、対象とされるように法改正されるかもしれない。なので、将来の改正に先んじて、医学系研究指針で、受領者においても個人情報として扱うルールにしておくのは良いことだと思うが、それはそれとして、法律上の評価としては、現行法では(来年の改正時も)受領者では非個人情報であることには違いないので、そこを無視するわけにはいかない。
*19 ゲノム指針では、連結可能/不可能匿名化したデータについて、「個人情報に該当しない匿名化された遺伝情報を取り扱う場合には、その取り扱う情報の漏えい、滅失又はき損の防止その他情報の安全管理のため、適切な安全管理措置を講じなければならない。」と規定している。
*20 それ以外に、連結不可能匿名化概念を残す意味があるのかどうか。
*21 他にも、図2の③のところには誤りらしきところがある。「連結可能匿名化」から「手続不要」につなぐ矢印に「対応表を保有しない」との条件が書かれているが、「連結可能匿名化」なのに「対応表を保有しない」というのが、定義に矛盾しており、意味がわからない。
*22 ただし、それは元データを保有する提供元においての話であり、その提供を受けた受領者において、元データが連結可能匿名化データであるときに、受領者において「特定個人を識別できない」という場合を、この図が指しているのであれば、間違いではない。
*23 改正法の「個人識別符号」との混同も避ける必要がある。ゲノム情報を取り扱うときに、個人識別符号に当たるものを取り扱いたいときは、個人識別符号を削除しないと「仮名化」に当たらないというのでは、立ち行かなくなってしまう。
*24 「匿名加工情報」は加工の方法にまで踏み込んでいるのに対し、案1の「匿名化」の非個人情報化は、加工方法について何も言っていないから、その意味では同一のものではない。
先月こういう話題があった。
子宮頸がんワクチン調査 名古屋市が結果を事実上撤回 #nhk_news https://t.co/cokWXHnenS
— NHKニュース (@nhk_news) 2016年6月26日
子宮頸がん「全国で初めて大規模調査を行った名古屋市が、ワクチンを接種したグループとしなかったグループとの間に症状の差は無かったとする分析結果を事実上撤回し、今後、データの分析はしない方針であることが分かりました」(えっ!) https://t.co/okXV3KF6O8
— Haruhiko Okumura (@h_okumura) 2016年6月26日
正しくは「速報と変わらず因果関係なし」 名古屋市子宮頸がんワクチン副反応疫学調査 https://t.co/O1EMviwMbQ :「撤回」という言葉からは、名古屋市が「因果関係なし」という結論を翻したかのようなイメージを与えるが、全くそうで…
— ウェッジ編集部 (@WEDGE_Infinity) 2016年6月27日
現在、有志の方々が担当課に生データを公開して、と。分析を撤回とはどうしたことかと、意見を送ったり電凸されたりのようですが、そうした事態を避けるために今の形を選択し、裏目に出てしまった感。「改竄を防ぐためpdfのみ」は、役所のデフォ…。https://t.co/x36QmH4UBB
— Takashi Okumura (@tweeting_drtaka) 2016年6月27日
役所の人たちは、「PDFで出せば改竄を防げる」と信じているので、それを責めても始まらないです。なぜ、そう考えているのか。どうしたら、そうした事態を変えられるのかを、有識者の方々に考えて欲しいです。(そして、僕を助けて欲しい)https://t.co/vVsxAtMRdV
— Takashi Okumura (@tweeting_drtaka) 2016年6月27日
@parasite2006さんの「名古屋市の子宮頸癌ワクチンアンケート調査データの解析に挑む」が10000viewを達成。すごい人気のまとめをお知らせします。 https://t.co/ATqztgec4V
— まとめのお知らせ (@togetter_pr) 2016年7月8日
名古屋市がcsvファイルの類を出さないのはひどいね。クソだと思った。貴重な頭脳の無駄遣い。>名古屋市の子宮頸癌ワクチンアンケート調査データの解析に挑む - Togetterまとめ https://t.co/FdHMLVxgJm @togetter_jpより
— 黒木玄 Gen Kuroki (@genkuroki) 2016年7月4日
これはすごい成果だ。ネット科学検証はんぱない/ 名古屋市の子宮頸癌ワクチンアンケート調査データの解析に挑む - Togetterまとめ https://t.co/uPeCarqqhJ
— Naoki Asakawa / 浅川直輝 (@nasakawa) 2016年7月6日
名古屋市のデータ いくら匿名化してあったとしても調査回答データという生データをこんなにずらっと並べていて良いのかなぁ https://t.co/8elMbaxopg 全然気にしてなさそうな医師や統計学者の呟きを見るたびに懸念が深まる。高木浩光先生なんかはどう考えるのだろ?
— 春田晴郎 (@HarutaSeiro) 2016年6月29日
そのデータは名古屋市の保健医療課が以下で公開していた。
なるほど、自由記載の回答項目まで公表されていると。それはひとまず置いておくとして、「調査回答データ」は、Excelから印刷出力しただけのPDFのようだ。
これを有志でCSVファイルに変換したものが、奥村先生のところに掲載されている。
ここにある「kaito.csv」を用いて、名古屋市が一般公開したデータがはたして匿名加工情報(非識別加工情報とも言われるが)に該当し得る内容なのか*1、検証してみた。
まず、同じ行が何件ずつあるかを集計して、多い順に並べて、上位を抽出してみた。
sed 's/^[^,]*,//' kaito.csv | sort | uniq -c | sort -nr | head
で処理してみると、以下の結果となり、最大グループは47件、その次に29件、28件、20件……と続くものとなった。
47 0,0,1,0,0,0,0,0,0,1,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,0,NA,1,0000,0,1,0000,0,0,0,0,0,0 29 0,0,1,0,0,0,0,0,0,1,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,0,NA,1,0000,0,1,0000,0,0,0,0,0,0 28 0,0,1,0,0,0,0,0,0,1,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,0,NA,0,0000,0,0,0000,0,0,0,0,0,0 20 0,1,0,0,0,0,0,0,0,1,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,0,NA,1,0000,0,1,0000,0,0,0,0,0,0 19 0,0,1,0,0,0,0,0,0,1,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,2,0000,0,1,NA,1,0000,0,1,0000,0,0,0,0,0,0 15 0,0,1,0,0,0,0,1,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,NA,0,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,0,NA,1,0000,0,1,0000,0,0,0,0,0,0 13 1,0,0,0,0,0,0,0,0,1,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,0,NA,1,0000,0,1,0000,0,0,0,0,0,0 13 0,1,0,0,0,0,0,0,0,1,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,0,NA,1,0000,0,1,0000,0,0,0,0,0,0 13 0,0,1,0,0,0,0,0,1,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,0,NA,1,0000,0,1,0000,0,0,0,0,0,0 13 0,0,1,0,0,0,0,0,0,1,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,NA,1,0000,0,0,0,0,0,0,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,0,0,0,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,0,00,NA,1,0000,0,0000,0,0000,0,1,0000,0,0000,0,0000,0,1,0000,0,1,0000,0,1,0000,0,1,0000,0,2,0000,0,1,NA,1,0000,0,1,0000,0,0,0,0,0,0
続いて、1行しか存在しない(つまりユニークな)回答が存在するか、何件存在するかを、以下のようにして数えたところ、29,836件あった。
% sed 's/^[^,]*,//' kaito.csv | sort | uniq -c | grep "^ *1 " | wc -l 29836
全数が30,793件なので、96.9%がユニークな回答だということになる。
これでは匿名加工情報(非識別加工情報)に該当し得ないデータであろう。
まあ、そうなることは、設問項目の多さからすれば、確かめてみるまでもなく明らかである。
では、このようなユニークデータの大量公開が、回答者の一部についてプライバシー侵害をもたらし得るものかというと、なかなか簡単には判断がつかない。ぱっと見では問題ないようにも思えるが、個別の事情まで見ないと本当のところはよくわからないのではないか。
まあ、そこは置いておくとしよう。問題は、このように公表されることが、調査時に調査対象者(回答者)らに説明されていたか、回答者らはそれを認識あるいは予見できていたかである。
その点、名古屋市は、次のように、調査票において「ご回答いただいた内容は統計的な処理にのみ用いられます。」と約束していたのである。
これは回答者に対する重大な裏切りではないかと考え、問い合わせ先として書かれていた、保健医療課感染症係に電話で尋ねてみたところ、次のようなやりとりとなった。
私:「ご回答いただいた内容は統計的な処理にのみ用いられます。」と書いてあるのに、統計的な処理なんですか?
係:生データの公表がということですよね。そうですね、えーと、ちょっとお待ちいただけます?
(2分待ち)
係:お待たせしております。えーと、一応その、うーん、まあ、あの、特にそのデータがですね、何かしらその改変とかされないような形で集計のみに使えるような形でうちとしても出させてもらってるっていうのが一つと、あとーその、調査している段階でですね、生データの方は公表いたします、皆様の方で集計等やっていただく、また、解析等をっていうようなお話もさせてもらってましてー、ええ、であのー、今回出したことについても、なので、そういった観点からですね、とくにあのー、違反をしているわけでもないといような回答なんですけども。
私:今、質問に関係ないことをたくさんおっしゃいましたね。例えば、改ざんできないようにしているとか、
係:あはい。
私:別にそういうことは聞いてないんですよ。
係:はいはい。
私:そういった問い合わせがいっぱいあることは知ってますよ。CSVで出せとか言ってる人達がいますからね。PDFで出すなんてトンデモないとか。言われてますけど、
係:ええ、ええ。
私:そんなことは聞いてないんですよ。私が聞いていることは、調査票には「統計的な処理にのみ用いる」と書いてあるのですから、回答した人は自分の記入したことがそのまま公表されることはないという意味だと思って、いろいろ書いていると思うんですよね。
係:はい。
私:ということだけを聞いているんですよ。そのことについてだけ回答してください。
係:あ、そういうことですね。であればですね、うちとしましては、えーっとー、なので、えー、違反しているというふうには、えー
私:理由を、聞いているんです。
係:あ、はい。理由ですね。個人を特定されるような内容等は特に出してない。で、えー、ま、そのー……。そうですね。なので、……。えーと……。ちょっとお待ちいただけますか。
(2分待ち)
係:何度もお待たせしてもうしわけないです。
私:はい。
係:っとー、集計の、集計につながるデータですね、なんで、集計……。うん、集計につながるデータ、まあ、集計に用いたデータしか出してない。なんでまあその、中身の個人につながるようなデータとかは出してないのでー、あくまで集計上で使ったデータしか出してないということです。
私:いやいや、集計して……。じゃもう一回お尋ねしますが、この調査票の「ご回答いただいた内容は統計的な処理にのみ用いられます。」というのは、
係:はい。
私:どういう意味なんですか?
係:あ、なので、うちのあのー、回答結果報告書の方に用いた集計にのみ使ったデータていうことです。
私:最初に出して消したやつのことをおっしゃってるんですね?
係:最初に出したやつというのは?
私:え?
係:今ホームページに載っている結果報告書のデータです。
私:例えばこの、「のみに用いられます」と書いてあるということは、
係:はい。
私:「こういうふうには用いない」という意味の裏返しで書かれていると思うんですけど、
係:はい。
私:どういうことはしないという意味で、この文章はあるんでしょうか?
係:あのーなので、調査票、ご回答いただいた調査票の、そのままのデータで出すことはないということです。
私:そのままのデータが公表されたんではないんですか?今回。
係:そのままのデータではなくてですね、まああの、数字とかその点、まあ数字というか番号で選ぶようなところはそのままかもしれませんが、その他の個人につながるようなデータについてはこちらの方であのー、消させていただいています。
私:個人に関するデータというのは、何のことでしょうか?
係:えっとー、なので、個人につながるような、特定されるようなデータですね。
私:どこにあるんですか? あったんですか?
係:えー、記載欄とかですね。自由記載欄とかですね。その他あのー、ま、言葉で書くようなところですね。
私:そこに名前とかがあったら消してますと、いうことをおっしゃっている?
係:はい。
私:そこはそのまま出したりはしないと。
係:してないです。
私:じゃその、名前を消したりする部分というのは、「統計的な処理」とおっしゃるんですか?
係:統計的な処理……。……。名前を消したりするのは統計的な処理……。ですか?
私:ええ。今どういう質問をしたかというと、
係:はい。
私:統計的な処理のみに用いると書いてあるから、
係:はい。
私:それ以外のことはしないと書いてあるという意味であって、
係:ええ。
私:それ以外っていうのはどういうことが考えられるかとうかがったらば、
係:はい。
私:自由記入欄について名前などが入っていたら消して処理すると、消さずに出すことはしないと、そういう意味だとおっしゃいましたけども、
係:ええ。
私:ということは、名前を消したりすることっていうのは、「統計的な処理」と名古屋市では言っていると、こういうことになりますね?
係:統計的な処理……。えー……。ええ、ええ、はい。
私:名前を消すっていう作業は「統計的な処理」なんですか?
係:ではないですね。
私:ほう。そうすると違反してませんか?
係:……。あの、集計上のデータだと思ってますのでー。あのー、違反しているとは思ってはいないんですが。
私:だって、今のロジックわかりました?名前を消すっていう作業は統計的な処理ではないんですね?
係:はい。
私:そうすると、「統計的な処理のみに用いる」というのに違反していますよね? 統計的な処理をせず、名前を隠しただけで生データを出しちゃった、っていうのは統計的な処理に当たらないんではないですか?
係:ふん、ふん……。はあ、そういうことですね。はははあ。あーと、そうですね、えーと、うーん、ちょっとお待ちください。
(2分待ち)
係:何度も申し訳ないです。えーと、やっぱりですね、先ほど、データですね、については、えー特に違反していないというような、あの、ごめんなさい、
私:そうおっしゃるのは勝手ですが、理由を尋ねてますからね。違反してないんです違反してないんですと言ったところで、何の説明にもなっていないですから、お願いします。
係:なので、えーと、集計に用いたデータですね、回答データにつきましては、基本的には調査票からそのまま持ってくるのではなくですね、どの方が回答したかっていうのをですね、順番等も全然違いますので、そういうところもわからないような形にした形で、ま、集計に用いたデータとして出していると、いうことで、えーと、違反してないと、うちとしては考えております。
私:えーと、順番を入れ替えたと。
係:順番を入れ替えたというか、来たものについてやってますので。
私:え?
係:あの、回答をいただいたものについてやってますので、誰がどのデータっていうのも全くわからないです。
私:元々、無記名アンケートですよね?
係:そうですね。
私:だからそこはべつに問題にしてないんですよ。個人情報がどうこうとか、個人情報保護条例がどうとか、そういうことはべつに言ってなくてですね、
係:はい。
私:単にその、調査票に書いてある約束を、破ったのではないか?ということだけを言ってるんですけどね?
係:それについては、集計に用いたデータですので、
私:集計に用いたデータっていうのは、統計処理の前のデータじゃないんですか?
係:……。いや、あのー、結局そのまま……、あの、調査票のものをまた集計かけてますので。集めたものですけども。
私:集計っていうのは、並べ替えただけで集計とは言わないと思うんですけども?
係:はい。まそうですね、計算等をしたものですね。
私:うん?
係:ま、えーそうですね……。うん、そうですね、集計、集めただけではそう言わない。
私:名古屋市ではあれですか? 紙で出た調査票を、1個にまとめてExcelにしたらそれで集計って言うんですか? データが元データと一対一対応しているものでも
係:ごめんなさい、それはちょっと違いますね。
私:一人ひとりのデータ全部出しているのに、集計って言うんですか?
係:それは違います。
私:はい。じゃどういうことですか。よくお考えください。
係:なので、えーと、ま、ごめんなさい、えー……。集計、ごめんなさい、さきほどから何度も同じことを言って申し訳ないですけど、ま、集計に用いたデータである。で、えっとま、そのー、集計結果の一部として出してます、報告書の一部として出してますので、あの、で、そのー、違反じゃないかと言われるんですけども、そこについてはですね、ま、集計上で必要なデータということで、とくに違反と思ってはいない、というのがうちの考えですのでー
私:まあ何度も同じことをおっしゃるならこちらも何度も同じことを伺いますけど、
係:ええ。
私:「のみ」って書いてるじゃないですか。
係:ええ。
私:「のみ」ってことは、こういうことはしないって約束をした文章だと思うんですけど、どういうことはしないっていう意味なんですか?この「統計的な処理のみに用いられます。」というのは、何をしないという意味で書いたのかというのをお尋ねしたい。
係:……。
私:安心して記入していただくために書いている約束ですよね?
係:ええ。……。そうですね。なのでえーっとまあその、書いたことで個人が特定されたりとかですね、そういったことの心配がないように、統計処理のみっていうふうな書き方をしてあると。
私:それで、統計処理なんですか?この生データが。
係:……。ま、統計処理、の一部ですね、はい。
私:統計処理の、元データだから、統計処理だって、おっしゃってるんですか?
係:ま、そうですね、はい。
私:統計的な処理のみに用いるっていうのは、統計的な処理をした結果のみ公表するっていう意味だと普通とるんではないんですか?
係:ま、ごめんなさい、一部と考えています。
私:統計処理した結果のみ公表するというふうに普通の人は受け取るんじゃないんですか?なのに、名古屋市としては、そんなはずはないと。統計処理の過程であれば、元々の全データを公表することも「統計的な処理のみに用いる」という意味になると、こうおっしゃるんですね?
係:まあ、そうです。
私:今後もそういうふうに調査をされていくんですか?
係:今後もとおっしゃいますと?
私:名古屋市として統一的な調査時の考え方なんですか? これから名古屋市の調査に答える人は、「統計的な処理のみに用いられます」と書いてあっても、生データが公表されると思わないといけないわけですね?
係:いや、ま、そういうわけではないと思います。
私:どういうわけなんですか?
係:まあその、ま、
私:そういうことは本来許されないけど、今回はやっちゃいました、でも問題ありませんと、そういうことをおっしゃってるんですか?
係:いえ、そういうわけじゃないです。
私:じゃあどういうことですか?
係:まあなんであのー、公表の仕方だと思うんですが、今回の報告書としましては、そちらの方を統計上の一部として出させてもらっているという、そういう考えです。
私:今後も同じようにされるということですね?
係:……。
私:名古屋市の調査はすべてそうであると。
係:まあ、そのときのその公表の判断だと思いますけども。調査としてそれが統計の一部として出すっていう判断が下れば出すんじゃないかと思いますが。
私:統計の一部っていう点についてじゃあお尋ねしますが、
係:ええ。
私:調査票のチェックで書き込んでいく、はい・いいえと、チェックがどんな具合だったかは見えなくなってますけど、つまり、乱暴なチェックなのか、丁寧なチェックなのかとか、見えなくなりましたけど、データとしては全く失われてないですよね? 回答が何であったかということについては。たとえば、一部の人を削除したとかいうことはないわけですね?
係:そうですね。
私:それって、統計処理なんですか?
係:……。
私:統計的な処理なんですか?
係:統計的な処理……?
私:データは何も加工してないんですよね、元データのまま。
係:まあ、なので、個人につながるところは消させてもらってます。
私:そこの話はしてないんですよ。選択肢で回答する部分のことについて伺っているんです。統計的な処理してないんじゃないですか?
係:なんでえーと、そのー、今回出した報告書の統計のデータの中の一部です。
私:え? 「のみ」って書いてあるじゃないですか。
係:調査票の方ですよね?
私:ええ。この「のみ」ってどういう意味ですか?
係:なのでそのー、個人につながるような、まそういった心配がないようなふうにしますよ、という意味。
私:生データは出すということですね? このチェックで回答したものは。
係:は、出てます。はい。
私:名古屋市としては、統計的な処理というのは生データを出すと、そういうことなんですか?とさっきからお尋ねしているんですけど。
係:なのでごめんなさい、今回の調査につきましては、えーと、それも統計の一部として出させてもらってます。
私:統計の一部。統計化する前なのに統計の一部だと。
係:統計のデータの一部ですね。
私:統計化の結果とは書いてないと言いたいわけですか?「統計的な処理のみに用いる」っていうのはべつに「統計の結果だけ公表します」とは言ってないと、元データも公表することも含まれると。
係:まあ、そうですね、はい。
私:はっ。ちょと最初にいただいたご回答に気になる点があったので、確認したいんですが、調査票にはそう書いてあるけども、実際にお尋ねする際には公表するって説明したっていうようなことをチラっとおっしゃいましたけど、
係:ええ。
私:その部分について本当なのかを確認したいんですが。
係:うん、あのー……。そうですね、速報時にも、えー説明はしてあります。
私:誰に説明したんですか?
係:誰に?
私:速報時に説明したというのは誰に説明したと? 記入した人にですか?
係:あー、記入した人、いや、えーと、記入した人、一人ひとりにはしてないです。
私:記入した人には何も説明していないということでいいんですね?
係:何も……、うん、直接はしてないです。
私:調査票に書いてある約束のみしか説明してないということですよね?
係:届いた人にはそうですね。
私:届いた?
係:調査票を受け取った方にはそうですね。
私:じゃあ、冒頭でなんかおっしゃったことは言い間違いということでいいですかね?
係:言い間違いというと?
私:調査票にはそう書いてあるけどもちゃんと説明していたと、
係:ああ、その方々に対してですか。
私:ええ。
係:ええとー、そうなりますね。
私:そうなるというのは?
係:……。
私:そうなりますねというのはどういう意味ですか?
係:えーとなんでその個々一人ひとりに対してということですね。
私:対して何ですか?
係:えーなんで、直接、その、えー、生データの公表をいたしますというような説明はしていないです。
私:ああ、わかりました。ありがとうございました。
係:はい。
ということで、名古屋市のアンケート調査に答える方は注意されたい。
*1 もっとも、このアンケート調査は無記名方式であるので、元データからして、日本の個人情報保護法では(名古屋市個人情報保護条例でも)「個人情報」に該当しない(とはいえ、日本法でも「個人に関する情報」ではあるし、EU法ではpersonal dataに該当するものと考えられるが。)のであるから、改正個人情報保護法の「匿名加工情報」には該当し得ない(匿名加工情報はその定義上「個人情報を加工して得られる個人に関する情報」に限られるので)から、このような問いはそもそもナンセンスなのだが、あえて、仮に元データが記名式で個人情報であったとした場合に、この公表データが匿名加工情報に該当し得る内容かという意味。
いろいろと一区切りついたのでこのところ腰を据えて外国法を調べていた。以前は、どこから調べればよいのか、調べてもはたして理解できるのか不安で、調べるのに億劫だったが、自説の補強のために使えそうという様子が見えてきたので調べていたところ、芋づる式にいろいろなことがわかった。
気になっていたのは、法律時報2016年1月号の小特集「第15回行政法研究フォーラム 個人情報の保護と利用 変革と課題」に掲載の藤原静雄先生の記事「公的部門の個人情報保護法制の見直しー前提及び自治体条例の対応を含めー」の中で、「匿名加工情報という考え方に比較的近い発想に、スイスの個人情報保護法の間接個人情報という概念があり、これは医療情報の利用のためのものともいわれているという点を指摘しておきたい3)。」と書かれていたことだった。調べてみると、スイス法にはそのような規定が見当たらなかったが、オーストリア法に「only indirectly personal」の概念があることがわかった。また、これとは別に、ノルウェー*1の「健康記録と健康データの処理に関する法律」*2に「indirekte identifiserbare helseopplysninger (indirectly identifiable health data)」の定義語が用いられていることがわかった。
しかも、ノルウェーのこの法律は、2014年に全部改正されたもの(施行は2015年)で、改正前の法律は、「Act of 18 May 2001 No.24 on Personal Health Data Filing Systems and the Processing of Personal Health Data (Personal Health Data Filing System Act)」(個人健康データのファイリングシステム及び個人健康データの処理に関する法律)であり、そこでは、「de-identified personal health data」、「anonymous data」、「pseudonymous health data」の語が使われていて、2014年の全部改正でこれらの用語は廃止されて、「indirectly identifiable data」に置き換えられていたことがわかった。これらの概念定義とその適用規則、全部改正への変遷が大変興味深いので、ここに記しておく。
「匿名化」という語は曖昧なもので、人、業界、国によって異なる意味で使われ得るということは、一昨年のパーソナルデータ検討会でも言われていたことであったが、2001年のノルウェー法「Personal Health Data Filing System Act」(政府による非公式英訳)は、第2条で「de-identified personal health data」と「anonymous data」とを次のように明確に区別して定義していた。加えて「pseudonymous health data」の定義もこれに並べている。
2. de-identified personal health data: personal health data from which the name, personal identity number and other characteristics serving to identify a person have been removed, so that the data can no longer be linked to a natural person, and where the identity can only be traced through alignment with the same data that were previously removed,
3. anonymous data: data from which the name, personal identity number and other characteristics serving to identify a person have been removed, so that the data can no longer be linked to a natural person,
4. pseudonymous health data: personal health data in which the identity has been encrypted or otherwise concealed, but nonetheless individualized so that it is possible to follow each person through the health system without his identity being revealed,
まず第4号の「pseudonymous health data」だが、「the identity has been encrypted or otherwise concealed」とあるが*3、これは暗号論的ハッシュ関数などを用いて元データとの対応表相当のものを作成して管理される、日本の医学系倫理指針で言うところの「連結可能匿名化」のことそのものを指していると思われる。
次に、第2号の「de-identified personal health data」と第3号の「anonymous data」を見比べると、いずれも、「data from which the name, personal identity number and other characteristics serving to identify a person have been removed」(氏名、個人識別番号その他の個人を特定する特性のものを除去したデータ)という部分で共通であり、また、「, so that the data can no longer be linked to a natural person」(その結果、当該データはもはやある自然人にリンクできない。)という部分でも共通であるところ、両者の違いは、「, and where the identity can only be traced through alignment with the same data that were previously removed」が「de-identified」の方にだけ付いているところにある。
この部分の意味は、「前で削除した同じデータとの並びを通じてのみ当該識別性を辿ることができる場合」といったところであろうか*4。これはもしや、データセットによる元データとの照合可能性のことを要件としているのではないか。
つまり、「氏名、個人識別番号その他の個人を特定する特性のものを除去」という同じ加工方法であっても、加工後のデータが加工前のデータとデータ自体の突き合わせによって辿れる(照合できる)ようなデータであるときは、「de-identified personal data」となり、そうでない場合にのみ、「anonymous data」となるという、そういう区分をしているように見えるがどうだろうか。
de-identified とは別に pseudonymous が定義されているので、これらは異なるものという趣旨であろうから、de-identified の方は、対応表(又は、鍵付きハッシュ関数を用いた仮名化方式における鍵)を持たない場合を指しているのだと思われる。*5
このような区分をした趣旨がどういうものだったのかはまだ確認できていないが、推測するに、実態として、pseudonymous data のようには対応表を作らない加工方法が現にあって、それを pseudonymous data とは呼びたくないところ、かといって anonymous data と同一視してよいかといったときに、データが詳細なものであれば、元データとの照合によって、pseudonymous data と同様の性質(加工元において誰のデータなのか特定することができる性質)を持つことになるから、このように区分したのではないだろうか。
そして、この法律では、「pseudonymous health data」と「de-identified personal health data」は、personal dataであるとされ、「anonymous data」は、非personal dataとされている。
つまり、これは、日本におけるここ3年の議論で、対応表がなければ個人データに該当しないのか、そうではなく、データ自体が元データと照合できるときは依然として個人データと言うべきではないのかという考え方が出てきた*6が、15年以上も前にノルウェー法でまさにそのような概念が明文化されていたということではないだろうか。
加工元において元データとの照合が可能なことに如何なる実質的意義があるのかは、疑問に感じられる向きもあるだろう。これは、一つには、連結可能匿名化の趣旨として、本人同意の取り消しに応じて提供先でデータを削除させたいときに対応できるという観点があり、対応表がなくても元データとの照合により個人を特定できるのなら同意の取り消しに対応が可能であるという点で、連結可能匿名化と共通の性質を持ち、その点から、依然として個人データであるとすることに意義がある。そしてもう一つには、元データとの照合ができないようなデータというのは、荒いデータであるということであり、グループ化がされたものに等しい(誤解を恐れずに言えばk-匿名性でk≧2のようなもの*7)ことから、もはや一人ひとりのデータではないということを意味するという観点があり、そのような条件を満たす場合に限り非個人データであるとすることに意義がある。
ノルウェーのこの法律においても、そのような観点(特に後者の観点を含む)で、de-identified data と anonymous data が区分されたのではないだろうか。
このような条件を満たす場合に限り anonymous data (非personal data)とする考え方は、今年4月に採択されたEU一般データ保護規則(General Data Protection Regulation、GDPR)においても見られる。
GDPRの前文(26)は、データ保護指令のときより幾分詳しく書かれ、次のようになった。
(26) The principles of data protection should apply to any information concerning an identified or identifiable natural person. Personal data which have undergone pseudonymisation, which could be attributed to a natural person by the use of additional information should be considered to be information on an identifiable natural person. To determine whether a natural person is identifiable, account should be taken of all the means reasonably likely to be used, such as singling out, either by the controller or by another person to identify the natural person directly or indirectly. To ascertain whether means are reasonably likely to be used to identify the natural person, account should be taken of all objective factors, such as the costs of and the amount of time required for identification, taking into consideration the available technology at the time of the processing and technological developments. The principles of data protection should therefore not apply to anonymous information, namely information which does not relate to an identified or identifiable natural person or to personal data rendered anonymous in such a manner that the data subject is not or no longer identifiable. This Regulation does not therefore concern the processing of such anonymous information, including for statistical or research purposes.
ここで言われていることは、まず、pseudonymisationしたデータは「identifiable natural person」とみなすべきであるとし、その一方で、「anonymous information」に対してはこの規則を適用してはならないとして、「anonymous information」がどのようなものかは、「does not relate to an identified or identifiable natural person」と説明している。これは、日本法で言うところの「個人に関する情報」ですらないことに相当するものと思われるが、この説明では依然として「identified」や「identifiable」の意味がはっきりしないところ、真ん中あたりに、「such as singling out」との文がある。これは、「To determine whether a natural person is identifiable」つまり、自然人がidentifiableであるかどうかの決定には、「singling out」といった手段を含めて考慮すべきと書かれている。
「singling out」とは、一人ひとりを区別しているという意味での「識別」を表す表現の一つで、ISO/IEC 20889「Privacy enhancing data de-identification*8 techniques」の用語定義でも使われるようだ。情報法制研究会第4回シンポジウムでの佐藤慶浩氏の報告によれば、「singling out information」は、日本のパーソナルデータ検討会で技術検討WGが「識別非特定情報」とした概念(識別特定情報も含むが)に一致しているとのことだ。
つまり、GDPRでも、識別非特定情報ですらない状態にしない限りanonymous informationとならないと整理されたということである。この要件は、ノルウェー法が、de-identified と anonymous を区分した要件と同じなのではないか。*9
なお、ドイツのFederal Data Protection Act (Bundesdatenschutzgesetz, BDSG)では、2003年の改正法から、「anonymisieren」と「pseudonymisieren」の語が定義されて使われてきており、それぞれ次のように定義されている。
§ 3 Weitere Begriffsbestimmungen
(6) Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.
(政府の非公式英訳)*10
“Rendering anonymous” means the modification of personal data so that the information concerning personal or material circumstances can no longer or only with a disproportionate amount of time, expense and labour be attributed to an identified or identifiable individual.(Google機械翻訳による原文の英訳)
Anonymize is mean to modify personal data in such a way that details of personal or material circumstances can no longer or only be associated with a disproportionate investment of time, cost and labor of an identified or identifiable natural person.(Excite機械翻訳による原文の英訳)
Make anonymous changing personal data is such that the single data about personal or objective relations cannot be assigned any more or only with an unreasonably big expenditure in time, costs and worker of a certain or determinable natural person.(6a) Pseudonymisieren ist das Ersetzen des Namens und anderer Identifikationsmerkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffenen auszuschließen oder wesentlich zu erschweren.
(政府の非公式英訳)
“Aliasing” means replacing a person’s name and other identifying characteristics with a label, in order to preclude identification of the data subject or to render such identification substantially difficult.(Google機械翻訳による原文の英訳)
Pseudonymisation is the replacement of the name and other identifying characteristics of an indicator for the purpose preclude the identification of the data or substantially more difficult.(Excite機械翻訳による原文の英訳)
Pseudonymisieren is the replacement of the name and other identification signs by a sign for the purpose to exclude the regulation of the affected person or to complicate substantially.
anonymisationの方の要件はぼんやりしている感じだが、pseudonymisationは普通の仮名化の定義であり、ドイツ法では、anonymisationしたものは非personal dataであるとし、pseudonymisationしたものはpersonal dataとして扱うとされてきたようだ。
このように、外国法の状況やEU法の動向を見れば、日本法においても、「匿名加工情報」が非個人情報であることを要件とするならば、やはり、前々回の日記「個人情報該当性解釈の根源的懸案が解決に向け前進」で述べたように、「元データとのデータセットによる照合」が容易照合性に当たることを個人情報保護委員会が公式に認めるのが自然な流れであるように思える。
「匿名加工情報」という名称は、骨子案として出たときには紛らわしい名称だと失望する声も聞かれたが、こうして見ると、EU法の「anonymous information」や、ノルウェー法、ドイツ法とも名称が一致しており、これでちょうどよかったし、概ね同一の概念(再識別禁止義務をかける点では異なるが)だといえるのではないか。
逆に言えば、外国法との整合性を欠くことにならないためには、ドイツ法やノルウェー法の「pseudonymous data」に当たるデータを「匿名加工情報」としてはならないし、ノルウェー法の「de-identified data」に当たるデータも「匿名加工情報」としないべきだろう。
ノルウェーのこの法律は、2014年に全部改正され、前記の3つの用語は廃止されて、新たに「indirectly identifiable health data」の語が次のように定義された。
b) indirekte identifiserbare helseopplysninger: helseopplysninger der navn, fødselsnummer og andre personentydige kjennetegn er fjernet, men hvor opplysningene likevel kan knyttes til en enkeltperson,
(機械翻訳による原文の英訳)
b) indirectly identifiable health data: health information which names, numbers and other unique personal characteristics are removed, but the information still can be linked to an individual,
これは、改正前の「pseudonymous data」と「de-identified data」を含むものであろう。それらの間の区別をやめたということになる。
この改正の趣旨は、ノルウェー保健・ケアサービス省による改正提案のための文書「HØRING: Forslag til ny pasientjournallov og ny helseregisterlov」(Consultation - proposal for a new patient and new health registers)を英訳しながら読んで、概ね理解できた。
その第18章冒頭には次のように書かれていた。「The Ministry does not want to continue the concepts of de-identified and pseudonymous information in the new Filing Systems Act. The terms proposed replaced by the broader term "indirectly identifiable health information".」「The rules for extradition, assembly and use of health information from the central health registers have seemed vague and difficult to manage for operators in the sector. This has resulted in different interpretations of the concepts of anonymous and de-identified data.」「The Ministry has considered whether it should establish simpler procedures, for example, a researcher should be given indirectly identifiable information than for direct personal identifiable information.」(機械翻訳より)
つまり、anonymous と de-identified の概念は異なる解釈を生んで、運用が難しくなっているので、省としては、もう、de-identified と pseudonymous の区別をやめて、よりシンプルな手続きを制定したいということが書かれている。
そして、これらについてどのようなルールを課しているのか(いたのか)について、条文で確認したところ、おそらく次のようなことになっている(いた)のではないかと思う。
旧法では、例えば第7条では、氏名や個人識別番号その他の直接に個人を識別するものは本人の同意の上でのみ扱うこととしている一方で、pseudonymised 又は de-identified された形でのみ処理される規則が提供される場合には、本人同意が不要となっていた。ただし、そのような規則は処理の目的を宣言して、適切な場合にはpseudonymisationについて追加的なルールを規定すべしとされていた。
これが、新法では、第20条(Exceptions to confidentiality for indirectly identifiable health information)に集約されて、「特定の目的(research, health analysis, quality assurance, administration, planning or management of health and care services)において、indirectly identifiable health information をデータコントローラが開示することを(機密性の規定は)妨げない。ただし、この規定は11条に従って確立されるレジストリにあるhealth dataにのみ適用される。health dataは、その取り扱いが社会の重要な利益によるものである場合に限り開示され、患者のプライバシーへの心配及び機密性は保護され、処理は、倫理的に、医療と健康に配慮して行われる。data controllerは、引き渡しのための条件を課すことができる。」となった。
つまり、旧法では、pseudonymised 又は de-identified されたデータは、personal data ではあるものの、同意なき開示を許していたのが、新法では、それを特定の目的に限るとして、社会の重要な利益によるものである場合に限るとなったということであろうか。
ノルウェーのデータ保護法は、これとは別の「Personal Data Act」が制定されている。そこには、「indirectly identifiable」や「de-identified」「anonymous」「pseudonymous」といった語は定義されていない。つまり、この「健康記録と健康データの処理に関する法律」や「個人健康データのファイリングシステム及び個人健康データの処理に関する法律」は、特別法の形になっていて、医学系分野のこうした特有のやり方を規定して、Personal Data Actを特定の分野についてオーバーライドするものとなっているのだろう。おそらく、「indirectly identifiable」や「de-identified」「pseudonymous」なデータはpersonal dataなのだから、Personal Data Actでは同意が原則となっているはずである。
このようなノルウェー法の状況は、今の日本の個人情報保護法と医学系研究倫理指針が置かれている状況が非常によく似ているものではないだろうか。
まず、「de-identified personal data」と「anonymous data」の違いは、このところの日本の3省合同会議(医学研究等における個人情報の取扱い等に関する合同会議)で出ていた、見直し案の「案2」(前々回の日記「個人情報該当性解釈の根源的懸案が解決に向け前進」参照)が置かれている状況に似ている。
「案2」は、「匿名化」(連結可能匿名化と連結不可能匿名化の両方を指す)データのうち、個人情報に該当しない場合と、個人情報に該当する場合とを分けて、同意等の要否を場合分けするというものであった。ノルウェー法の「pseudonymous data」は連結可能匿名化のことであり、「de-identified personal data」は、連結不可能匿名化データのうち非個人情報になっていないもの(元データとのデータセットによる照合ができるデータである場合)に相当する。
合同会議の前回(第4回)を先日傍聴したところ、事務局は案2で行きたいとしていたが、そうすると、個人情報該当性の判断を各研究機関の倫理委員会で判断しなければならないということで、「そんなのは無理だ」との意見が委員から続出する展開となった。これは、ノルウェーでも、anonymous と de-identified の違いがあまり理解されず運用が難しくなったとされていることと似ているのではないか。
そしてノルウェーでは、その区別を捨てて、「de-identified」と同じ加工をしたものを、「anonymous data」に当たる場合があってもそれを区別せず、「personal data」とみなして扱うことにし、そうすると「pseudonymous data」との区別も不要となるので、どちらも「indirectly identifiable data」で扱ってしまうという流れである。これは、合同会議の「案1」の「仮名化」の方のみ(表の右列のみ)を使う案に相当するのではなかろうか。
ノルウェーの新法では、「anonymous data」の定義語は廃止されたが、第16条(Obligation to report data for statistics)で、「……to report anonymous data or indirectly identifiable health information, without regard to confidentiality, to statistics.」という形で出てくる。
合同会議第4回でも、「案2」が困難ならばいっそ「案3」にしてしまえ(どんなに加工しても元が個人データならば全て個人データとみなすという案)という意見に対して反対の声が出ていた。すべてが個人データならば統計的な処理をした学会発表ですら本人同意が必要になってしまうので、さすがにその案も無理があるだろう。ノルウェーの新法でも、定義こそしていないものの、当然に非personal dataと言えるものについては、裸の「anonymous data」の語を用いているわけで、何もかもが「indirectly identifiable health data」に該当するというわけではなかろう。
合同会議でも、それと同様のアプローチをとるしかないのではないだろうか。それが、ちょうど、前々回の日記「個人情報該当性解釈の根源的懸案が解決に向け前進」の「私の意見」で書いた「案4」の提案になっていると思う。「非個人情報化」の定義を細かく言い出すと、ちょうどぴったり「個人情報」と「非個人情報」が区分される境界など示すのは無理という話になりがちだが、明らかに非個人情報と言える場合はあるわけで、それを軽く規定に盛り込んでおけばよいだけではないか。
こうしてみると、まさに同じような悩みをノルウェーから数年遅れで辿っているように思えてくる。
ノルウェーでは、2014年の改正で、特定の分野の特定の場合に限って同意不要とする方向に舵を切った。改正の提案書を読むと、EUのGDPR(当時は案の段階)の動向を見ながら検討された様子があった。
一方、日本では、合同会議では当初、医学系研究倫理指針は、個人情報保護法に「上乗せ横出し」したルールであって、学術研究の適用除外を前提に義務を緩めることなどできないとしていた。ノルウェーもそうであるように、EU法の方向性は、personal dataとした上で、研究目的についてルールを緩和するというアプローチである。ここの舵を切らない限り、日本の医学系研究は立ち行かなくなるか、または、日本の個人情報保護法制が崩壊するかのどちらかの道しかないだろう。特別法の立法措置が望ましいだろうが、それが無理だというのならば、適用除外と例外規定を活かして凌ぐしかない。
冒頭で、藤原静雄先生が法律時報の記事で、どこかの国に「間接個人情報」の概念があって、それが日本の「匿名加工情報の考え方に比較的近い発想」とお書きになっていることに触れたが、少なくとも*11ノルウェーの「indirectly identifiable data」については、上記のように、連結可能匿名化と、連結不可能匿名化(のうち、元データとの照合性がないデータである場合を除く)に相当するものであるから、「匿名加工情報」とは全く別の概念と言うべきである。「匿名加工情報」は改正個人情報保護法2条9項の定義からして非個人情報に加工したものを言うのであって、間接的に識別される個人情報などでは全くない。逆に、もし仮に連結可能匿名化や連結不可能匿名化しただけのデータが常に「匿名加工情報」に該当するなどとする解釈をとったとすれば、日本の個人情報保護法の体系が根底から崩壊してしまう。
*1 ノルウェーはEU非加盟国のひとつ。
*2 ノルウェーは、電子カルテ導入率が世界一の国として知られている。
*3 原語の条文を機械翻訳で英訳したところ、政府非公式訳とは若干表現の違う、「pseudonymous health data: health data where identity is encrypted or concealed in any other way, yet individualized so that it is possible to follow each person through the health system without identity disclosed.」という文が出た。
*4 原語の条文を機械翻訳で英訳したところ、政府非公式訳とは若干表現の違う、「de-identified personal health data: health information from which names, identification numbers and other unique characteristics are removed so that the information can no longer be linked to an individual, and where identity can only be recovered by combining it with the same information that was previously removed.」という文が出た。やはりこの理解でよいように思える。
*5 「de-identified health data」の原語である「avidentifiserte helseopplysninger」でググって出てくるサイトや文書を(機械翻訳で英訳して)眺めてみると、「de-identified health data」と「anonymous data」の違いを、鍵の有無として説明しているものがいくつか見つかるので、現地でもいささか混乱があるのだろうか。私の解釈が間違っているのかもしれないが、「de-identified personal health data」の定義に鍵という記述はない。
*6 もっとも、平成15年法が成立した当初からの識者の解説本の中にもこの考え方を示唆する記述のあるものもあった。例えば、岡村久道「新訂版 個人情報保護法」商事法務の79頁には次の記述がある。これはすなわち、目の部分へのマスキングをしても、画像中のそれ以外の部分で元データと照合できることをもって、容易照合性があり、個人データに該当することを述べているものと言える。
顔写真と匿名化 医療介護GL6頁は、顔写真は一般的には目の部分へのマスキングにより、連結可能匿名化の場合を除いて個人識別性を失い、特定の患者の症例・事例を学会発表・学会誌報告する場合等は、(中略)氏名、生年月日、住所等を消去すれば匿名化されるとする。この場合、医師としては発表・報告用の複製物のみをマスキングによって匿名化しつつ、顔写真の原本にはマスキングせずに別途残しておく方法が通常であろう。したがって、当該原本と容易に照合しうる当該医師にとって、むしろ上述の諸事例は連結可能匿名化である場合が一般的であろう。
*7 「誤解を恐れずに言えば」と釈明しているのは、これは本来のk-匿名の意味で言っているのではないからである。2014年4月23日の日記「現行法の理解(パーソナルデータ保護法制の行方 その2)」の「5. k-匿名性の法的位置付け」で書いたように、「すべての列を黄色の部分として扱う」場合の「k-匿名化」を前提とした意味で言っているのであり、しかしそれは、k-匿名化の本来の用途から逸脱しているので、本当はこれをk-匿名化と呼んではいけないのだが、そうはいっても、「グループ化」と言っただけでは通じにくいだろうし、k-匿名の「k≧2」というのは通じやすいから、どうしてもこのように言いたくなるという事情があり、このように釈明している。
*8 奇しくも、このISO規格での「de-identification」は、anonymous information化することを指すようなので、ノルウェー法の「de-identified」とは明確に異なる用法のようだ。
*9 この2つの間の若干の違いはこうではないか。singiling outでないことをanonymousであることの要件とするのは、実際のところ、取扱事業者において、データをどのように扱っているか(一人ひとりのデータとして扱っているか)という、事業者の意図によって決定されざるを得ない(と私は思う)のに対し、元データとの照合可能性を要件とするのは、そうした事業者の意図から離れて、データ内容から客観的に決定されるという違いがあろう。結果的に同じことになる場合が多いと思われるが、重要な論点となりそうなところである。
*10 「anonymisieren」は「anonymisation」、「pseudonymisieren」は「pseudonymisation」と訳すのが自然としか思えないのだが、政府の非公式訳で「rendering anonymous」だの、「aliasing」などと訳されているのは、どうにも解せない。
*11 オーストリア法の「only indirectly personal」についてはまた別の回で書く予定。