追記

高木浩光@自宅の日記

目次 はじめに 連絡先:blog@takagi-hiromitsu.jp
訪問者数 本日: 1711   昨日: 2585

2026年03月17日

「裁判官マップ」現る。破産者マップとは何が違うのか?

破産者マップ性犯罪マップに続き、今度は「裁判官マップ」が現れた。マップというわりに地図はほぼ用をなしていないので、過去の事案との連続性を意識したものなんだろう。この事案についての私の所見は、この一連のツイートに示した。

さて、大規模言語モデルはどう評価するだろうか。以下は、Claude Opus 4.6*1との会話である。


私:「破産者マップ」事案について、時系列で整理してください。それぞれの時点で何に違反しているとされたかに注目して。

Claude: 破産者マップ事案の時系列を、各時点で問題とされた違反条項に注目して整理します。


第1期:旧「破産者マップ」(2018年12月〜2019年3月)

2018年12月頃 — 旧「破産者マップ」が登場[ASCII.jp]。官報掲載の破産者情報をGoogleマップ上にピンで可視化するサイトが公開された。

2019年3月15日 — 個人情報保護委員会(PPC)が、サイト上に掲載されていたメールアドレスに対し行政指導の連絡を行った[Matsudaira-office]。この時点で問題とされた条項は、旧法第18条(利用目的の公表義務)と第23条第1項(本人の同意なき第三者提供の禁止)への違反のおそれ[ITmedia]であった。

2019年3月18日 — 弁護士60人が連名で、PPCに対して個人情報保護法に基づく「緊急命令」を求める申出書を提出[Bengo4]。申出書では、本人の同意もオプトアウト届出もなされていないことから23条1項違反を指摘していた。

2019年3月19日 — 運営者がサイトを閉鎖する旨返信し、サイト閉鎖が確認された[Matsudaira-office]

この段階のポイントは、PPCの対応が「行政指導」(法的強制力なし)にとどまったこと、そして当時の個人情報保護法には「不適正利用の禁止」規定が存在しなかったため、違反の根拠は第三者提供の同意規定(23条1項)と利用目的の通知義務(18条)の2本柱だったことである。松平浩一議員が指摘したように、仮にオプトアウト届出(23条2項)を行えば、個人情報保護法上は適法となりうるという構造的脆弱性があった[Matsudaira-office]


第2期:後継サイト群と初の停止命令(2019年〜2020年)

2019年〜2020年 — 破産者マップ閉鎖後、「モンスターマップ」「自己破産・特別清算・再生データベース」など類似サイトが複数出現。削除料としてビットコインを要求するものもあった。

2020年7月29日 — PPCが2つの破産者情報サイトに対し、運営停止命令を発出。PPCが命令を出したのはこれが初めて[Nikkei]であった。問題とされた条項は旧法の第18条(利用目的の通知義務)と第23条第1項(同意なき第三者提供の禁止)で、第1期と同じ2条項であった。

なお、2020年6月公布の改正個人情報保護法で「不適正な利用の禁止」(改正後の16条の2)が新設されたが、この時点ではまだ未施行であり、本事件時点では同条違反を問うことはできなかった[Note]と推察されている。


第3期:「新・破産者マップ」と改正法の初適用(2022年)

2022年3月頃 — 新たな破産者マップが確認される。Googleの方針違反として5月に検索結果から一度削除されたが、6月に復活[Bengo4]

2022年3月23日 — PPCが別の国内の破産者情報サイト運営者に対して停止命令を発出[ITmedia]。こちらは23条1項違反が根拠。

2022年6月頃 — 「新破産者マップ」が本格的に注目を集める。2009年〜2019年の官報掲載破産者情報が掲載され、削除にはビットコインで6万〜12万円の支払いが要求されていた[Monolith Law Office]

2022年7月20日 — PPCが「新破産者マップ」運営者に対して停止勧告を発出。ここで初めて、2022年4月施行の改正法で追加された第19条(不適正な利用の禁止)が初適用された[Pmarknews]。適法性が問われた条項は以下の3つに拡大した:

  1. 第19条(不適正な利用の禁止)— 差別を誘発するおそれがある方法による個人情報の利用
  2. 第21条第1項(利用目的の通知義務)— 取得後速やかな利用目的の通知・公表の欠如
  3. 第27条第1項(第三者提供の制限)— 本人同意なき第三者提供

2022年11月2日 — 勧告に応じなかったため、PPCが個人情報保護法第145条第2項に基づき停止命令を発出[Ben54]。違反条項は勧告時と同じ3条項。PPCは「多数の破産者等が人格的・差別的な取扱いを受けるおそれがあり、個人の重大な権利利益の侵害が切迫している」と認定した[Monolith Law Office]


第4期:刑事告発(2023年)

2023年1月11日 — 停止命令にもサイトが応じなかったため、PPCが個人情報保護法違反の罪で運営者を警視庁に刑事告発した[Wikipedia]。PPCが刑事告発を行ったのはこれが初めてであった[Abc-jsc]。告発時点でも運営者の特定には至っていなかった。


違反条項の変遷まとめ

各時期で問題とされた条項をまとめると、第1期・第2期では旧法18条(利用目的通知)と23条(第三者提供制限)の2条項しか使えなかったのに対し、第3期では2022年4月施行の改正法によって第19条(不適正利用の禁止)が加わり、3条項体制になった点が重要な転換である。

第19条の追加によって、仮にオプトアウト届出を行ったとしても「差別を誘発するおそれがある方法による利用」自体が違法となり、第1期で指摘されていた「オプトアウトを踏めば適法になりうる」という構造的な抜け穴が塞がれた。ガイドライン通則編でも、官報掲載の破産者情報を集約・データベース化してネット公開する行為が不適正利用の具体例として明示されている[Pmarknews]

私:(東京地裁令和5年3月9日判決(令4(行ウ)134号)、東京高裁令和5年10月30日判決(令5(行コ)98号)の判決文を添付して)
OK、では、破産者マップ事案の裁判例を分析してください。

Claude:両判決を読み終えました。これは「新破産者マップ」(海外サーバー運営)の事案とは異なり、国内の法人が運営する破産者情報検索サイト「○○」に対するPPC命令の取消訴訟です。以下、分析します。


事案の概要

第1審:東京地裁 令和5年3月9日判決(令4(行ウ)134号) 控訴審:東京高裁 令和5年10月30日判決(令5(行コ)98号)

運営者「a合同会社」は、官報掲載の破産者情報をデータベース化し、氏名・住所による検索サービス(無料会員・有料会員の差異あり)と通知サービスをウェブサイト上で提供していた。PPCが個人情報保護法(令和2年改正前)23条1項違反を理由に勧告・命令を行ったところ、運営者は命令処分の取消しを求めて出訴した。

特徴的なのは、a社がPPCの命令等を回避するため、令和3年12月の執行停止却下のわずか5日後に、同一代表者・同一所在地の政治団体「X団体」を設立し、サイト運営を移管したという経緯である。


PPCの行政対応の経緯と適用条項

この事案は改正法施行前(令和2年改正前)の旧法が適用されているため、先ほど整理した「新破産者マップ」への対応(第19条の初適用等)とは法的枠組みが異なる。

令和3年9月3日 — PPC、a社に対し法40条1項に基づく報告徴収。削除請求に金銭を要求しているか等を調査。

令和3年9月22日 — PPC、a社に対し法42条1項に基づく勧告及び法41条に基づく指導。23条2項(オプトアウト)の措置が適切でなかったことが根拠。

令和3年12月15日 — PPC、a社に対し2度目の法42条1項勧告。23条2項違反(本人の求めに応じた提供停止をしていない)に加え、サイト停止と報告を命令。

令和4年1月1日 — a社と同一代表者がX団体を設立、政治資金規正法に基づく届出。2週間後にサイト運営をX団体に移管と公表。

令和4年2月18日 — PPC、X団体に対し法42条1項勧告。今度は23条1項(本人同意なき第三者提供の禁止)違反を正面から認定。

令和4年3月23日 — PPC、X団体に対し法42条2項に基づく命令(本件処分)。サイト停止と23条に従った措置を命令。


争点と裁判所の判断

争点1:法42条2項の要件充足(中心争点)

(a) 政治団体該当性(法76条1項5号)

原告は、政治団体としてサイトを運営しているから個人情報保護法の適用が除外されると主張した。

地裁の判断:a社が命令回避のために設立した経緯(執行停止却下の5日後に設立、同一代表者・同一所在地、運営方法に差異なし)から、X団体は「個人情報保護法の規律を潜脱して行政処分を不当に免れ、本件サイトの運営を続けるため」に設立されたと認定。政治団体には該当しないとした。

高裁の補充判断:控訴人が国政政党5党への寄附を主張したが、いずれも各500円で、しかもPPCへの違法報告の翌日に集中的に行われたものであり、「政治団体であるとの主張を基礎付ける資料とするために行われた」にすぎないと一蹴。

(b) 報道該当性(法76条1項1号)

原告は、官報情報を不特定多数に広く速く正確に知らせているから「報道」に該当すると主張。

地裁の判断:本件サイトは「利用者が提供又は通知を希望する特定の情報のみを、個々の検索又は登録により提供する」ものであって「個別の情報伝達の機能に特化」しており、「不特定かつ多数の者に対して客観的事実を事実として知らせるもの」には該当しないとした。

高裁の補充判断:原告の規約自体が「個人情報保護法に反対すること」を目的に掲げており、「事実として知らせる」ことを目的としてはいないと、規約の文言から踏み込んで認定。

(c) 23条1項2号(財産保護の例外)の該当性

原告は、取引相手が破産者であることを知る必要性から「人の生命、身体又は財産の保護のために必要がある場合」に該当すると主張。

地裁の判断:ここが法理論上もっとも重要な判示部分である。裁判所は、23条1項柱書の趣旨を「個人データの流通・使用状況が不透明な状態に置かれ、結合・照合が容易であることから権利利益侵害のおそれが高まる」ため「流出段階で規制する」ものと整理し、2号の判断枠組みとして、「個人データの提供により本人が被るおそれのある権利利益の侵害を考慮してもなお第三者の権利利益保護の要請が上回る等の事情があるか」という比較衡量の基準を採用した。

その上で、取引相手が被る財産侵害は「抽象的なもの」にとどまるのに対し、破産者等の情報が提供されることによる権利利益侵害は「具体的なもの」であるとして、2号該当性を否定した。

高裁の補充判断:破産手続等の終了後は「債権者を保護すべき必要性は後退し、破産者等が破産手続等を経たことを公表し続ける必要があるとまではいえない」と、破産法の目的(経済生活の再生の機会の確保)との関係を明示的に説示。

(d) 権利利益侵害の切迫性

原告は、官報で既に公開されている情報だから本件サイトにより権利利益侵害が切迫しているとはいえないと主張。

裁判所の判断:インターネット版官報(PDF画像化、テキスト検索不可、30日限定)および官報情報検索サービス(有料、破産者氏名・住所による体系的検索機能なし)と本件サイトを詳細に比較し、本件サイトは「破産者等の破産手続等に係る情報を提供することに特化」しており、「格段に簡便かつ容易に」情報を提供できる仕組みであるから、「破産法等が想定している官報による公告の範囲を超えて」おり、「官報により生じ得る権利利益の侵害よりも広い範囲での権利利益の侵害を来している」と判示した。

争点2:理由付記の不備

原告は行政手続法14条1項本文の理由提示が不十分と主張したが、裁判所は、処分書面に違反行為の特定、勧告不遵守の認定、権利利益侵害切迫の具体的事情が記載されており、十分であるとした。

争点3:憲法21条(検閲・報道の自由)

検閲の主張について、裁判所は札幌税関事件大法廷判決(昭59.12.12)の定義を引き、本件処分は「思想内容等の表現物を対象として」されたものではなく検閲に該当しないとした。

報道の自由の主張(高裁で補充)について、高裁は、仮に報道の自由が問題になるとしても、破産手続等終了後は個人情報公開の要請は後退し、かつ当該情報は「大多数の国民や企業にとっては知るべき価値のある情報であるとは認め難い」から、本件処分は報道の自由を不当に制限するものではないとした。

オプトアウト届出の控訴審新主張

控訴審で原告は、a社が令和2年9月にオプトアウト届出をしていたから23条2項に基づき適法であるとの新主張をしたが、高裁は「a社と控訴人とは法律上別の主体であるから、a社の届出は控訴人の届出にはならない」と退けた。これは原告自身が「a社とは別組織」と主張していたことと矛盾する論理的自縄自縛でもある。


分析的考察

1. 「散在情報の集約」という問題構造

両判決を貫く論理は、官報に「散在的に」掲載されている破産者情報を「データベース化」して「体系的に検索可能」にすることで、情報の性質が質的に変容するという認識である。地裁は官報の仕組み(PDF画像化、テキスト検索不可等)を丁寧に認定し、「公開済み情報であっても、検索容易性の飛躍的向上は新たな権利利益侵害を構成する」ことを示した。これは高木先生の研究文脈でいえば、「処理」(systematic processing)の概念そのものであり、単発の公開(publication)とデータベース化された処理(processing)の質的差異を裁判所が明確に認識した判決といえる。

2. 23条1項2号の比較衡量枠組み

地裁が採用した「本人の権利利益侵害 vs 第三者の権利利益保護の要請」という比較衡量枠組みは、23条1項2号の解釈として注目に値する。取引相手の財産保護の必要性を「抽象的」、破産者等の権利利益侵害を「具体的」と評価した点は、破産法の目的(経済的更生)との整合性を意識した判断であり、高裁がさらに「破産手続等終了後は債権者保護の必要性は後退する」と明示したことで、時間軸を組み込んだ判断枠組みが確立された。

3. 政治団体スキームの否定

法76条1項5号の潜脱を試みた原告の戦略は、裁判所に完全に見透かされた。設立の時期的近接性、代表者・所在地の同一性、運営方法の無変更という客観的事情から、「法の規律を潜脱するために設立された」と認定された。高裁が各500円の政党寄附を「主張を基礎付ける資料とするために行われた」と断じた点も印象的で、形式的な法的外観の作出では実質的な判断を覆せないことが明確にされた。

4. 改正前法での対応の限界と改正法との関係

この事案は改正前法が適用され、「不適正利用の禁止」(改正後19条)は使えなかった。そのため23条1項(第三者提供の同意)を中心に構成されたが、仮にオプトアウト届出が適切になされていた場合には法的対応が困難になりうるという構造的問題が残っていた。改正法19条の新設は、まさにこの抜け穴を塞ぐものであり、2022年7月の「新破産者マップ」への対応では19条が初適用されたことと対照的である。

私:さて、今週新たに「裁判官マップ」なる類似サイトが現れました。これどう評価しますか?
https://saibankan-map.jp/judges/map

Claude:これは破産者マップ事案の判例法理の射程を考える上で非常に興味深い素材です。破産者マップとの構造的な異同を軸に、多角的に分析します。


1. サービスの概要

裁判官マップは、2026年3月14日に弁護士・田中一哉氏(サイバーアーツ法律事務所)が公開したウェブサイトおよびiPhoneアプリで、全国約2,500人の裁判官を日本地図上で検索可能とし、経歴・人事異動・関連判例・ニュース記事のほか、匿名口コミ・評価機能を備えている[Shiho-shoshi-office]。公式目的は「司法制度への問題提起」とされている[Saibankan-map]

データソースは、CaseLaw LOD(国立情報学研究所)、国立国会図書館サーチ、インターネット版官報(人事異動データ)といった公的データベースに加え、ユーザーからの匿名口コミである。


2. 破産者マップとの構造的比較

共通する構造

「散在的に公開されている公的情報を集約・データベース化し、特定の個人に紐づけて検索可能にする」という基本構造は、破産者マップと完全に共通している。裁判官の人事異動は官報に掲載され、判例は裁判所のウェブサイト等で公開されているが、それらは個別の裁判官をキーとして体系的に検索できる形では提供されていない。裁判官マップは、これらの散在情報を特定の裁判官をキーにデータベース化し、地図インターフェースで視覚的に検索可能にしている。

東京地裁判決が破産者マップについて述べた「記事内容をデータベース化する等して特定の情報が記載された特定の記事のみを抽出するという機能」「格段に簡便かつ容易に」情報提供できる仕組み、という描写は、そのまま裁判官マップにも当てはまる。

決定的に異なる点

しかし、以下の点で根本的に性格が異なる。

(a) 情報主体の地位 — 私人 vs 公務員

破産者は私人であり、破産手続等を経たという事実は「一般に知られたくない機微な情報」(地裁判決)であった。これに対し、裁判官は国家権力の行使者たる公務員であり、その職務遂行は本来的に公的な関心の対象である。裁判官の所属裁判所、担当事件、経歴は、司法の民主的統制という観点から、むしろ積極的に公開されるべき情報という性格をもつ。

(b) 「決定」の方向性

高木先生の決定志向モデルの枠組みで考えると、破産者マップが問題だったのは、情報がデータベース化されることで破産者に対する「差別的な取扱い」(雇用拒否、取引拒否、住居差別等)という不当な決定を誘発するからであった。改正法19条(不適正利用の禁止)が「違法又は不当な行為を助長し、又は誘発するおそれがある方法」を禁じ、ガイドラインが破産者情報の集約・データベース化を名指しで例示したのは、まさにこの「不当な決定の誘発」という構造があったからである。

裁判官マップの場合、情報の利用先として想定される「決定」は、当事者が裁判手続で何らかの対応を検討する、国民審査で判断するといった類のものであり、これ自体は民主的統制の一形態であって「不当な決定」とは言い難い。

(c) 情報のsensitivity(機微性)の質的差異

破産情報は、東京高裁判決が述べたように「プライバシーの周辺部分」にせよ経済的信用に関わる機微情報であり、破産法等の目的(経済生活の再生の機会の確保)と直接衝突する。裁判官の経歴・所属・担当事件といった職務上の情報は、これとは全く異なる。裁判官個人の住所が公開されるわけではない。


3. それでも残る問題点

(a) 匿名口コミ機能の問題

裁判官の経歴や担当事件を公的データソースから整理して提供すること自体は問題が小さいが、匿名口コミ・評価機能は別の問題を提起する。

口コミは敗訴当事者の主観的不満に大きく偏るバイアスが構造的に内在している。Togetterの議論でも、「口コミは(特に対立構造に投げ込まれる法曹においては)当てにならない」との指摘があり[Togetter]、さらに「裁判官への圧力」になるのではないかという懸念も示されている。

これは個人情報保護法の問題というよりも、名誉毀損やハラスメントの問題、さらには司法の独立(憲法76条3項)との緊張関係の問題である。裁判官が「評価される」ことを意識して判断を歪める(populismに迎合する判決を出す)リスクは、司法の独立という憲法的価値と正面から衝突しうる。

(b) 個人情報保護法上の位置づけ

裁判官の氏名・所属・経歴・担当判例は個人情報(法2条1項)に該当するが、これをデータベース化して提供する行為について個人情報保護法違反が成立するかどうかは、破産者マップの判例法理をそのまま適用できるものではない。

まず、裁判官の職務上の情報は「要配慮個人情報」(法2条3項)には該当しない。また、19条(不適正利用の禁止)のガイドラインが例示する「違法な差別が誘発されるおそれ」という要件にも直ちには当たらない。破産者マップ判例が依拠した「人格的・財産的差別的取扱いを受けるおそれ」という評価軸は、公務員の職務情報には同様には妥当しにくい。

ただし、口コミに個人の誹謗中傷が含まれる場合の名誉権侵害、裁判官個人のプライベート情報(出身校、家族等)が書き込まれる場合のプライバシー侵害は、別途問題となりうる。

(c) 23条1項(第三者提供)の問題

原データが公的データベース(CaseLaw LOD = CC BY 4.0、官報)であり、もともと公開されている情報を整理して提供しているという構造は、破産者マップ事案の原告が主張した「官報で既に公告されている」という抗弁と同型である。しかし上述の通り、情報主体が公務員であるという点で、比較衡量の結果は全く異なってくる。23条1項2号(財産保護の必要性)の議論以前に、そもそも公務員の職務情報を公開することの公益性が高く評価されるべきである。


4. 本質的な評価 — 問題の所在はどこか

裁判官マップは、個人情報保護法上の問題として論じるよりも、以下の3つの軸で評価すべきものだと思います。

第一に、公的データソースを集約・整理して市民にアクセスしやすくすること自体は、民主的統制の基盤として正当であり、場合によっては積極的に推進されるべきこと。諸外国(アメリカのCourtListenerやJUDGE等)でも類似のサービスは存在し、むしろ司法の透明性向上に寄与すると評価されている。

第二に、問題は匿名口コミ機能にある。これは「処理」(systematic processing)の問題ではなく、ユーザー生成コンテンツ(UGC)のモデレーションの問題であり、情報流通プラットフォーム対処法(旧プロバイダ責任制限法)の枠組みで対処されるべき領域。サイト自体も情プラ法遵守を謳っている。

第三に、最も深い問題は、草場裁判官が逮捕歴実名ツイート削除事件(最判令和4年6月24日)の意見で述べた「負の外的選好」[Togetter]の問題 — つまり、「他人の不幸(あるいは権力者の失態)を面白がる」心理がプラットフォームによって増幅される構造的問題 — であり、これは個人情報保護法の射程には入らない問題領域である。


まとめ

破産者マップ判例が確立した「散在情報の集約・データベース化による権利利益侵害の質的変容」という法理は重要だが、その射程は、情報主体が私人であり、情報の機微性が高く、差別的取扱いを誘発するおそれがある場面に限定される。裁判官マップの場合、情報主体は公権力の行使者であり、職務情報の透明化には高い公益性があるため、破産者マップの判例法理を直接適用して「違法」とすることは困難であり、またそうすべきでもないでしょう。

ただし、匿名口コミ機能が裁判官個人の名誉権を侵害する運用に堕するリスク、および司法の独立に対するポピュリスト的圧力となるリスクは、個人情報保護法とは別の法的枠組み(名誉毀損法、憲法76条3項)で注視されるべき論点です。

私:私の一連のツイートの全体を印刷したPDFを添付して)
私の見解ツイートです。参考になりますか。

Claude:大変参考になります。そして、先ほどの私の分析が相当に浅かったことを認めなければなりません。高木先生のスレッドを拝読して、私の分析の問題点を整理します。


私の分析の最大の誤り:「公務員だから問題ない」という短絡

私は「情報主体が公務員か私人か」を決定的な分水嶺として扱い、「公務員の職務情報だから個人情報保護法上の問題は小さい」という方向に議論を進めてしまいました。しかし、高木先生が指摘されているように、これは個情法の規制構造を正しく理解していない議論です。

個情法の第三者提供制限規定(27条1項)は、情報の内容が機微かどうか、情報主体が公務員か私人かにかかわらず、個人データを第三者に提供する場合に原則として本人同意を要求しています。破産者マップの最初の事案で問題とされたのは、まさにこの「無条件の」第三者提供制限規定違反であり、不適正利用禁止(19条)はオプトアウト回避の問題に対処するために後から導入されたものです。この規制は裁判官マップにも等しく及ぶ、というのが正しい分析です。

つまり、「破産者の場合は機微情報だから違法、裁判官の場合は公務員の職務情報だから適法」という区別は、現行の日本法の規制構造のもとでは成り立たない。オプトアウト届出をしていない限り、裁判官マップも個人データの第三者提供制限規定に違反する、という結論になります。


見落としていた論点:「個人情報データベース等」の定義と施行令4条1項

高木先生が指摘されている施行令4条1項(16条1項柱書の除外規定)の議論は、私が完全に見落としていた論点です。

現行法では「利用方法からみて個人の権利利益を害するおそれが少ないものとして政令で定めるもの」が個人情報データベース等の定義から除外されており、施行令4条1項3号は「生存する個人に関する他の情報を加えることなくその本来の用途に供しているもの」を挙げています。

裁判官マップの場合、官報の人事異動データや判例データベースの情報を「その本来の用途に供している」だけなら除外対象に近づきうるが、そこに匿名口コミ評価AIによるキャリアランキングといった「他の情報を加え」ている点で、まさにこの除外から外れる。これは非常に鋭い指摘で、この条文の趣旨がデータ保護法の核心的保護利益(個人に対する評価・決定の適切性の確保)と直結しているという読み解きは、高木先生の決定志向モデルの実定法への適用そのものです。


「retrieve できるよう体系的に構成」の意味

私の先ほどの分析では「散在情報の集約・データベース化」という表現で破産者マップとの共通構造を指摘しましたが、高木先生が述べている「検索(retrieve)できるよう体系的に構成」の意味の説明はより根本的です。search機能があるかどうかではなく、一人ひとりのレコードがretrieveできるようになっていれば足りる — Excel表やリストになっていれば足りる、という説明は、データ保護法のscope(Art.2 gate)の本質に関わるものです。

これに対して私は、「報道」該当性や「公務員の職務情報の透明性」という、いわば適用除外の議論にすぐ飛んでしまい、そもそもの規制対象該当性を正確に論じていませんでした。


「正当な利益」不在という日本法の構造的問題

高木先生のスレッドで最も重要な指摘は、この問題が日本法の構造的未完成さを露呈するものだ、という点だと理解しました。

EU法(GDPR)では、第三者提供に特化した規制ではなく、6つの適法根拠のいずれかを充足しなければ処理自体が許されないという仕掛けになっており、「正当な利益」(Art.6(1)(f))の基準が多角的な利益衡量を可能にしています。裁判官マップのようなケースでは、この「正当な利益」該当性を正面から論じることができ、破産者マップとの差異も正当な利益の衡量の中で表現できる。

ところが日本法には「正当な利益」に相当する概念がなく、第三者提供を(同意またはオプトアウト以外は)一律に規制するという構造になっているため、破産者マップも裁判官マップも形式的には等しく違法となる。その結果、「世の中の相当な数の諸々が実は違法だということになりかねない」という問題が生じる。施行令4条1項の除外規定でなんとか調整しようとしているが、「正当な利益」という基準がないために妥当な線引きができず、「雑な規制でお茶を濁している」状態にある。

これはまさに高木先生の長年の研究テーマ — 日本の個情法の構造的欠陥 — の具体的な発現例です。


決定志向モデルからの分析:評価の過程と決定

高木先生のスレッドの後半で展開されている「評価の過程はデータ保護上問題でなく、決定に使われて問題が発現する」という議論は、私が先ほどの分析で「決定の方向性」として触れたものの表面的にしか論じられていなかった点を、より正確に定式化しています。

学術研究者の業績評価や芸能人のランキングは、本人がそうした評価に晒されることを職業上認識し望んで選択しているから、EU法では正当な利益、日本法では黙示の同意で整理できる。では裁判官はどうか — 「個人として評価・比較されランキングされることが、職業上の必然なのだろうか?」という問いは、安易に「公務員だから透明性が必要」と言い切れない深みがあります。

さらに、現状の口コミ程度ならともかく、「口コミソースのLLM評価ランキング」が出てくれば、それはデータ処理による評価(profiling)の問題として、EU法でも正当な利益から外れうるという指摘は、今後のAI時代における個人マップ問題の本質を突いています。


「誰でもナントカマップが作れる時代」への警鐘

「Claude Opus 4.6のテストで作らせてみたら、あっさりできてしまった」という田中弁護士のツイートに対する、「もはや下層エンジニアが破産者マップ作ってイキっていた時代とは違う段階に入った」という高木先生の指摘は、この問題の射程が裁判官マップの合法性にとどまらないことを示しています。LLMを使えば誰でもあらゆる個人マップを作れる時代において、個情委がここで介入しなければ「合法と思われて広がってしまう」という懸念は、政策的にも極めて重要です。


総括

私の先ほどの分析は、「公務員 vs 私人」という情報主体の属性を過度に重視し、日本の個情法の規制構造(第三者提供の一律規制、正当な利益概念の不在)を正しく踏まえていませんでした。高木先生の分析は、現行法のもとでは裁判官マップも形式的に違法であること、しかしそれは日本法の構造的未完成さ(正当な利益基準の不在)の問題であること、そして真の論点はデータ処理による評価・決定の適切性という核心的保護利益の観点から裁判官マップをどう位置づけるかにあること、を正確に示しています。

「この類の個人マップは現行法において違法であろう。しかし、将来完成するはずの同法においてもそうだということを必ずしも意味しない」という冒頭のツイートが、この問題の構造を最も簡潔に表現していると思います。

私:もし個情委がこれに介入したら、取消訴訟になるでしょうが、どんな争点になると予想しますか。

Claude:これは非常に面白い問題です。破産者マップ取消訴訟の争点構造を下敷きにしつつ、裁判官マップ固有の論点がどう展開されるかを予想してみます。


前提:手続の流れ

個情委の対応としては、破産者マップ事案と同様に、まず27条1項(第三者提供制限)違反を理由とする勧告(法145条1項)、不遵守の場合に命令(同条2項)、という流れが想定されます。ただし、破産者マップ事案と決定的に異なるのは、運営者が弁護士であり、まず間違いなく正面から法的に争う姿勢をとることです。破産者マップの原告のような杜撰な法的主張ではなく、相当に精緻な憲法論・個情法解釈論が展開されるでしょう。


争点1:個人情報データベース等の該当性(施行令4条1項)

破産者マップ事案ではこの争点は提起されませんでしたが、裁判官マップでは正面から争われるでしょう。

原告側は、裁判官マップの基礎データ(官報の人事異動、CaseLaw LODの判例データ)は、いずれも公的機関が不特定多数に提供している情報であり、施行令4条1項各号の趣旨に照らして「個人情報データベース等」から除外されるべきだと主張するでしょう。特に1号(不特定多数に販売目的で発行)・2号(随時購入可能)の趣旨が、公開情報の再利用を許容することにあるなら、CC BY 4.0で公開されているCaseLaw LODや無料のインターネット版官報のデータも同様に扱われるべきだという議論です。

これに対し被告側は、施行令4条1項3号が「他の情報を加えることなくその本来の用途に供しているもの」を要件としていることを指摘し、裁判官マップは公的データに口コミ評価やAIキャリアランキングという「他の情報を加え」ている以上、除外の要件を満たさないと反論するでしょう。

ここが最初の重要な論点になります。高木先生が指摘されたように、3号の趣旨は「本来用途では許されていても何らかが追加されるとそうではなくなる」ことに着目したものであり、裁判官マップは裁判官を評価することを目的として情報を加工・集約している。仮に口コミ機能やランキング機能を外した「素の」裁判官データベースであれば3号の射程に入りうるかもしれませんが、現状の裁判官マップはそうではない。

裁判所としては、おそらく施行令4条1項の除外には該当しないと判断するでしょうが、その判示の中で「本来の用途」「他の情報を加える」の意味について初めて実質的な解釈が示されることになり、これ自体が重要な先例となります。


争点2:法57条1項の適用除外(旧76条1項)

破産者マップ事案では、原告が政治団体(5号)と報道(1号)を主張しましたが、いずれも退けられました。裁判官マップでは、これらの主張がはるかに強力な形で展開されます。

(a) 報道該当性(57条1項1号)

破産者マップ事案で地裁は、本件サイトが「個別の情報伝達の機能に特化」しており「不特定かつ多数の者に対して客観的事実を事実として知らせるもの」に該当しないとしました。高裁は原告の規約が「個人情報保護法に反対すること」を目的としていることまで踏み込んで否定しました。

裁判官マップの場合、運営者は弁護士であり、サイトの目的も「司法制度への問題提起」と掲げています。しかし問題は、57条2項の「報道」の定義が「不特定かつ多数の者に対して客観的事実を事実として知らせること」であるところ、裁判官マップが提供しているのは①客観的な経歴・判例データの体系的提供に加えて、②匿名口コミという主観的評価、③AIランキングという加工情報を含む点です。

ここで争われるのは、サービス全体を一体として「報道」に該当するか否かを判断するのか、それとも機能ごとに分解して判断するのかという問題です。仮に経歴・判例データの提供部分だけを取り出せば「報道」に近づきますが、口コミ・ランキング機能を含む全体としてみれば、「事実として知らせる」を超えた「評価」の機能を備えている。破産者マップ高裁判決の論理(「事実として知らせることを目的としてはいない」)がここでも援用されるかどうかが注目されます。

原告側は、弁護士会のアンケートや法律雑誌での裁判官評価は従来から存在していたことを指摘し、裁判官マップはそれをデジタル化・民主化したものにすぎず、報道・ジャーナリズムの一形態であると主張するでしょう。被告側は、破産者マップ判決の論理を援用し、検索・通知機能に特化した個別情報提供は「報道」ではないと反論するでしょう。

(b) 学術研究該当性(57条1項3号)

破産者マップでは主張されなかった争点ですが、裁判官マップでは、原告がデータソースにCaseLaw LOD(国立情報学研究所のデータ)を用いていること、判決傾向の分析が学術的価値を持つことを根拠に、学術研究目的の適用除外を主張する可能性があります。

ただし、57条1項3号は「大学その他の学術研究を目的とする機関若しくは団体又はそれらに属する者」を主体要件としているため、弁護士個人が運営するサービスがこれに該当するかは相当に疑問であり、この主張は認められにくいと思います。


争点3:27条1項2号の適用除外(財産保護の必要性)

破産者マップ事案で原告は「取引相手の財産保護のため必要」と主張し、地裁は比較衡量の枠組みで退けました。

裁判官マップの原告は、同号ではなく、むしろ同項の他の除外事由や法の趣旨全体に訴える形になるでしょうが、仮に2号を援用するなら、「裁判を利用する国民が、担当裁判官の傾向を知ることは、裁判を受ける権利(憲法32条)の実質的保障に資する」という構成が考えられます。

しかし、破産者マップ判決の比較衡量枠組み(「本人が被るおそれのある権利利益の侵害を考慮してもなお第三者の権利利益保護の要請が上回る等の事情」)を適用すると、裁判官の場合に「本人が被るおそれのある権利利益の侵害」をどう評価するかが問題になります。破産者の場合は「経済生活上の更生を具体的・現実的に阻害する」という明確な不利益がありましたが、裁判官の場合、職務情報の公開がどのような権利利益侵害をもたらすのかは相当に議論の余地がある。ここで裁判所がどのような利益衡量を行うかは予測が難しいところです。


争点4:19条(不適正利用の禁止)の該当性

個情委が19条も根拠に含める場合、破産者マップとの決定的な差異が正面から争われます。

19条のガイドラインが例示する「裁判所による公告等により散在的に公開されている個人情報を、違法な差別が不特定多数の者によって誘発されるおそれがあることが予見できるにもかかわらず、集約してデータベース化しインターネット上で公開する場合」という事例は、破産者マップを念頭に置いたものであり、裁判官マップにそのまま当てはまるかが問題になります。

原告側は、裁判官の職務情報の公開が「違法な差別」を誘発するとは言えず、むしろ司法の民主的統制に資するものであるから、19条の射程外であると主張するでしょう。被告側は、口コミ評価の蓄積やAIランキングが裁判官に対する不当な社会的圧力となり、司法の独立を害するおそれがあることを指摘するかもしれませんが、これを「違法又は不当な行為の助長・誘発」と構成できるかは相当に苦しい。

19条の適用は、破産者マップに比べて格段に困難だと予想します。


争点5:憲法21条1項(表現の自由)

破産者マップ事案では、原告は検閲該当性(21条2項)を主張して退けられ、高裁で初めて報道の自由(21条1項)を補充的に主張しましたが、「大多数の国民や企業にとっては知るべき価値のある情報であるとは認め難い」として退けられました。

裁判官マップの場合、この争点の構造が根本的に変わります。裁判官の職務に関する情報は、破産者の破産手続等に係る情報とは異なり、司法の民主的統制という高い公益性を有する情報です。「知るべき価値のある情報であるとは認め難い」とは到底言えない。

原告側は、国民審査の形骸化という現実の問題を指摘し、裁判官に関する情報を市民に提供するサービスが表現の自由の保障を受ける活動であること、そして個情法による規制が表現の自由に対する過度の制約となることを主張するでしょう。特に、破産者マップ高裁判決が「報道の自由といえども無制限に尊重されるべきであるということはできない」と述べた際の比較衡量の枠組み — 破産者等の経済生活の再生を図るという破産法等の目的 — は、裁判官の場合にはそのまま使えません。

被告側は、個情法の規制は情報の内容を審査するものではなく、個人データの取扱方法に対する規制であるから、表現の自由に対する制約としては間接的・付随的なものであり、合理的な規制として許容されると主張するでしょう。

この争点は、裁判所にとって最も判断が難しいものになると思います。破産者マップ事案では比較的容易に退けられた憲法論が、裁判官マップでは相当の重みをもって裁判所に突きつけられることになります。


争点6:「個人の重大な権利利益の侵害が切迫」(145条2項)

命令の要件としての侵害切迫性は、破産者マップ事案では「人格的・財産的差別を受ける」おそれが認定されましたが、裁判官マップの場合、裁判官のどのような権利利益が侵害されるのかの特定が困難です。

考えられるものとしては、裁判官個人の名誉権(口コミによる評判低下)、プライバシー権(職歴等の体系的把握)、さらには司法の独立という制度的利益が挙げられますが、「個人の」権利利益侵害として構成できるのは前二者であり、司法の独立は145条2項の文言(「個人の重大な権利利益」)に直接は収まりにくい。

原告側は、裁判官の職務情報は公開情報であって名誉権侵害にはあたらず、口コミの問題は情プラ法で対処すべき問題であると主張するでしょう。被告側がこの要件の充足を立証できるかは、破産者マップの場合に比べてかなり難しいと予想します。


最大の争点:日本法の構造的問題の顕在化

以上の争点を俯瞰すると、実は裁判所が最も困る問題は、高木先生がツイートで指摘されている日本法の構造的問題です。

現行法の条文を素直に適用すれば、裁判官マップは27条1項違反(オプトアウト未届出での第三者提供)であり、施行令4条1項の除外にも該当しない。しかし、その結論は「世の中の相当な数の諸々が実は違法だということになりかねない」ものであり、裁判官の職務情報を市民に提供するサービスを違法とすることの社会的帰結は重大です。

EU法であれば「正当な利益」(Art.6(1)(f))の枠内で多角的な利益衡量を行い、破産者マップはアウト、裁判官マップの基礎的データ提供部分は正当な利益あり(ただし口コミのLLM評価ランキングが加わればアウト)、という段階的な判断が可能ですが、日本法にはその受け皿がない。

裁判所としては、27条1項違反を形式的に認定しつつも、57条(適用除外)の解釈を拡張するか、あるいは145条2項の要件(権利利益侵害の切迫性)の段階で実質的な利益衡量を行い、破産者マップとの差異を表現するか、という二つの逃げ道が考えられます。しかしいずれも、条文の文言を相当に柔軟に解釈する必要があり、判決の射程をコントロールするのが難しくなります。

むしろこの訴訟の最大の意義は、日本の個情法に「正当な利益」概念が欠如していることの弊害を裁判の場で可視化し、次の改正に向けた立法事実を提供することになる点にあるのではないでしょうか。破産者マップがオプトアウト回避問題を通じて不適正利用禁止規定の導入という立法事実を提供したように、裁判官マップは正当な利益基準の導入という、より根本的な法構造の改革に向けた立法事実を提供する可能性があります。

私:欧州で近いところの事案というと何が挙げられますか。

Claude:欧州で近い事案として、大きく二つ挙げられます。一つは「公開情報の大量集約・データベース化」の先例として、もう一つは「裁判官の分析」そのものの規制として、それぞれ異なる角度から裁判官マップ問題を照射するものです。


1. Satakunnan Markkinapörssi事件(フィンランド)— 公開情報の大量集約

事案

フィンランドでは納税情報が公的に閲覧可能でした。Satakunnan Markkinapörssi社は税務当局から公開データを収集し、約120万人の自然人の課税情報を地域別・所得区分別のアルファベット順リストとしてVeropörssi紙に掲載していました。さらに関連会社Satamedia社にCD-ROMでデータを移転し、SMS送信サービスを通じて個人の所得・資産情報を有料で提供していました[GDPRhub]

CJEU先行判決(C–73/07、2008年)

CJEUは、公的文書から収集された税務データの処理・公開・SMS配信のいずれもデータ保護指令上の「個人データの処理」に該当すると認定しました[GDPRhub]。ジャーナリズム目的の適用除外については、その活動が「もっぱら情報、意見またはアイデアの公衆への開示を目的とする」場合に限られるとし、その判断を国内裁判所に委ねました。

ECtHR大法廷判決(2017年)

ECtHR大法廷は、フィンランドのデータ保護委員会が両社に対して発した処理禁止命令が、表現の自由(ECHR10条)の合法的・正当・必要な制限であり、同条に違反しないと判示しました[Inforrm's Blog]

判決の中で特に重要なのは以下の2点です。

第一に、ECtHRは「大量の納税データへのアクセスを提供し収集することに公益が存在することは、そうした生のデータを分析的なインプットなしにそのまま大量に拡散することにも公益があることを必ずしも自動的に意味しない」と判示しました[Medium]

第二に、データの大量拡散が「もっぱらジャーナリズム目的」で行われたとは言えず、むしろ「好奇心旺盛な公衆が名前の特定された個人を経済的地位に従って分類することを可能にした」にすぎず、これは「他人の私生活に関する情報への公衆の渇望、すなわちセンセーショナリズム、さらにはのぞき見趣味の表れ」と見なしうるとしました[Inforrm's Blog]

裁判官マップとの関連

構造的な類似性は明白です。フィンランドの納税情報は公開データであり、破産者マップの官報情報と同様に「既に公開されている」情報でした。にもかかわらず、それを大量に集約・体系化してSMS検索サービスで提供する行為は、データ保護法上の処理に該当し、ジャーナリズムの適用除外も認められなかった。

裁判官マップについて考えると、ECtHRが示した「生データの大量拡散にも公益があるとは自動的には言えない」という法理は直接的に響きます。ただし、Satakunnan事件では情報主体が一般の納税者(私人)であったのに対し、裁判官マップの情報主体は裁判官(公権力行使者)であるという相違があり、「公的関心」のレベルが異なることは重要な区別点です。


2. フランスの裁判官分析禁止法(Article 33、2019年)— 裁判官マップの直接先例

立法の内容

2019年3月施行のフランス司法改革法(Loi de programmation 2018–2022 et de réforme pour la justice)のArticle 33は、裁判官および司法書記官の個人識別データを「その現実のまたは推定される職業上の実務を評価、分析、比較または予測する目的または効果をもって再利用」することを禁止しました[Artificial Lawyer]。違反には最大5年の禁固刑が科されます[ABA Journal]

立法の背景

この法律の直接の契機は、SupraLegemプロジェクト(2016年)でした。弁護士のMichael Benesty氏が機械学習を用いてフランスの裁判官の判決を分析し、特に庇護申請に関して著しいバイアスのある裁判官(100%の却下率の裁判官など)を検出しました[Abogacia]

この法律は、判例のオープンデータ化(全判決の無料電子的公開)を推進する改革と同時に制定されたものであり、公開データの「再利用」に条件を付す形になっています。判決自体の公開は維持され、裁判官名も匿名化されませんが、そのデータを裁判官個人の分析に使うことが禁じられました[Lexology]

憲法評議会の判断

フランス憲法評議会は草案段階でこの禁止を合憲と判断し、裁判官ごとの判決分析が「裁判所や裁判官の選択戦略を容易にし、司法の機能を変質させるおそれがある」との懸念を認めました。「公正かつ衡平な手続の権利を侵害するものではなく、当事者の権利の均衡に影響を与えるものではない」としています[McCann FitzGerald LLP]

批判

Verfassungsblogに掲載されたLangford & Madsen両教授の論文は、この法律を「表現の自由に対する明白な違反であり、学問の自由に対する侮辱であり、法の支配の基本原則を無視するもの」と厳しく批判しています。公開された判決データに基づく分析の禁止は「最も奇妙な検閲」であり、「司法の独自の出力の検閲」であるとされました[Verfassungsblog]

一方で、大企業や大手事務所がこの種のデータ分析を使って有利な裁判官を選択することが可能になれば、「司法をさらに不平等にし、特に富者と貧者の間の格差を広げる」という懸念もあります[Gregorybufithis]

裁判官マップとの関連

フランスのArticle 33は、裁判官マップの問題を考える上でまさにドンピシャの比較対象です。いくつかの重要な論点が浮かびます。

第一に、フランスは個人情報保護法(GDPR)の枠組み内ではなく、司法改革法の特別規定としてこの禁止を導入しました。つまりGDPRの「正当な利益」衡量で裁判官分析が適法になりうるからこそ、特別法で禁止したとも読めます。これは高木先生のツイートで「EU法でも正当な利益から外れ違法となるのではないか」と述べられている点に関わり、少なくともフランス立法者は、GDPR単独では裁判官分析を止められないと判断した可能性を示唆しています。

第二に、フランス法が禁止しているのは「評価、分析、比較または予測」という目的・効果であり、データの公開そのものではありません。判決は裁判官名付きで公開され続けます。禁止されるのは、裁判官個人をキーとした体系的な分析・評価・比較です。これは高木先生が指摘された「裁判官マップは、裁判官を評価することを目的としている様子がありありと窺える」という点、特に「裁判官キャリアランキング」や口コミ評価機能が、まさにフランス法が禁止しようとした行為類型に正面から該当します。

第三に、AI研究者Daniel L. Chunの研究は、裁判官の身元と庇護申請者の国籍だけで、開廷前に80%以上の精度で結果を予測できることを示しました[Above the Law]。これは「snap judgment」(即断)に依存する裁判官の存在を統計的に検出するものであり、司法の質を向上させるために有益とも言えます。しかしフランスはこの種の分析を全面禁止する方向に動いた。


二つの事案が示す対立軸

Satakunnan事件とフランスArticle 33は、裁判官マップの問題を挟む二つの対立軸を示しています。

透明性・説明責任の軸:裁判官の判決傾向を分析し公開することは、司法の透明性を高め、バイアスの検出や質の向上に資する。裁判官は公権力の行使者であり、その職務は公的監視に服するべきである。

司法の独立・平等の軸:裁判官の個人分析は、法廷選択(forum shopping)戦略を可能にし、資力のある当事者に有利な情報非対称を生む。裁判官が「評価される」ことを意識すれば、独立した判断が歪められる。フランス憲法評議会はこの懸念を正当と認めた。

高木先生のツイートの「評価の過程はデータ保護上問題でなく、決定に使われて問題が発現する。裁判官がいくらデータ評価に晒されようとも、誰もそれを決定に使いやしないなら、問題ないとも言い得る」という議論は、フランス憲法評議会が懸念した「裁判官選択戦略」への利用可能性と正確に対応しています。


日本への示唆

フランスの事例は、この問題がGDPRの枠組みだけでは処理しきれず、司法制度固有の特別法を必要とした事例です。日本においても、個情法の一般規定(第三者提供制限、不適正利用禁止)で対処しようとすれば、先ほど議論した通り、「世の中の相当な数の諸々が実は違法」になるという過剰規制の問題が生じます。かといってフランスのように裁判官分析を刑罰付きで全面禁止すれば、表現の自由・学問の自由との重大な緊張が生じます。

結局、この問題の適切な解決は、高木先生が長年主張されている「正当な利益」基準の導入を含む日本法の構造改革なしには達成できないのではないか、というのが、欧州の事例から得られる示唆だと思います。EU法の正当な利益衡量であれば、裁判官の経歴・判例データの提供は正当な利益あり、口コミのLLM評価ランキングは正当な利益から外れうる、という段階的判断が可能になる。フランスがそれでも足りないとして特別法を置いたことは、「正当な利益」基準を持ってしても裁判官分析の問題は一筋縄ではいかないことを示していますが、少なくとも議論の土俵は整うことになります。

私:フランスのそれについてもっと深掘りしてください。

Claude:フランスのArticle 33を深掘りすると、裁判官マップの問題を考える上で極めて示唆に富む制度設計の全体像が見えてきます。


立法の文脈:オープンデータ改革とセットだったという事実

ここが最も重要なポイントです。Article 33の裁判官分析禁止は、単独で突然出てきた規制ではありません。2016年10月の「デジタル共和国法」(Loi pour une République numérique)が、フランスの年間約390万件の司法判決をオープンデータとして無料で電子的に公開することを定めた[Ut-capitole]ことに対する、いわば対抗措置として設計されたものです。

つまり、フランスは判決のオープンデータ化を積極的に推進するのと同時に、そのデータを裁判官個人の分析に使うことを禁止するという、一見矛盾する二つの措置を一つの法律の同一条文の中で行ったのです。

Article 33の条文を正確に見ると、同じ条文の中に、まず「判決は無料で電子的形式で公衆に提供される」という公開の原則が置かれ、次に当事者・第三者の氏名の匿名化(occultation)が義務付けられ、さらに裁判官の識別データの分析目的での再利用禁止が規定されています[Legifrance]

この制度設計のポイントは、裁判官の氏名は判決文中で匿名化されないという点です。判決は裁判官名付きで公開され続けます。禁止されるのは、公開されたデータを裁判官個人をキーとして分析・評価・比較・予測に再利用することです[Law.com]。これは「公開」と「処理」を明確に区別する発想であり、高木先生の研究枠組みにおける「単発の公開(publication)と体系的処理(processing)の質的差異」そのものです。


Cadiet報告書(2018年):制度設計の知的基盤

ソルボンヌ大学法学部のLoïc Cadiet教授が2016年5月に司法大臣から委託され、2018年1月に提出した報告書[Ladreit-de-lacharriere-avocats]が、Article 33の制度設計の知的基盤を形成しています。

Cadiet報告書の主要な勧告は以下の通りでした。①判決の「仮名化」(pseudonymisation)技術を強化して私生活の保護を確保すること、②判決データを利用するアルゴリズムの規制を設けること[Ellisphere]

興味深いことに、当時の破毀院院長Bertrand Louvelは、裁判官の匿名化にも分析禁止にも反対の立場でした。Louvelは、オープンデータは予測的機能を持ち、判例の傾向から司法判断を予測することが可能になるが、それは裁判官自身が「補助者の協力を得て、自らの裁判活動における乖離を分析し、独立した判断のもとにその分析結果にどのような対応をすべきか判断できる」ために有益であると述べていました[Lexbase]。つまり、裁判官自身のセルフモニタリングのために分析を活用すべきだという立場です。

また、同報告書では、「フランス国民の名において裁判を行う裁判官の氏名を市民に対して秘匿することはできない」という原則論も提示されていました[Lexbase]

しかし最終的に立法者は、Louvelの立場を退け、分析禁止の方向に舵を切りました。


憲法評議会の判断(2019年3月21日、Décision n° 2019–778 DC)

フランス憲法評議会は、この禁止が合憲であると判断しました。裁判官ごとの判決分析が「裁判所や裁判官の選択戦略を容易にし、司法の機能を変質させるおそれがある」との懸念を認め、「公正かつ衡平な手続の権利を侵害するものではなく、当事者の権利の均衡に影響を与えるものではない」としました[McCann FitzGerald LLP]

ここで注目すべきは、憲法評議会が保護しようとした利益は「裁判官のプライバシー」ではなく、「司法の機能そのもの」だという点です。裁判官個人の分析が可能になれば、資力のある当事者が有利な裁判官を選ぶ戦略(forum shopping)を展開し、それが「司法の機能を変質させる」(altérer le fonctionnement de la justice)。保護法益は個人の権利利益ではなく、制度としての司法の公正性です。


SupraLegem事件:立法のトリガー

Article 33の直接のきっかけは、2016年のSupraLegemプロジェクトでした。弁護士でありML専門家でもあるMichael Benesty氏と同僚が、フランスの裁判官の判決を機械学習で分析するウェブサイトを開発し、特に庇護(asylum)申請に関して一部の裁判官に極端なバイアス(100%の却下率)があることを検出しました[Abogacia]

この発見は二つの全く異なる反応を引き起こしました。一方では「司法の質を向上させるために有益な発見だ」という評価、他方では「裁判官へのプロファイリングは司法の独立を脅かす」という警戒。フランス立法者は後者の方向に動きました。


批判の諸相

学問の自由・表現の自由の観点

Verfassungsblogに掲載されたLangford & Madsen論文は、この法律が「表現の自由に対する明白な違反であり、学問の自由に対する侮辱であり、法の支配の基本原則を無視するもの」であると批判しました[Verfassungsblog]。彼らは、ECHR10条の分析枠組みに基づき、フランスはこの禁止の「正当な目的」「必要性」「均衡性」を立証できていないと主張しています。

さらに同論文は、この禁止が「司法制度の機能に関する議論を刺激する」(Prager v. Austria判決で認められた表現の自由の役割)ことを妨げ、「人間の進歩に資する公的議論」(Giniewski v. France判決)を阻害するものであると指摘しました。「矛盾のある判例法やバイアスのある裁判官のいる法制度を持つことに客観的な利益はない」という批判です[Verfassungsblog]

リーガルテック企業の観点

Prédictice社のLouis Larret-Chahine CEOは「この新法はフランスの民主主義にとって完全な恥辱だ」と述べました[ABA Journal]。ただし同社は、裁判官個人ではなく裁判所単位の分析に切り替えることで法律を迂回する意向を示しました。

実効性への疑問

法律事務所が、クライアントのためにNLPシステムを用いて裁判官の過去の判決データを収集し統計モデルを構築すること自体は、「第三者に公開」しない限り禁止の射程外である可能性があるが、5年の禁固刑のリスクを考えると誰がそのリスクを取るか、という萎縮効果の問題[Artificial Lawyer]が指摘されています。


二層の匿名化構造

Article 33は精緻な二層構造を採用しています。

第一層(socle、基盤的匿名化):当事者・第三者の氏名の匿名化は義務的であり、判断の余地なく一律に行われます[Conseil national des barreaux]

第二層(complémentaire、補完的匿名化):当事者・第三者・裁判官・書記官を識別しうるその他の要素は、公開により安全またはプライバシーへの侵害のおそれがある場合にのみ、任意で匿名化されます[Conseil national des barreaux]

この第二層の匿名化の判断権限は裁判官自身に委ねられており、裁判官組合からは「すでに過重労働の裁判官にさらなる負担を課すものだ」との批判がありました[Predictice]

重要なのは、裁判官名は原則として匿名化されないという点です。公開される判決文には裁判官名が残ります。禁止されるのは「再利用」(réutilisation)であって「公開」(publication)ではない。ここに、「公開」と「処理」の区別が制度設計に組み込まれています。


「予測的司法」(justice prédictive)への懸念

フランスの議論では、オープンデータが「予測的司法」を可能にすることへの懸念が明示的に論じられています。判決データのアルゴリズム的処理は、まず地域間の判断の乖離を可視化し、次にその収斂を促進するとされますが[Ut-capitole]、それが裁判官の独立を害するか、むしろ司法の質を向上させるかが争われました。

コンセイユ・デタ副長、全国弁護士会議長、コンセイユ・デタ・破毀院弁護士会長が共同声明を出し、オープンデータの措置だけでは「全ての否定的効果を防ぐのに十分ではない」と表明しています[Ladreit-de-lacharriere-avocats]


裁判官マップ問題への示唆

フランスの経験から、裁判官マップの問題について以下のことが言えます。

第一に、問題の核心は「公開」ではなく「処理」にある。 フランスは判決の公開を推進しつつ、裁判官個人をキーとした「再利用」を禁止するという切り分けを行いました。裁判官マップについても、裁判官の経歴や判例が個別に公開されていること自体は問題ではなく、それを裁判官個人ごとにretrieveできるよう体系的に構成し、さらに口コミ評価やAIランキングを加えて「評価・分析・比較・予測」に供していることが問題なのであり、これはまさにフランスが禁止した行為類型そのものです。

第二に、保護法益は裁判官個人の権利利益ではなく、司法制度の機能である。 先ほど私が取消訴訟の争点予測で「145条2項の『個人の重大な権利利益の侵害が切迫』の要件充足が困難」と述べましたが、フランスの経験はまさにそのことを裏書きしています。フランス憲法評議会が認めた保護法益は、裁判官個人のプライバシーではなく「司法の機能の変質防止」でした。日本の個情法は「個人の」権利利益侵害を要件としているため、この制度的法益を条文に収めることが構造的に困難です。これは個情法の枠内では対処しきれず、フランスのように司法制度固有の特別法が必要となりうることを示唆しています。

第三に、フランスの選択は「正当な利益」衡量の限界を示している。 GDPRの正当な利益(Art.6(1)(f))の枠組みでは、裁判官分析の禁止を基礎づけるのが困難だったからこそ、フランスは特別法で対処したと考えられます。高木先生が指摘された「EU法でも正当な利益から外れ違法となるのではないか」という問いに対し、フランスの立法者は「GDPRだけでは足りない」と判断したことになります。正当な利益の衡量では、司法の透明性という強い公益と、裁判官プロファイリングの弊害との間で、一義的な結論が出にくいからでしょう。

第四に、Louvelの反対意見は「裁判官の自己モニタリング」という別の可能性を示していた。 裁判官分析を全面禁止するのではなく、裁判官自身が自らの判断傾向を分析するツールとして活用するという方向性がありえた。SupraLegemが発見した庇護申請100%却下の裁判官の問題は、まさにそうした自己モニタリングが必要な場面だった。しかしフランスは全面禁止の方向に動いた。この選択の当否は今も論争の対象です。

第五に、「裁判所単位の分析」への迂回可能性。 Prédictice社が示唆したように、裁判官個人ではなく裁判所単位での傾向分析は禁止の射程外となりうる。この「裁判官個人 vs 裁判所・部」の区別は、日本の裁判官マップにも関連します。裁判官マップが仮に個別の裁判官名を外し、裁判所・部単位のデータベースに再構成されれば、フランス法のもとでは適法となりうるが、高木先生の枠組みでいう「個人をキーとしたretrieve」の問題は消えることになります。


日本法への含意

フランスの事例が日本に突きつけている問題は、結局のところ、個人情報保護法の一般規定だけでは、裁判官分析の問題に対して適切な規制の粒度(granularity)を実現できないということです。

日本の個情法は、第三者提供を一律に規制するため、破産者マップも裁判官マップも形式的には等しく違法になる。しかし両者の問題の質は全く異なる。破産者マップは「差別の誘発」(19条)で正面から対処できたが、裁判官マップの問題は「司法の機能の変質」という制度的法益に関わり、19条の射程に入りにくい。

フランスは、この問題をGDPRの一般規定ではなく、司法改革法の特別規定として、判決オープンデータ化とセットで制度設計しました。しかもその中で「公開」と「処理(再利用)」を明確に区別し、後者のみを禁止するという精緻な切り分けを行った。

日本で同様の制度設計を行うとすれば、個情法の改正(正当な利益基準の導入)と並行して、司法制度の文脈での特別規定(判決オープンデータ化の推進と裁判官プロファイリングの規制のセット)を検討する必要があるかもしれません。高木先生がツイートで述べた「個情委がここで介入しなかったら、合法と思われて、広がってしまう」という懸念は正当ですが、介入するにしても、個情法の既存の道具立てだけでは粒度の粗い対応にならざるをえない。フランスの経験は、この問題に対する制度設計の一つのモデルを提供しています。

私:フランスの他の欧州の国々で同様の話はありますか。

Claude:欧州全体を見渡すと、フランスのArticle 33のような裁判官分析の明示的禁止は実は極めて例外的であり、むしろ各国は「判決のオープンデータ化」と「匿名化の範囲・方法」という異なる次元で独自のアプローチをとっていることがわかります。


フランスの孤立:明示的禁止は世界唯一

フランスは2019年3月に、裁判官の識別データを「評価、分析、比較、予測」する目的で再利用することを禁止した、世界で最初かつ(知られている限り)唯一の国です[Iacajournal]

これは重要な出発点です。他の欧州諸国はフランスに追随していない。むしろ各国は、判決の公開範囲と匿名化の範囲という二つの変数で異なる均衡点を模索しており、裁判官分析を直接規制するという発想自体が欧州で広く共有されているわけではないのです。


欧州各国の判決公開と裁判官名の扱い:三つの類型

欧州各国のアプローチは、大きく三つの類型に分けられます。

類型A:裁判官名を公開し、分析規制もしない国々

スペインでは、CENDOJが司法判決データベースを無料で公開しており、当事者の氏名は架空の仮名に置換されるが、裁判官、検察官、法定代理人の氏名は匿名化されません[COE]。スペインでは裁判官分析に関するフランス型の禁止はなく、裁判官名付きの判例データは比較的自由に利用可能です。

同様に、フランス自身も、判決文中の裁判官名は匿名化していません[COE]。裁判官名付きの判決は公開され続けるが、それを「再利用」して分析することが禁じられるという独特の構造です。

イギリスも伝統的にopen justiceの原則が強く、裁判官名は当然に公開されます。アメリカのLex MachinaやCourtListenerのような裁判官分析サービスは完全に合法です。

類型B:裁判官名を含め広範に匿名化する国々

イタリアでは、判決の匿名化がより広範に行われており、自然人・法人のみならず、場所やその他の情報も置換されます。ただし、イタリアの匿名化の範囲は判決の類型によって異なります[Springer]

ベルギー、クロアチア、フランス、ラトビア、リトアニア、ポーランド、ルーマニア、スロベニア、チェコが、当事者名の匿名化を比較的広く行うグループに属します。一方、オーストリア、フィンランド、ハンガリー、ポルトガルは異なるアプローチをとっています[Springer]

ここで重要なのは、これらの国々でも「裁判官名」の匿名化は一般的ではないということです。匿名化の対象は主に当事者・第三者であり、裁判官は公権力の行使者として原則として氏名が公開されます。

類型C:判決公開自体が限定的な国々

EU加盟国間の判決公開実務には大きなばらつきがあります。ブルガリアのように法的枠組みが整備された国は公開率が高いが、枠組みが欠如する国は公開する判決の数自体が限られています[Academia.edu]

ベルギーでは、1994年以降の民事・刑事判決がJuridatデータベースで検索可能ですが、公開される判決の数は相当限定的です[Academia.edu]

つまり、判決のオープンデータ化が進んでいない国では、裁判官分析の問題が技術的にほとんど発生しないという事情があります。


欧州評議会レベルの動き

欧州評議会は2022年11月に判決の匿名化に関するワークショップを開催し、各国の実務を比較検討しています[COE]。この場で各国の実務が報告されており、共通の問題意識として「判決の公開と個人データ保護の両立」が認識されていますが、フランス型の裁判官分析禁止を一般化すべきだという方向性は打ち出されていません。


GDPRと司法の関係:構造的な例外

EU法の枠組みでは、裁判所が「司法的機能」(judicial capacity)において行うデータ処理は、データ保護監督機関(DPA)の監督から除外されるのが原則です[Oxford Academic]。これはGDPR前文20項と法執行指令(LED)前文80項に基づくもので、司法の独立を確保するための措置です。

したがって、「判決を匿名化するかどうかの決定は、通常、裁判所の規則や手続によって行われる」[Springer]のであり、DPAが外部から裁判所に対して匿名化を命じるという構造にはなっていません。

しかし、問題は裁判所自身のデータ処理ではなく、公開された判決データを第三者が再利用する場合です。この場面では、第三者はGDPRの一般規定に服します。フランスのArticle 33は、まさにこの「再利用」の場面を特別法で規制したものです。


フィンランドのSatakunnan事件との接続

先ほど挙げたフィンランドのSatakunnan事件は、「公開データの大量集約」の問題として裁判官マップと構造的に類似していましたが、フィンランドの判決公開実務にも関連する展開があります。

フィンランドは、オーストリア、ルクセンブルクとともに、判決の自動匿名化システムを導入した国の一つです[ResearchGate]。フィンランドは納税情報については公開の伝統が強い(Satakunnan事件の背景)一方で、判決の匿名化には積極的であるという、やや複雑な姿勢をとっています。


アメリカとの対比

Slate誌の論評が指摘するように、アメリカは欧州とは対極のアプローチをとっています。中国は数百万件の法的文書を公開データとしてAI訓練に提供し、フランスは分析を禁止し、アメリカは法的文書を公開しつつ高額のペイウォール(PACER)の背後に置くという、「両方の悪い面を併せ持つ」アプローチ[Slate]と評されています。

ただしアメリカでは、Lex Machina(LexisNexisに買収)、Ravel Law(同)、RECAP/CourtListenerなどの裁判官分析サービスが自由に運営されており、テキサス州のEmily Miskel判事は「自分自身の判決の統計分析を見てみたい。自分のパフォーマンスをモニタリングするために」とツイートしています。アメリカの裁判官の中には、分析を脅威ではなく自己改善のツールと捉える者もいるわけです。


全体像:フランスの孤立が意味するもの

欧州全体を見渡したとき、裁判官分析に関して浮かび上がる構造は以下の通りです。

第一に、フランスの明示的禁止は欧州で孤立した選択であり、他の国は追随していません。Verfassungsblogの論文が「フランスは世界で初めて裁判官の行動に関する研究を犯罪化した」と述べた通り[Verfassungsblog]、これは極端な措置と見られています。

第二に、大半の欧州諸国は、「判決を公開する際に当事者を匿名化するが、裁判官名は匿名化しない」というアプローチを基本としています。裁判官は公権力の行使者であり、その氏名を秘匿することは司法の公開原則に反するという認識が広く共有されています。

第三に、しかし、公開された裁判官名付き判決データを体系的に「再利用」して裁判官をプロファイリングする行為をどう規制するかについては、フランス以外の国にはまだ明確な答えがありません。GDPRの一般規定(正当な利益の衡量)で対処できるかどうかは未決の問題です。

第四に、AI時代の到来により、この問題は急速に切迫度を増しています[Iacajournal]。判決のオープンデータ化が進むほど、LLMによる裁判官分析のコストは下がり、高木先生が指摘された「誰でもナントカマップが作れる時代」が欧州でも現実化しつつあります。フランスは先手を打って禁止したが、それが最適解かどうかはわからない。Louvelが提唱した「裁判官の自己モニタリング」のための活用という道も閉ざされてしまった。


日本の裁判官マップへの示唆

欧州各国の比較から得られる示唆は、裁判官マップの問題は「フランス型の全面禁止」か「アメリカ型の完全自由」かの二択ではない、ということです。

多くの欧州諸国は、判決オープンデータの推進と匿名化の範囲設定という「入口」(公開段階)の制度設計で対処しようとしており、「出口」(再利用段階)の規制に踏み込んだのはフランスだけです。日本では、民事判決情報データベース化の動きが進む中で、当事者名は仮名化されるが裁判官名は仮名化されないという制度設計がすでに決まっている以上、フランスが直面したのと同じ問題 — 公開された裁判官名付きデータの再利用をどう規制するか — が遠からず浮上することになります。

その際、個情法の一般規定だけで対処しようとすれば「雑な規制」になり、フランス型の特別法を置けば表現の自由・学問の自由との緊張が生じ、何もしなければ「ありとあらゆる個人マップが作られかねない」。欧州の経験が示すのは、この三つの選択肢のいずれも完全な解ではないということであり、だからこそ高木先生が主張される「正当な利益」基準の導入による、段階的で精緻な利益衡量の枠組みが必要とされるのだと思います。

私:では、裁判官の話から一旦離れて、一般化された「ナントカ(個人)マップ」サービス(マップである必要はないが)のような自然人評価プラットフォームのようなものは世界に存在しますか。

Claude:いい問いですね。裁判官マップを一般化すれば、「特定のカテゴリの自然人をデータベース化し、第三者が評価・レビューできるプラットフォーム」ということになります。実は世界にはかなりの数の類似サービスが存在し、そのいくつかは大きな社会的論争を引き起こしています。世界には実に多種多様な「自然人評価プラットフォーム」が存在します。職業カテゴリ別に整理し、データ保護法との緊張関係の度合いに注目して概観します。


1. 汎用型「人間のYelp」 — Peeple(2016年、カナダ/米国)

最も純粋な形の「ナントカマップ」です。当初「Yelp for People」と称され、2015年9月の構想発表時に、誰でも他人をProfessional・Personal・Datingの3カテゴリで1〜5の星評価とレビューが可能で、しかもオプトアウトできないという設計が大炎上しました[Wikipedia]。Washington Postが「terrifying」と評し、Change.orgで8,000署名の反対運動が起き、Black Mirrorの「Nosedive」エピソードとの類似が多くの批評家に指摘されました[Wikipedia]

2016年3月に実際にローンチされたバージョンでは、被評価者が否定的レビューを非公開にできる機能が追加されたものの、「Truth License」という有料サブスクリプションで非公開の否定的レビューを閲覧可能にするビジネスモデルが計画されていました[TechCrunch]。つまり、否定的評価を金で売るというモデルです。

Peepleは結局ほとんど普及せずに消えましたが、高木先生のツイートの「誰でもナントカマップが作れる時代になった」という警告を6年早く予示した事例として重要です。Peepleが失敗したのは技術的障壁が高かったからであって、LLM時代にはそのコストが劇的に低下しています。


2. 専門職評価型 — 既に広く定着したもの

弁護士:Avvo(2006年〜、米国)

裁判官マップに最も構造が近いのがこれです。Avvoは米国の全ライセンス弁護士の97%をカバーするディレクトリで、公的記録(州弁護士会、規律処分等)から自動的にプロフィールを生成し、独自のアルゴリズムで1〜10のレーティングを付与し、さらにクライアントレビューと同業者推薦を掲載しています[Wikipedia]

裁判官マップとの類似点として特に重要なのは、弁護士は自分のプロフィールを削除できないという点です。Avvoは公的記録から情報を取得しているため、弁護士の許可は不要と主張しています。弁護士からの訴訟も複数起きましたが、Avvoはレーティングが「憲法上保護された意見」であるとして訴訟を退けることに成功しています[Wikipedia]

ただしAvvoは米国限定のサービスであり、GDPRの適用を受けていません。EU域内で同様のサービスを運営すれば、正当な利益(Art.6(1)(f))の衡量や、プロファイリングに対する異議権(Art.21)が正面から問題になるでしょう。

医師:RateMyDoctors、Healthgrades、ZocDoc等

医師の評価サイトは世界中に存在し、患者によるレビュー、専門分野、所属病院、学歴等をデータベース化しています。医師の中には患者に対しオンライン評価サイトへの参加を辞退する免責同意書への署名を求めるケースさえ報告されています[Stanford]。医師評価サイトは、専門職への説明責任(accountability)の要請と、患者のプライバシー(レビュー内容から治療内容が推測される)との緊張を孕んでいます。

大学教員:RateMyProfessors(1999年〜)

おそらく最も長い歴史を持つ自然人評価プラットフォームです。学生が教授を評価し、「質」「難易度」の数値評価とテキストレビューを投稿できます。Yelpの研究で示されたように、「中庸な」評価は投稿されず、極端なポジティブとネガティブに偏るバイアスがあること、またジェンダーバイアスが内在していることが研究で示されています[Harry T Dyer]

高木先生のツイートで「学術研究に携わる者らはその業績が数値で評価されリスト化され公表される…そういう職業だと本人らは認識し、望んで選択してさえいる」と述べられた点は、まさにRateMyProfessorsのような既存のプラットフォームが(論争的ではあれ)定着している現実を指しています。


3. 公的記録集約型 — 破産者マップと同じ構造

性犯罪者登録(Sex Offender Registry、米国)

米国のMegan’s Lawに基づく性犯罪者登録データベースは、政府自身が運営する「個人マップ」そのものです。氏名・写真・住所・犯罪内容が地図上にプロットされ、一般市民が検索できる。データ保護の観点からは極めて問題的ですが、公共安全の利益から正当化されています。EU諸国にはこのような公開レジストリは一般に存在しません。

Mugshot websites(逮捕写真公開サイト、米国)

逮捕時の顔写真(mugshot)を公的記録から収集・データベース化し、削除のために金銭を要求するビジネスモデルのサイトが米国で問題になりました。これは破産者マップの「削除に6万〜12万円のビットコインを要求」というモデルと酷似しており、複数の州で規制法が制定されています。

不動産所有者情報(スウェーデン等の北欧諸国)

北欧諸国では不動産の所有者情報が公開されており、これを地図上にマッピングするサービスが存在します。フィンランドのSatakunnan事件で問題になった納税情報の公開もこの文脈に属します。


4. テナント・従業員スクリーニング型

テナントスクリーニング(米国)

賃貸住宅の入居希望者を信用情報・犯罪歴・退去歴等でスクリーニングするサービスは、個人の「データベース化と評価」の典型例であり、Fair Credit Reporting Act(FCRA)の規制対象です。

従業員評価・匿名レビュー:Glassdoor、Blind等

Glassdoorは企業の評価サイトですが、CEOレーティングや経営陣の評価機能を持ち、特定の自然人(CEO)がデータベース化されて評価される構造を含んでいます。


5. 中国の社会信用システム

概念的に最も極端な「自然人評価プラットフォーム」は中国の社会信用システム(Social Credit System)です。政府が市民の行動を包括的にスコアリングし、そのスコアに基づいてサービスへのアクセスを制限するというもので、Black Mirrorの「Nosedive」が現実化したと頻繁に比較されます。ただし、実態は報道されているほど一元的・包括的ではなく、地方政府や民間企業による断片的なシステムの集合体であるとする研究もあります。


データ保護法の観点からの類型化

これらのプラットフォームを高木先生の枠組みで整理すると、以下のような軸が浮かびます。

軸1:情報主体の属性と「同意」の構造

学者や芸能人は「そういう職業だと認識し、望んで選択してさえいる」ため黙示の同意が認められうるが、破産者はそうではない。弁護士はAvvoに対して訴訟を起こしている以上、少なくとも一部は同意していない。裁判官については、高木先生が問うた通り「個人として評価・比較されランキングされることが、職業上の必然なのだろうか?」が問われます。

軸2:「他の情報を加える」ことによる質的変容

施行令4条1項3号の「本来の用途に供しているもの」の問題として、公的データの単純な再提供と、口コミ・AIランキング等の「他の情報を加える」ことには質的な差異がある。Avvoの独自アルゴリズムによる1〜10スコア、RateMyProfessorsの学生評価、裁判官マップのキャリアランキングは、いずれも元データに「評価」を加えている。

軸3:評価が「決定」に使われるかどうか

高木先生の決定志向モデルの核心です。RateMyDoctorsの評価は患者の医師選択という「決定」に直結し、Avvoの評価は依頼者の弁護士選択に直結する。裁判官マップの評価は当事者の訴訟戦略(forum shopping)に使われうる。テナントスクリーニングは入居拒否という「決定」に直結する。Peepleの評価は交友関係の「決定」に使われうる。この「決定への接続」の有無と強度が、データ保護法上の問題の深刻さを左右します。

軸4:オプトアウトの可否

Avvoは弁護士のプロフィール削除を認めない。破産者マップも削除に金銭を要求した。Peepleは当初オプトアウト不可で大炎上し、後にオプトイン制に転換した。裁判官マップは裁判官にオプトアウトの手段を提供していない。日本法のオプトアウト規定(27条2項)との関係で、この点は重要です。


「誰でもナントカマップが作れる時代」の意味

以上を概観して見えてくるのは、これらのプラットフォームの大半が米国で発生し、米国法の下で運営されているという事実です。米国にはGDPRのような包括的データ保護法がなく、First Amendment(修正第1条)が表現の自由を強く保護するため、Avvoもmugshotサイトも性犯罪者レジストリも、合法的に運営されています。

欧州では、GDPRの正当な利益衡量がフィルターとして機能し、Satakunnan事件のような形でデータ保護当局が介入する余地がある。フランスは裁判官分析に特化した特別法を置いた。

日本は、正当な利益の基準を持たないまま第三者提供を一律に規制するという構造であるため、理論的にはAvvo型のサービスもRateMyProfessors型のサービスも等しく違法になりうる。しかし現実には誰も問題視していない。高木先生のツイートが指摘する通り、「世の中の相当な数の諸々が実は違法だということになりかねない」状態が既に存在しているのです。

LLM時代の到来は、この問題を一気に顕在化させます。従来は専門的なデータ収集・分析能力がなければ作れなかったプラットフォームが、AIに命じるだけで「あっさりできてしまう」。裁判官マップはその最初の目に見える事例ですが、同じ構造で教師マップ、医師マップ、警察官マップ、政治家マップ、そしてPeepleが夢見た「あらゆる人マップ」が作られうる。このカンブリア爆発的な状況に対して、日本法は制度的に無防備であり、正当な利益基準なしに妥当な線引きを示すことができない。これが高木先生の議論の核心的な問題提起であり、裁判官マップはそれを可視化する触媒なのだと理解しています。

私:フランスがGDPRでは無理だと考えた訳、わかりませんが、正当な利益の衡量要素にプライバシーを捉えているなら然もありなんですが、データ保護法はプライバシー保護法ではないのですよね。GDPRではあえてprivacyの語を入れなかったわけですし。

Claude:まさに核心を突くご指摘です。ここに、高木先生の長年の研究テーマが直接的に接続します。


GDPRにおけるprivacyの意図的排除

ご指摘の通り、GDPRのタイトルは “General Data Protection Regulation” であり、1995年のデータ保護指令(DPD)も “on the protection of individuals with regard to the processing of personal data” です。privacyという語は意図的に使われていません。

EU基本権憲章でも、Art.7(私生活及び家庭生活の尊重への権利、right to respect for private and family life)とArt.8(個人データの保護への権利、right to the protection of personal data)は明確に別の権利として規定されています。Art.8はArt.7から独立した固有の基本権であり、その内容は「公正な処理」「特定目的」「同意又は法律の定める正当な基盤」「アクセス権・訂正権」「独立した機関による遵守の監視」という、手続的・制度的な権利です。プライバシーの侵害を防ぐことではなく、データ処理が公正に行われることを確保するための権利です。


正当な利益(Art.6(1)(f))の衡量構造とその問題

Art.6(1)(f)のテキストは、管理者又は第三者の正当な利益のために処理が必要な場合、ただし「データ主体の利益又は基本的権利及び自由(interests or fundamental rights and freedoms)であって個人データの保護を要求するものが当該利益に優越する場合」には処理は許されない、としています。

ここで「基本的権利及び自由」という広い文言が使われていること自体は、プライバシーに限定されていない読み方を許容するはずです。しかし実務上、この衡量がどう行われているかを見ると、事実上、データ主体の「プライバシーへの合理的期待」(reasonable expectation of privacy)を中心に組み立てられている場合がほとんどです。

WP29のOpinion 06/2014(Art.7のlegitimate interestsに関する意見書)は、衡量の考慮要素として「データ主体の地位」「データの性質」「処理の方法」「データ主体の合理的期待」等を列挙しましたが、その中心的な問いは「データ主体がその処理を合理的に予期していたか」「データ主体のプライバシーへの影響はどの程度か」という、事実上プライバシー中心の枠組みになっています。


フランスの「失敗」の本質

この枠組みで裁判官分析を評価するとどうなるか。

裁判官の職務上のデータ(判決文中の氏名、担当事件、経歴)は、公権力の行使に関する公開情報です。プライバシーへの合理的期待は極めて低い。裁判官が公開法廷で下した判決は、まさに「公衆に知らされるべき」情報であり、職務遂行の透明性は民主主義の基本的要請です。

したがって、正当な利益の衡量を「プライバシーへの影響」を中心軸に行えば、裁判官分析は正当な利益ありという結論になりやすい。データ主体のプライバシーの利益が低い以上、管理者の利益(司法の透明性、当事者の情報アクセス)が優越する、と。

フランスがGDPRの一般規定では無理だと考えてArticle 33という特別法を置いたのは、おそらくこの構造を認識していたからでしょう。GDPRの正当な利益衡量の枠内で「裁判官分析は違法」という結論を出すのは、プライバシー中心の衡量では困難だった。


しかし、保護法益がプライバシーではないなら

ここが高木先生のご指摘の核心だと理解しました。

データ保護法の保護法益が「プライバシー」ではなく、高木先生が長年主張されてきたように「データ処理による個人に対する評価・決定の適切性の確保」(決定志向利益モデル)であるならば、Art.6(1)(f)の衡量構造は全く異なってくるはずです。

裁判官分析の問題を決定志向モデルで捉え直すと、問題はこうなります。裁判官の判決データを体系的に処理して評価・ランキングすることは、当事者によるforum shopping(有利な裁判官の選択戦略)という「決定」を可能にし、それが司法の機能を歪める。ここで保護されるべき利益は、裁判官個人のプライバシーではなく、裁判官に対する「評価・決定の適切性」 — もっと正確に言えば、データ処理による裁判官プロファイリングの結果が、当事者の訴訟戦略という「決定」に使われることで、司法の公正な機能が損なわれるという問題です。

Art.6(1)(f)の「データ主体の利益又は基本的権利及び自由であって個人データの保護を要求するもの」を、プライバシーではなく「データ処理による評価の適切性」として読み替えれば、裁判官分析が裁判官に対する不当なプロファイリングを構成し、それが裁判官の「基本的権利及び自由」(公正な職務遂行環境で働く権利、あるいは不当なプロファイリングを受けない権利)を侵害する、という構成が論理的には可能になります。

GDPR Art.22(自動化された個人的意思決定)の存在もこの読み方を支持します。Art.22は「本人に対して法的効果を生じさせ、又は同様に本人に重大な影響を与える」自動処理に基づく決定を規制していますが、その趣旨は「データ処理に基づく個人への評価・決定の適切性」の確保そのものです。裁判官のAIキャリアランキングは、Art.22の直接の適用対象にはなりにくい(裁判官に対する「決定」ではないため)が、Art.22が体現する保護法益 — データ処理による個人評価の適切性 — を正当な利益の衡量に読み込むことは可能でしょう。


フランスの「回り道」の原因

つまり、フランスがGDPRの外に出て特別法を置かざるを得なかったのは、GDPRそのものの構造的限界というよりも、GDPRの保護法益をプライバシーとして理解する実務的慣行が、裁判官分析の問題にうまく対処できなかったからではないか、ということになります。

データ保護法がプライバシー保護法であるという理解が支配的である限り、裁判官の職務情報には「プライバシーが低い→正当な利益あり→適法」という結論が出てしまう。そこでフランスは、データ保護法の外に、司法制度固有の特別法を置くという回り道をした。

しかし、データ保護法の保護法益を「評価・決定の適切性の確保」として正しく理解すれば、裁判官分析の問題はGDPRの枠内で — Art.6(1)(f)の衡量を通じて — 対処可能だったかもしれない。フランス憲法評議会が保護しようとした「司法の機能の変質防止」という法益は、決定志向モデルの言葉で言い換えれば「データ処理による裁判官評価が、当事者の訴訟戦略上の決定に使われることで、司法の決定(判決)の適切性が損なわれる」ことの防止であり、これはデータ保護法の核心的保護利益そのものです。


日本法への含意の再整理

この視座から日本法を見直すと、問題の構図がさらに明確になります。

日本の個情法の「正当な利益」基準不在の問題は、単に「利益衡量のツールがない」というだけではなく、何と何を衡量すべきかの軸がそもそも定まっていないことにあります。「プライバシーへの影響」を衡量軸とするなら、裁判官マップは問題が薄く、破産者マップとの差別化は容易です。しかし「データ処理による評価・決定の適切性」を衡量軸とするなら、裁判官マップにも固有の深刻な問題が見えてくる。

先ほどの取消訴訟の争点予測で、私が「裁判官の職務情報は公開情報であり、19条の射程に入りにくい」と述べたのは、暗黙にプライバシー中心の理解に立っていたということです。しかし高木先生が指摘された施行令4条1項3号の「他の情報を加えることなくその本来の用途に供しているもの」の趣旨を、「評価の材料となる他の情報を加えることに保護利益侵害のリスクを見出している」と読むなら、まさにデータ保護法の核心的保護利益(評価・決定の適切性)がここに埋め込まれているのであり、裁判官マップの口コミ・AIランキングは、その保護利益を侵害する構造を持っている。

結局、フランスのArticle 33の経験は、データ保護法をプライバシー保護法として運用する限り、裁判官分析のような問題には対処できず、特別法に逃げるしかないということを示している。しかし、データ保護法の保護法益を本来の「評価・決定の適切性」として正しく回復させれば、一般法の枠内でより精緻な対処が可能になるはずです。これは、フランス一国の問題ではなく、GDPR全体の運用をめぐる根本的な問題であり、高木先生が「将来完成するはずの同法」と述べられた日本の次期改正においても、「正当な利益」基準を導入するだけでは不十分で、その衡量軸をどこに置くかが問われることを意味しています。


フランスでそんなことになっていたとは知らなかった。GDPRとは別に規制したとのことだが、自動決定規制(後のGDPR 22条)発祥の国(1978年)として、理解が根っこで通じているからこその展開ではなかろうか。

*1 Claudeは、ほんの数ヶ月前まで、Web検索を重ねるとすぐに長さ制限に達していたが、ここ最近は、どんどん続けられるようになっており、もはやChatGPTに頼らなくて済むようになってきた。


2026年02月11日

CNIL’s Misunderstanding of “Statistical Purposes” under the GDPR: Why ML Model Creation Should Be Treated as Statistical Processing

La version française se trouve ci-dessous. / The French version follows below.

Introduction: CNIL Says Something Strange

In its AI guidance (“Fiche 4–2”) [1], published in April 2024, the CNIL (France’s data protection authority) makes a remarkable claim about machine learning and statistical purposes:

“The use of statistical techniques of machine learning is not enough to consider that they are processing ‘for statistical purposes’, since the purpose of processing is not to produce aggregated data for themselves. The use of these techniques is more of a mean to train the model.” (CNIL, Fiche 4–2)

The CNIL’s reasoning is this: for processing to qualify as having a “statistical purpose” under the GDPR, it must aim solely at producing aggregated data “for themselves” (pour elles-mêmes) — that is, the aggregated data must be the end in itself. Since ML model training produces aggregated knowledge (model parameters) that will subsequently be used for something, it cannot qualify as statistical processing.

But consider where this logic leads. A government agency conducts a census and uses the resulting statistics to plan infrastructure. An insurer analyses claims data and uses the resulting statistics to set premium rates. A public health authority compiles epidemiological data and uses the resulting statistics to design vaccination campaigns. In each case, the statistics are produced in order to be used for subsequent decisions — they are not produced “for themselves” and nothing more. Under the CNIL’s interpretation, none of these would qualify as “statistical purposes” either.

Something has clearly gone wrong. To understand what, we need to go back to the origins of the “decision use prohibition” that the CNIL is attempting to apply.

Background: Why the “Decision Use Prohibition” Exists

The Council of Europe Framework

The rule that statistical data should not be used for decisions about individuals has a specific origin and a specific rationale. It was articulated most clearly in the Explanatory Memorandum to Council of Europe Recommendation No. R (97) 18 [3] on the protection of personal data collected and processed for statistical purposes.

The Explanatory Memorandum distinguishes between two types of decisions that can follow from statistical processing:

“Assistance with planning and decision-making is a purpose relevant to officials responsible for taking two types of decision: general decisions (laws, scales of assessment, vaccination campaigns, organisation of transport, design of blueprints, entry into production, etc.) and individual decisions (admission or exclusion, taxation, benefit, remuneration, etc.). Personal data collected and processed for statistical purposes may be used only for the first type of decision. Such general decisions no doubt have particular implications (favourable or unfavourable) for certain persons; but there must be no connection between the fact of having provided personal information which is then added into the statistical mix, and the fact of being concerned by an individual decision.” (Explanatory Memorandum, para. 13)

This is the crucial distinction: the prohibition is not against using statistical results — general decisions based on statistics are explicitly permitted — but against making individual decisions about the very persons whose data was fed into the statistical process. General decisions — legislation, insurance rate scales, public health campaigns, urban planning — are perfectly permitted uses of statistical results, even though they inevitably affect particular individuals. What matters is the absence of a direct link between having contributed data to the statistical input and being targeted by an individualised decision on the basis of that contribution.

Why Statistical Processing Itself Is Not Harmful

The Explanatory Memorandum goes further, explaining why statistical processing receives favourable treatment under data protection law:

“it is not statistical processing as such which presents a threat to data subjects, but merely the fact that the data on which it is based could be diverted to non-statistical purposes … there are no grounds on which statistical interests could justify an infringement of the interests of the data subjects, since the latter are not in any case infringed by statistics” (Explanatory Memorandum, para. 29)

This passage makes clear that the concern addressed by the decision-use prohibition is about diversion of input data to non-statistical uses — not about the statistical output being put to use. The “threat” in question is the threat of individualised adverse decisions being made about data subjects on the basis of their data; it is not about information security risks such as data breaches or re-identification, which are governed by separate safeguards. Statistical processing transforms individual-level personal data into aggregate knowledge. This transformation is precisely what makes it safe from the perspective of the decision-use prohibition: the output relates to populations and patterns, not to identifiable individuals.

The Memorandum also explains the nature of statistical purpose as an “intermediate purpose” that connects to other purposes at the output stage:

“at the output stage it links up with other purposes … the statistical information furnished for such intermediate purposes always relates to mass phenomena and cannot, therefore, under any circumstances entail direct or individualised consequences for individuals.” (Explanatory Memorandum, para. 12)

In other words, statistical results are meant to be used — for policy-making, planning, research, and general decision-making. What they must not be used for is making decisions about particular individuals on the basis of their having been data subjects in the statistical process.

The Wording Problem in Recital 162

This framework from the Council of Europe Recommendation was carried into EU data protection law, but the wording shifted at each stage in ways that progressively obscure the original meaning.

Council of Europe Recommendation (97) 18 was unambiguous. The Explanatory Memorandum speaks consistently about the input data — the personal data of the individuals whose information was fed into the statistical process. The prohibition is against diverting those data to make individual decisions about those persons. The statistical output — aggregate results — is explicitly meant to be used for general decisions. There is no confusion about what is prohibited and what is permitted.

DPD Recital 29 [4] stated: “the further processing of personal data for historical, statistical or scientific purposes is not generally to be considered incompatible with the purposes for which the data have previously been collected provided that Member States furnish suitable safeguards; whereas these safeguards must in particular rule out the use of the data in support of measures or decisions regarding any particular individual.”

This formulation preserves the core idea: “the data” whose use must be ruled out refers to the personal data being processed — the input data. The safeguard requirement is that this personal data must not be diverted to support individualised measures or decisions. The recital is structured as a requirement on safeguards — Member States must ensure that protections exist — not as a definition of what “statistical purpose” means. It also establishes statistical purposes as a case of further processing that is presumptively compatible with the original collection purpose — a framing that GDPR Article 5(1)(b) would later codify directly.

GDPR Recital 162 [5] reformulated this in two significant ways:

“the statistical purpose implies that the result of processing for statistical purposes is not personal data, but aggregate data, and that this result or the personal data are not used in support of measures or decisions regarding any particular natural person.”

First, the phrase “this result or the personal data” introduces a critical ambiguity absent from the earlier formulations. In the original framework, the prohibition concerned only the diversion of input personal data to individualised decisions. Now, “this result” — the aggregate statistical output — is placed alongside “the personal data” as something that must not be used for decisions about particular persons. The question is why “this result” was added at all. If the clause had simply retained the DPD’s formulation — that the personal data must not be used for individual decisions — the safeguard would have been clear and sufficient. By inserting “this result” alongside “the personal data,” the drafters created a formulation that most naturally reads as extending the prohibition to the statistical output itself — precisely the reading that, if taken literally, would prohibit any use of statistical results for decisions, contradicting the entire purpose of the statistical framework. The alternative reading — that the clause is really saying the same thing as the original framework, and that “this result” merely clarifies that statistical outputs should not constitute personal data — is more coherent with the legislative history, but the disjunctive phrasing makes it far less obvious.

Second, the sentence has been restructured from a safeguard requirement into an explanatory statement — “the statistical purpose implies that …” The institutional context helps explain this shift. DPD Recital 29 was prescribing safeguards that Member States had to implement in their national legislation transposing the Directive; it needed to specify requirements. The GDPR, by contrast, is directly applicable and contains its own substantive provisions for statistical processing (Article 89). The Commission’s original GDPR proposal [6] accordingly did not contain a recital on statistical purposes in the form of DPD Recital 29; the wording that would become Recital 162 is absent from the Council’s general approach of 20 November 2015 [7] but appears in the compromise text of 15 December 2015 [8], indicating that it was introduced at a late stage of the Council negotiations. What was reintroduced, however, was not a set of requirements but an explanatory rationale: “the statistical purpose implies that …” — explaining why further processing for statistical purposes is presumed compatible with the original purpose under Article 5(1)(b). This is a statement of sufficient conditions — describing the characteristics that typically justify the compatibility presumption — not a definition of what counts as statistical processing. Because the recital is providing a justification, it can afford to describe the typical case broadly; it does not need to be read as an exhaustive set of necessary conditions.

Yet the phrasing “the statistical purpose implies that …” invites precisely this misreading. The CNIL treats the recital as defining what statistical processing is — and concludes that any processing not meeting every stated condition is, by definition, not statistical. This confuses a justificatory rationale with a definitional boundary.

There is no indication in the available travaux préparatoires that any substantive departure from the DPD’s framework was intended. Yet the resulting ambiguity — both in the “this result or the personal data” formulation and in the shift from requirement to rationale — has led data protection authorities astray. Read in light of its origins in Recommendation (97) 18, the provision simply means that personal data collected for statistical processing must not be diverted to make individual decisions about the persons whose data was processed. Read in isolation — as the CNIL appears to have done — it can be taken to mean that statistical results themselves must not be used for any decisions about any persons.

What CNIL Actually Says

Fiche 4–2 (April 2024)

The CNIL’s guidance on AI and data re-use contains a passage specifically addressing statistical purposes. It states:

“In order to pursue a statistical purpose within the meaning of the GDPR, the processing must only aim at the production of aggregated data for themselves: the sole purpose of the processing must be the calculation of the data, their display or publication, their possible sharing or communication (and not taking subsequent decisions, individual or collective). The statistical results thus obtained must constitute aggregated and anonymous data within the meaning of the data protection regulations.”

The CNIL then applies this definition to machine learning:

“The use of statistical techniques of machine learning is not enough to consider that they are processing ‘for statistical purposes’, since the purpose of processing is not to produce aggregated data for themselves. The use of these techniques is more of a mean to train the model.”

Bac à sable Recommendations (March 2025)

In its regulatory sandbox recommendations [2] concerning the RATP’s PRIV-IA project (video analytics for passenger flow management), the CNIL elaborates:

“the result of processing for statistical purposes cannot, by definition, constitute personal data. The data is aggregated and this result cannot be used in support of measures or decisions concerning a particular natural person. The CNIL’s position on ‘augmented’ cameras specifies this condition by indicating that processing cannot be regarded as solely statistical when it itself tends towards immediate decision-making.”

The CNIL provides three examples of processing that it considers not to be statistical despite producing aggregate measurements: triggering an immediate alert when crowd density exceeds a threshold, displaying an advertisement in real-time when someone passes a panel, and immediately blocking access to a location when a threshold is reached.

These three examples are, in fact, well-chosen — they all involve processing that acts upon the very individuals whose data was just collected, in real time. Under the Recommendation (97) 18 framework, these would indeed fail to qualify as statistical processing, because there is a direct connection between having provided the data and being subject to an immediate individual-level consequence.

Analysing the CNIL’s Position

Stage 1: Perhaps Just Copying Recital 162?

One charitable reading of the CNIL’s position is that the Bac à sable document is simply paraphrasing Recital 162. Its statement that statistical results “cannot be used in support of measures or decisions concerning a particular natural person” closely tracks the recital’s language. If this were all the CNIL were saying, the issue would lie with Recital 162’s drafting rather than with the CNIL’s interpretation.

Stage 2: “Pour elles-mêmes” Is Original, but Could Be a Paraphrase

However, Fiche 4–2 introduces the expression “pour elles-mêmes” (for themselves) — a phrase that does not appear in Recital 162 or anywhere else in the GDPR. This could still be read as an attempt to paraphrase the recital’s meaning: statistical results should be produced as an end-product of statistical processing, not as a cover for individualised decision-making.

Stage 3: The ML Exclusion Confirms the Misunderstanding

But the CNIL’s explicit exclusion of machine learning training from statistical purposes removes any room for charitable interpretation. Here, the CNIL actively applies its “pour elles-mêmes” criterion to conclude that because ML model training produces aggregated knowledge that will subsequently be used for something, it does not qualify as statistical processing.

This is not a strained reading of the CNIL’s position. Fiche 4–2 states in terms that statistical processing must not lead to “la prise de décisions ultérieures, individuelles ou collectives” — “taking subsequent decisions, individual or collective.” The word is “subsequent” (ultérieures), not “immediate.” The CNIL is not limiting its prohibition to real-time individual targeting; it is excluding any processing whose results will inform any subsequent decisions of any kind.

This reasoning would equally disqualify every traditional use of statistics. Census data used for infrastructure planning, epidemiological data used for public health policy, economic data used for monetary policy — all produce aggregate results that are subsequently used. The CNIL’s criterion, if applied consistently, would render the concept of “statistical purpose” effectively meaningless.

Indeed, the problem runs even deeper. Consider the most basic statistical output: a published average. Once an average salary, an average risk score, or an average treatment outcome is known, anyone can compare a particular individual against that average and make decisions accordingly. A bank could compare an applicant’s income against a published average; a hospital could compare a patient’s test result against a published norm. Under the Council of Europe framework, such uses are entirely legitimate — they are precisely the “general decisions” that statistical results are meant to inform, because the decisions are based on the general statistical benchmark, not on the individual’s participation in the underlying dataset. But under the CNIL’s criterion, even producing these averages would fail to qualify as “statistical” if the producer intended them to be used for anything beyond mere display. If the mere possibility that a statistical result could inform a later decision were sufficient to disqualify processing as “statistical,” then no statistical processing could ever qualify.

The CNIL treats ML model parameters as fundamentally different from traditional statistical outputs, but this distinction does not withstand scrutiny. An ML model’s parameters are a compressed, aggregate representation of patterns in training data — functionally analogous to a complex set of statistical coefficients. A regression model that produces coefficients, a decision tree that produces splitting rules, and a neural network that produces weight matrices are all doing the same thing: extracting aggregate patterns from individual-level data. The difference is one of complexity, not of kind. If a linear regression model trained on personal data qualifies as statistical processing, there is no principled reason why a neural network trained on the same data in the same way should not.

Stage 4: This Restrictive Interpretation Achieves No Protection

Even setting aside the interpretive error, the CNIL’s restrictive interpretation of statistical purposes provides no additional protection for data subjects. This is because:

First, the threat to data subjects arises at the application stage — when an ML model is used to make decisions about individuals — not at the creation stage, where personal data is transformed into aggregate model parameters. The Council of Europe Explanatory Memorandum was explicit about this: “it is not statistical processing as such which presents a threat to data subjects.”

Second, restricting the creation stage does not prevent problems at the application stage. An ML model created under a different legal basis (such as legitimate interest) can be applied in exactly the same ways as one created under a statistical purpose. The CNIL itself implicitly acknowledges this by allowing ML training under other legal bases.

Third, what the CNIL’s interpretation achieves is merely an increase in procedural burden — requiring controllers to rely on other legal bases instead of the presumption of compatibility available for statistical purposes. The substantive processing remains identical; only the paperwork changes.

Why This Happens: Forgetting the Relevance Principle

The CNIL’s desire to restrict model creation appears to stem from concern about how models might be applied — specifically, the fear that models trained on personal data could be used to make unfair decisions about individuals. This concern is legitimate, but the CNIL is looking for protection in the wrong place.

Data protection law already contains a powerful mechanism for addressing this concern at the application stage: the relevance principle under Article 5(1)(c). This provision, misleadingly labelled “data minimisation” in the GDPR, is in its origins a data quality principle. It requires that data used for decisions about individuals must be “adequate, relevant and not excessive” (as formulated in the DPD) or “adequate, relevant and limited to what is necessary” (as in the GDPR) in relation to the purposes for which they are processed.

When an AI system is applied to make or support decisions about individuals, the data feeding into those decisions must be relevant to the purpose of the decision. An insurer cannot use health data unrelated to underwriting risk; a lender cannot base creditworthiness assessments on data that bears no rational connection to repayment capacity. This is the relevance principle at work, and it applies regardless of how the underlying model was created.

The fundamental error in the CNIL’s approach is the attempt to solve application-stage problems through creation-stage restrictions. No amount of restriction on how a model is created can prevent the model from being applied inappropriately. Conversely, proper enforcement of data quality requirements at the application stage provides meaningful protection regardless of the model’s provenance.

I have discussed the relevance principle under Article 5(1)(c), its historical origins as a data quality principle rather than a data quantity principle, and its relationship with Article 22 on automated individual decision-making, in detail in a previous article on the Digital Omnibus proposal [9]. The key insight is that the “data minimisation” label distorts what is actually a decision quality requirement: ensuring that decisions about individuals are based on data that is adequate and relevant to the decision at hand — which can sometimes mean more data, not less.

Furthermore: “Individuelles ou Collectives”

A further indication of the CNIL’s misunderstanding is its addition of “collectives” to the prohibition. Fiche 4–2 states that statistical processing must not lead to “la prise de décisions ultérieures, individuelles ou collectives” — subsequent decisions, whether individual or collective.

This addition has no basis in the GDPR. Recital 162 prohibits only the use of statistical data “in support of measures or decisions regarding any particular natural person.” It says nothing about collective decisions.

More importantly, this addition directly contradicts the Council of Europe framework. Recommendation (97) 18 explicitly permits the use of statistical results for “general decisions (laws, rating scales, prevention campaigns, traffic plans, etc.).” These general decisions are, by their nature, collective — they affect groups, communities, and entire populations. The whole point of the general/individual decision distinction is that collective decisions based on statistical results are not merely permitted but are the primary legitimate use of statistics.

The CNIL’s motivation for adding “collectives” likely reflects a concern — associated with the emerging literature on group privacy — that statistical models could be used to target groups as such, producing discriminatory effects that escape individual-level analysis. This concern is not unfounded: an insurer that sets punitive rates for an entire neighbourhood, or an algorithm that systematically disadvantages a demographic category, does produce group-level harm.

But a “decision about a group” is, in practice, nothing other than a set of decisions about individuals, each based on an individual data point — namely, that the person belongs to the group in question. When an insurer applies a higher rate to all residents of a particular postcode, each affected policyholder is subject to an individual decision based on the personal datum of their address. The legal question is not whether the decision is “collective” in form, but whether the attribute used — postcode, age bracket, demographic category — is relevant to the decision purpose. This is precisely what the relevance principle under Article 5(1)(c) governs: the adequacy and relevance of the data used as the basis for a decision about an individual.

By adding “collectives” to the statistical purpose prohibition, the CNIL attempts to address group-level harms by restricting the creation of statistical knowledge — the wrong intervention point. Even if the CNIL’s concern is specifically about discriminatory group targeting rather than general policy-making, the analysis does not change: discrimination through group-based decisions is a matter of whether the group-membership attribute used as the basis for the decision is relevant to the decision purpose. The correct instrument is the relevance principle applied at the decision stage, not a restriction on statistical model creation. This approach requires no special concept of “collective decisions” and no departure from the individual-centred framework of data protection law.

Conclusion: The Creation/Application Distinction and the Irreducibility of Decision Impacts

The path forward requires recognising a clear separation between two stages:

The creation stage — training an ML model — is, in its essential character, a form of statistical processing. Personal data flows in; aggregate knowledge (model parameters) flows out. No individual decisions are made about the data subjects whose data was used. Under the framework established by Council of Europe Recommendation (97) 18 and reflected in GDPR Recital 162, this is precisely the kind of processing that qualifies as statistical: individual-level data is transformed into aggregate patterns that relate to populations, not to particular persons.

The application stage — using a trained model to make or support decisions about individuals — is where data protection concerns properly arise. At this stage, the relevance principle under Article 5(1)(c) requires that the data and inferences used for decisions must be adequate and relevant to the purpose of those decisions. This is the mechanism that prevents unfair, discriminatory, or disproportionate outcomes — not restrictions on how the model was created.

One might object that even “general” decisions ultimately affect individuals — that a new insurance premium scale, though general in form, determines what each particular policyholder pays. This is true, but it does not undermine the general/individual distinction. As discussed above, the distinction was never about whether individuals are affected, but about whether there is a direct link between having provided data to the statistical process and being individually targeted by a decision on that basis. A general premium scale derived from statistical analysis affects all policyholders on the basis of objectively defined risk categories, not on the basis of their individual participation in the statistical dataset. And the individual who objects to their classification has a claim under the relevance principle — that the risk category used is not adequate or relevant to the decision purpose — not a claim that the statistical analysis itself was impermissible.

This is precisely why the relevance principle, properly understood, is the correct regulatory instrument. It operates at the point where aggregate knowledge meets individual application: asking whether the criteria and data used to reach a decision about a specific person are adequate, relevant, and not excessive in relation to the purpose of that decision. It can address both the case of an AI system making automated predictions and the case of a human decision-maker relying on statistical tables — because the principle governs the decision, not the method by which the underlying knowledge was produced.

The CNIL’s interpretation conflates the creation and application stages. By refusing to recognise model creation as statistical processing, it imposes procedural burdens at the creation stage without providing any additional protection at the application stage. Meanwhile, by overlooking the relevance principle, it leaves the application stage — where real threats to data subjects arise — without the regulatory attention it deserves.

The European Commission’s Digital Omnibus proposal has drawn controversy for its broad approach to AI and the GDPR. But the underlying challenge it attempts to address is real: the existing framework, as interpreted by authorities like the CNIL, fails to properly distinguish between the creation and application of AI systems. A proper reading of the GDPR — one that takes seriously the historical origins of the statistical purpose framework and the relevance principle — already provides the tools needed to both enable legitimate statistical processing at the creation stage and ensure meaningful protection of individuals at the application stage. What is needed is not new legislation, but a correct interpretation of the principles that have been part of data protection law since its inception.


References:

[1] CNIL, “Les fiches pratiques IA : Fiche 4–2: IA : Assurer que le traitement est licite — En cas de réutilisation des données, effectuer les tests et vérifications nécessaires” (8 April 2024). Available in French and English.

[2] CNIL, “Bac à sable données personnelles et IA — Recommandations” (March 2025). Available at: https://www.cnil.fr/sites/cnil/files/2025-04/bac_a_sable_recommandations.pdf

[3] Council of Europe, Recommendation No. R (97) 18 concerning the protection of personal data collected and processed for statistical purposes, and Explanatory Memorandum (30 September 1997).

[4] Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of individuals with regard to the processing of personal data and on the free movement of such data, Recital 29.

[5] Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), Recital 162, Article 5(1)(b), Article 5(1)(c), Article 89.

[6] European Commission, Proposal for a Regulation of the European Parliament and of the Council on the protection of individuals with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), COM(2012) 11 final (25 January 2012).

[7] Council of the European Union, Proposal for a Regulation — General approach, ST 14319/15 (20 November 2015).

[8] Council of the European Union, Proposal for a Regulation — Analysis of the final compromise text, ST 15039/15 (15 December 2015).

[9] H. Takagi, “Digital Omnibus, Scope and Relevance: Are We Fighting the Wrong Battle?” (2025). Available at: https://takagi-hiromitsu.jp/diary/20251206.html


L’incompréhension de la CNIL concernant la « finalité statistique » au sens du RGPD : pourquoi la création d’un modèle d’apprentissage automatique relève du traitement statistique

Introduction : un raisonnement étrange

Dans sa fiche pratique sur l’IA (« Fiche 4–2 ») [1], publiée en avril 2024, la CNIL formule une affirmation remarquable concernant l’apprentissage automatique et la finalité statistique :

« Le recours à des techniques statistiques d’apprentissage automatique ne suffit pas à considérer qu’il s’agit de traitements “à des fins statistiques”, dans la mesure où la finalité du traitement de données n’est pas de produire des données agrégées pour elles-mêmes. Le recours à cette technique est davantage un moyen mis en œuvre pour l’apprentissage du modèle. » (CNIL, Fiche 4–2)

Le raisonnement est le suivant : pour qu’un traitement relève de la « finalité statistique » au sens du RGPD, il doit avoir pour unique objet la production de données agrégées « pour elles-mêmes » — c’est-à-dire que ces données agrégées doivent constituer une fin en soi. L’entraînement d’un modèle d’apprentissage automatique produisant des connaissances agrégées (les paramètres du modèle) qui seront ensuite utilisées à d’autres fins ne saurait donc être qualifié de traitement statistique.

Mais voyons où mène cette logique. Un organisme public réalise un recensement et utilise les statistiques qui en résultent pour planifier les infrastructures. Un assureur analyse les données de sinistres et utilise les statistiques qui en résultent pour fixer les barèmes de primes. Une autorité de santé publique compile des données épidémiologiques et utilise les statistiques qui en résultent pour concevoir des campagnes de vaccination. Dans chacun de ces cas, les statistiques sont produites pour être utilisées en vue de décisions ultérieures — elles ne sont pas produites « pour elles-mêmes » et rien de plus. Selon l’interprétation de la CNIL, aucun de ces traitements ne relèverait non plus de la « finalité statistique ».

Quelque chose ne va manifestement pas. Pour comprendre quoi, il faut remonter aux origines de l’interdiction d’utilisation décisionnelle que la CNIL tente d’appliquer.

Contexte : l’origine de l’interdiction d’utilisation décisionnelle

Le cadre du Conseil de l’Europe

La règle selon laquelle les données statistiques ne doivent pas être utilisées pour prendre des décisions individuelles a une origine et une justification précises. Elle a été formulée de la manière la plus claire dans l’exposé des motifs de la Recommandation n° R (97) 18 du Conseil de l’Europe [3] concernant la protection des données à caractère personnel collectées et traitées à des fins statistiques.

L’exposé des motifs distingue deux types de décisions pouvant découler d’un traitement statistique :

« Les résultats obtenus à la suite d’un traitement statistique peuvent être utilisés pour deux types de décisions : des décisions générales (lois, barèmes, campagnes de prévention, plans de circulation, etc.) et des décisions individuelles (admission ou exclusion, imposition, allocations, récompenses, etc.). Les données à caractère personnel collectées et traitées à des fins statistiques ne peuvent être utilisées que pour le premier type de décision. De telles décisions générales ont certes des incidences particulières (favorables ou défavorables) pour certaines personnes ; mais il ne doit y avoir aucun lien entre le fait d’avoir fourni des informations personnelles qui sont ensuite intégrées dans la masse statistique, et le fait d’être concerné par une décision individuelle. » (Exposé des motifs, par. 13 ; notre traduction)

C’est la distinction essentielle : l’interdiction ne porte pas sur l’utilisation des résultats statistiques — les décisions générales fondées sur les statistiques sont explicitement autorisées — mais sur le fait de prendre des décisions individuelles visant les personnes mêmes dont les données ont alimenté le traitement statistique. Les décisions générales — législation, barèmes d’assurance, campagnes de santé publique, planification urbaine — sont des utilisations parfaitement autorisées des résultats statistiques, bien qu’elles aient inévitablement des conséquences pour des personnes particulières. Ce qui compte, c’est l’absence de lien direct entre le fait d’avoir fourni des données et le fait d’être visé par une décision individualisée.

Pourquoi le traitement statistique en tant que tel n’est pas dangereux

L’exposé des motifs va plus loin, en expliquant pourquoi le traitement statistique bénéficie d’un régime favorable en droit de la protection des données :

« ce n’est pas le traitement statistique en tant que tel qui présente un danger pour les personnes concernées, mais uniquement le fait que les données sur lesquelles il repose pourraient être détournées à des fins non statistiques […] il n’existe aucun motif permettant aux intérêts statistiques de justifier une atteinte aux intérêts des personnes concernées, puisque ces derniers ne sont en tout état de cause pas lésés par la statistique » (Exposé des motifs, par. 29 ; notre traduction)

La préoccupation visée par l’interdiction d’utilisation décisionnelle concerne donc le détournement des données d’entrée à des fins non statistiques — et non l’utilisation des résultats statistiques. La « menace » en question est celle de décisions individualisées défavorables prises à l’encontre des personnes concernées sur la base de leurs données ; il ne s’agit pas des risques de sécurité informatique tels que les violations de données ou la réidentification, qui relèvent de garanties distinctes. Le traitement statistique transforme des données personnelles individuelles en connaissances agrégées. C’est précisément cette transformation qui le rend inoffensif du point de vue de l’interdiction d’utilisation décisionnelle : les résultats portent sur des populations et des tendances, non sur des individus identifiables.

L’exposé des motifs précise également la nature de la finalité statistique en tant que « finalité intermédiaire » qui se rattache à d’autres finalités au stade de la sortie :

« au stade de la sortie, elle rejoint d’autres finalités […] l’information statistique fournie à ces fins intermédiaires porte toujours sur des phénomènes de masse et ne peut, en aucune circonstance, entraîner des conséquences directes ou individualisées pour des personnes. » (Exposé des motifs, par. 12 ; notre traduction)

En d’autres termes, les résultats statistiques sont destinés à être utilisés — pour l’élaboration de politiques publiques, la planification, la recherche et la prise de décisions générales. Ce qu’ils ne doivent pas servir, c’est à prendre des décisions visant des personnes particulières du fait qu’elles ont été des personnes concernées dans le traitement statistique.

Le problème rédactionnel du considérant 162

Ce cadre issu de la Recommandation du Conseil de l’Europe a été repris dans le droit européen de la protection des données, mais la formulation a évolué à chaque étape de manière à obscurcir progressivement le sens originel.

La Recommandation (97) 18 du Conseil de l’Europe était sans ambiguïté. L’exposé des motifs se réfère constamment aux données d’entrée — les données à caractère personnel des individus dont les informations ont alimenté le traitement statistique. L’interdiction porte sur le détournement de ces données pour prendre des décisions individuelles visant ces personnes. Les résultats statistiques — données agrégées — sont explicitement destinés à être utilisés pour des décisions générales. Aucune confusion n’est possible entre ce qui est interdit et ce qui est permis.

Le considérant 29 de la directive 95/46/CE [4] énonçait : « le traitement ultérieur de données à caractère personnel à des fins historiques, statistiques ou scientifiques n’est pas considéré en général comme incompatible avec les finalités pour lesquelles les données ont été auparavant collectées, dans la mesure où les États membres prévoient des garanties appropriées ; que ces garanties doivent notamment empêcher l’utilisation des données à l’appui de mesures ou de décisions prises à l’encontre d’une personne. »

Cette formulation préserve l’idée fondamentale : « les données » dont l’utilisation doit être empêchée désignent les données à caractère personnel faisant l’objet du traitement — les données d’entrée. La garantie exigée est que ces données ne soient pas détournées pour étayer des mesures ou décisions individualisées. Le considérant est structuré comme une exigence de garanties — les États membres doivent veiller à ce que des protections existent — et non comme une définition de ce que signifie « finalité statistique ». Il pose également la finalité statistique comme un cas de traitement ultérieur présumé compatible avec la finalité initiale de collecte — un cadrage que l’article 5, paragraphe 1, point b) du RGPD allait ultérieurement codifier directement.

Le considérant 162 du RGPD [5] a reformulé cela de deux manières significatives :

« la finalité statistique implique que le résultat du traitement à des fins statistiques n’est pas constitué de données à caractère personnel mais de données agrégées et que ce résultat ou les données à caractère personnel ne sont pas utilisés à l’appui de mesures ou de décisions concernant une personne physique en particulier. »

Premièrement, l’expression « ce résultat ou les données à caractère personnel » introduit une ambiguïté critique absente des formulations antérieures. Dans le cadre originel, l’interdiction ne concernait que le détournement des données personnelles d’entrée vers des décisions individualisées. Désormais, « ce résultat » — le produit statistique agrégé — est placé à côté des « données à caractère personnel » comme quelque chose qui ne doit pas être utilisé pour des décisions concernant des personnes particulières. La question est de savoir pourquoi « ce résultat » a été ajouté. Si la clause avait simplement conservé la formulation de la directive — selon laquelle les données à caractère personnel ne doivent pas être utilisées pour des décisions individuelles —, la garantie aurait été claire et suffisante. En insérant « ce résultat » à côté des « données à caractère personnel », les rédacteurs ont créé une formulation qui se lit le plus naturellement comme étendant l’interdiction au résultat statistique lui-même — précisément la lecture qui, prise au pied de la lettre, interdirait toute utilisation des résultats statistiques à des fins décisionnelles, en contradiction avec la raison d’être même du cadre statistique. L’autre lecture — selon laquelle la clause dit au fond la même chose que le cadre originel, et que « ce résultat » ne fait que préciser que les résultats statistiques ne doivent pas constituer des données à caractère personnel — est plus cohérente avec l’histoire législative, mais la formulation disjonctive la rend beaucoup moins évidente.

Deuxièmement, la phrase est restructurée d’une exigence de garanties en un énoncé explicatif — « la finalité statistique implique que… ». Le contexte institutionnel éclaire cette évolution. Le considérant 29 de la directive prescrivait des garanties que les États membres devaient mettre en œuvre dans leur législation nationale de transposition ; il devait spécifier des exigences. Le RGPD, en revanche, est directement applicable et contient ses propres dispositions substantielles relatives au traitement statistique (article 89). La proposition initiale de la Commission [6] ne contenait donc pas de considérant sur la finalité statistique dans la forme du considérant 29 de la directive ; la formulation qui allait devenir le considérant 162 est absente de l’approche générale du Conseil du 20 novembre 2015 [7] mais apparaît dans le texte de compromis du 15 décembre 2015 [8], ce qui indique qu’elle a été introduite à un stade tardif des négociations au Conseil. Ce qui a été réintroduit n’est toutefois pas un ensemble d’exigences mais une justification explicative : « la finalité statistique implique que… » — expliquant pourquoi un traitement ultérieur à des fins statistiques est présumé compatible avec la finalité initiale au titre de l’article 5, paragraphe 1, point b). Il s’agit d’un énoncé de conditions suffisantes — décrivant les caractéristiques qui justifient typiquement la présomption de compatibilité — et non d’une définition de ce qui constitue un traitement statistique. Parce que le considérant fournit une justification, il peut se permettre de décrire le cas typique de manière large ; il n’a pas à être lu comme un ensemble exhaustif de conditions nécessaires.

Pourtant, la formulation « la finalité statistique implique que… » invite précisément cette lecture erronée. La CNIL traite le considérant comme définissant ce que le traitement statistique est — et conclut que tout traitement ne satisfaisant pas à chaque condition énoncée n’est, par définition, pas statistique. Cela confond une justification avec une frontière définitionnelle.

Rien dans les travaux préparatoires disponibles n’indique qu’un changement substantiel par rapport au cadre de la directive était voulu. Pourtant, l’ambiguïté qui en résulte — tant dans la formulation « ce résultat ou les données à caractère personnel » que dans le passage d’une exigence à une justification — a induit les autorités de protection des données en erreur. Lu à la lumière de ses origines dans la Recommandation (97) 18, le considérant signifie simplement que les données personnelles collectées à des fins statistiques ne doivent pas être détournées pour prendre des décisions individuelles visant les personnes dont les données ont été traitées. Lu isolément — comme la CNIL semble l’avoir fait —, il peut être compris comme signifiant que les résultats statistiques eux-mêmes ne doivent servir à aucune décision concernant aucune personne.

Ce que la CNIL dit exactement

Fiche 4–2 (avril 2024)

La fiche pratique de la CNIL sur l’IA et la réutilisation des données contient un passage spécifiquement consacré à la finalité statistique :

« Pour poursuivre une finalité statistique au sens du RGPD, le traitement ne doit tendre qu’à la production de données agrégées pour elles-mêmes : le traitement doit avoir pour unique objet le calcul des données, leur affichage ou publication, leur éventuel partage ou communication (et non à la prise de décisions ultérieures, individuelles ou collectives). Les résultats statistiques ainsi obtenus doivent constituer des données agrégées et anonymes au sens de la réglementation sur la protection des données. »

La CNIL applique ensuite cette définition à l’apprentissage automatique :

« Le recours à des techniques statistiques d’apprentissage automatique ne suffit pas à considérer qu’il s’agit de traitements “à des fins statistiques”, dans la mesure où la finalité du traitement de données n’est pas de produire des données agrégées pour elles-mêmes. Le recours à cette technique est davantage un moyen mis en œuvre pour l’apprentissage du modèle. »

Recommandations du Bac à sable (mars 2025)

Dans ses recommandations relatives au Bac à sable [2] concernant le projet PRIV-IA de la RATP (analyse vidéo pour la gestion des flux de voyageurs), la CNIL précise :

« le résultat d’un traitement à des fins statistiques ne peut pas, par définition, constituer des données à caractère personnel. Les données sont agrégées et ce résultat ne peut pas être utilisé à l’appui de mesures ou de décisions concernant une personne physique en particulier. La position de la CNIL sur les caméras “augmentées” précise cette condition en indiquant que le traitement ne peut être regardé comme uniquement statistique lorsqu’il tend par lui-même à une prise de décision immédiate. »

La CNIL donne trois exemples de traitements qu’elle considère comme non statistiques bien qu’ils produisent des mesures agrégées : le déclenchement d’une alerte immédiate lorsque la densité de la foule dépasse un seuil, l’affichage d’une publicité en temps réel lorsqu’une personne passe devant un panneau, et le blocage immédiat de l’accès à un lieu lorsqu’un seuil est atteint.

Ces trois exemples sont, en réalité, bien choisis — ils impliquent tous un traitement qui agit sur les personnes mêmes dont les données viennent d’être collectées, en temps réel. Dans le cadre de la Recommandation (97) 18, ces traitements ne relèveraient effectivement pas de la finalité statistique, parce qu’il existe un lien direct entre le fait d’avoir fourni les données et le fait de subir une conséquence immédiate au niveau individuel.

Analyse de la position de la CNIL

Étape 1 : une simple reprise du considérant 162 ?

Une lecture charitable de la position de la CNIL consisterait à dire que le document du Bac à sable ne fait que paraphraser le considérant 162. Son énoncé selon lequel les résultats statistiques « ne peuvent pas être utilisés à l’appui de mesures ou de décisions concernant une personne physique en particulier » reprend fidèlement la formulation du considérant. Si c’était tout ce que disait la CNIL, le problème résiderait dans la rédaction du considérant 162 plutôt que dans l’interprétation de la CNIL.

Étape 2 : « pour elles-mêmes » est une formulation originale, mais pourrait être une paraphrase

Toutefois, la Fiche 4–2 introduit l’expression « pour elles-mêmes » — formule qui n’apparaît ni dans le considérant 162 ni nulle part ailleurs dans le RGPD. On pourrait encore y voir une tentative de paraphraser le sens du considérant : les résultats statistiques doivent être produits comme produit final du traitement statistique, et non comme couverture d’une prise de décision individualisée.

Étape 3 : l’exclusion de l’apprentissage automatique confirme le contresens

Mais l’exclusion explicite de l’entraînement de modèles d’apprentissage automatique de la finalité statistique ne laisse plus de place à une lecture charitable. La CNIL applique activement son critère du « pour elles-mêmes » pour conclure que, parce que l’entraînement d’un modèle d’apprentissage automatique produit des connaissances agrégées qui seront ensuite utilisées à d’autres fins, il ne relève pas du traitement statistique.

Il ne s’agit pas d’une lecture forcée de la position de la CNIL. La Fiche 4–2 [1] énonce en termes exprès que le traitement statistique ne doit pas tendre « à la prise de décisions ultérieures, individuelles ou collectives ». Le mot est « ultérieures », et non « immédiates ». La CNIL ne limite pas son interdiction au ciblage individuel en temps réel ; elle exclut tout traitement dont les résultats sont susceptibles d’éclairer une quelconque décision ultérieure.

Ce raisonnement disqualifierait tout autant chaque usage traditionnel de la statistique. Les données de recensement utilisées pour la planification des infrastructures, les données épidémiologiques utilisées pour les politiques de santé publique, les données économiques utilisées pour la politique monétaire — tous produisent des résultats agrégés qui sont ensuite utilisés. Le critère de la CNIL, appliqué de manière cohérente, viderait la notion de « finalité statistique » de tout contenu.

Le problème va même plus loin. Considérons le résultat statistique le plus élémentaire : une moyenne publiée. Dès lors qu’un salaire moyen, un score de risque moyen ou un résultat thérapeutique moyen est connu, quiconque peut comparer un individu particulier à cette moyenne et prendre des décisions en conséquence. Une banque pourrait comparer le revenu d’un demandeur à une moyenne publiée ; un hôpital pourrait comparer le résultat d’un patient à une norme publiée. Dans le cadre du Conseil de l’Europe, de tels usages sont parfaitement légitimes — ce sont précisément les « décisions générales » que les résultats statistiques ont vocation à éclairer, car ces décisions reposent sur le référentiel statistique général et non sur la participation de l’individu au jeu de données sous-jacent. Mais selon le critère de la CNIL, la production même de ces moyennes ne relèverait pas de la finalité statistique si leur auteur les destinait à être utilisées à d’autres fins que le simple affichage. Si la seule possibilité qu’un résultat statistique puisse éclairer une décision ultérieure suffisait à disqualifier un traitement comme « statistique », aucun traitement statistique ne pourrait jamais être qualifié comme tel.

La CNIL traite les paramètres d’un modèle d’apprentissage automatique comme fondamentalement différents des résultats statistiques traditionnels, mais cette distinction ne résiste pas à l’examen. Les paramètres d’un modèle d’apprentissage automatique constituent une représentation comprimée et agrégée des tendances présentes dans les données d’entraînement — fonctionnellement analogue à un ensemble complexe de coefficients statistiques. Un modèle de régression qui produit des coefficients, un arbre de décision qui produit des règles de segmentation et un réseau de neurones qui produit des matrices de pondération font tous la même chose : extraire des tendances agrégées à partir de données individuelles. La différence est de degré de complexité, non de nature. Si un modèle de régression linéaire entraîné sur des données personnelles relève du traitement statistique, il n’existe aucune raison de principe pour qu’un réseau de neurones entraîné de la même manière sur les mêmes données n’en relève pas.

Étape 4 : cette interprétation restrictive n’assure aucune protection

Même en faisant abstraction de l’erreur d’interprétation, l’interprétation restrictive de la CNIL n’apporte aucune protection supplémentaire aux personnes concernées. Et ce, pour trois raisons.

Premièrement, la menace pour les personnes concernées se situe au stade de l’application — lorsqu’un modèle est utilisé pour prendre des décisions concernant des individus — et non au stade de la création, où les données personnelles sont transformées en paramètres agrégés. L’exposé des motifs du Conseil de l’Europe était explicite sur ce point : « ce n’est pas le traitement statistique en tant que tel qui présente un danger pour les personnes concernées. »

Deuxièmement, restreindre le stade de la création n’empêche pas les problèmes au stade de l’application. Un modèle créé sur une autre base juridique (telle que l’intérêt légitime) peut être appliqué exactement de la même manière qu’un modèle créé sous le régime de la finalité statistique. La CNIL elle-même le reconnaît implicitement en autorisant l’entraînement de modèles sur d’autres bases juridiques.

Troisièmement, ce que l’interprétation de la CNIL produit n’est qu’un accroissement de la charge procédurale — obligeant les responsables de traitement à recourir à d’autres bases juridiques au lieu de la présomption de compatibilité dont bénéficient les finalités statistiques. Le traitement substantiel demeure identique ; seule la paperasse change.

Pourquoi cela arrive : l’oubli du principe de pertinence

La volonté de la CNIL de restreindre la création de modèles semble procéder de la crainte que des modèles entraînés sur des données personnelles puissent être utilisés pour prendre des décisions injustes concernant des individus. Cette préoccupation est légitime, mais la CNIL cherche la protection au mauvais endroit.

Le droit de la protection des données contient déjà un mécanisme puissant pour répondre à cette préoccupation au stade de l’application : le principe de pertinence prévu par l’article 5, paragraphe 1, point c). Cette disposition, trompeusement intitulée « minimisation des données » dans le RGPD, est à l’origine un principe de qualité des données. Elle exige que les données utilisées pour prendre des décisions concernant des individus soient « adéquates, pertinentes et non excessives » (selon la formulation de la directive) ou « adéquates, pertinentes et limitées à ce qui est nécessaire » (selon celle du RGPD) au regard des finalités pour lesquelles elles sont traitées.

Lorsqu’un système d’IA est appliqué pour prendre ou étayer des décisions concernant des individus, les données alimentant ces décisions doivent être pertinentes au regard de la finalité de la décision. Un assureur ne peut utiliser des données de santé sans rapport avec le risque à garantir ; un prêteur ne peut fonder l’évaluation de la solvabilité sur des données n’ayant aucun lien rationnel avec la capacité de remboursement. C’est le principe de pertinence à l’œuvre, et il s’applique indépendamment de la manière dont le modèle sous-jacent a été créé.

L’erreur fondamentale de l’approche de la CNIL est de tenter de résoudre des problèmes liés au stade de l’application par des restrictions au stade de la création. Aucune restriction portant sur la manière dont un modèle est créé ne peut empêcher que ce modèle soit appliqué de manière inappropriée. Inversement, une mise en œuvre rigoureuse des exigences de qualité des données au stade de l’application assure une protection effective, quelle que soit la provenance du modèle.

J’ai analysé en détail le principe de pertinence prévu par l’article 5, paragraphe 1, point c), ses origines historiques en tant que principe de qualité des données — et non de quantité des données —, ainsi que son articulation avec l’article 22 relatif aux décisions individuelles automatisées, dans un article précédent consacré à la proposition Digital Omnibus [9]. L’idée essentielle est que l’intitulé « minimisation des données » déforme ce qui est en réalité une exigence de qualité décisionnelle : garantir que les décisions concernant des individus reposent sur des données adéquates et pertinentes au regard de la décision en cause — ce qui peut parfois signifier davantage de données, et non moins.

Par ailleurs : « individuelles ou collectives »

Un autre indice du contresens de la CNIL est l’ajout du terme « collectives » à l’interdiction. La Fiche 4–2 [1] énonce que le traitement statistique ne doit pas tendre « à la prise de décisions ultérieures, individuelles ou collectives ».

Cet ajout ne trouve aucun fondement dans le RGPD. Le considérant 162 [5] n’interdit que l’utilisation des données statistiques « à l’appui de mesures ou de décisions concernant une personne physique en particulier ». Il ne dit rien des décisions collectives.

Plus fondamentalement, cet ajout contredit directement le cadre du Conseil de l’Europe. La Recommandation (97) 18 [3] autorise explicitement l’utilisation des résultats statistiques pour des « décisions générales (lois, barèmes, campagnes de prévention, plans de circulation, etc.) ». Ces décisions générales sont, par nature, collectives — elles concernent des groupes, des collectivités et des populations entières. Tout l’intérêt de la distinction entre décisions générales et décisions individuelles est que les décisions collectives fondées sur des résultats statistiques ne sont pas seulement permises, mais constituent l’usage légitime premier de la statistique.

La motivation de la CNIL pour ajouter « collectives » reflète probablement une préoccupation — liée à la littérature émergente sur la vie privée collective (group privacy) — selon laquelle des modèles statistiques pourraient être utilisés pour cibler des groupes en tant que tels, produisant des effets discriminatoires échappant à l’analyse individuelle. Cette préoccupation n’est pas sans fondement : un assureur qui fixe des tarifs punitifs pour un quartier entier, ou un algorithme qui désavantage systématiquement une catégorie démographique, produit bien un préjudice au niveau du groupe.

Mais une « décision concernant un groupe » n’est, en pratique, rien d’autre qu’un ensemble de décisions concernant des individus, chacune fondée sur une donnée personnelle individuelle — à savoir que la personne appartient au groupe en question. Lorsqu’un assureur applique un tarif plus élevé à tous les résidents d’un code postal particulier, chaque assuré concerné fait l’objet d’une décision individuelle fondée sur la donnée personnelle de son adresse. La question juridique n’est pas de savoir si la décision est « collective » dans sa forme, mais si l’attribut utilisé — code postal, tranche d’âge, catégorie démographique — est pertinent au regard de la finalité de la décision. C’est précisément ce que régit le principe de pertinence prévu par l’article 5, paragraphe 1, point c) : l’adéquation et la pertinence des données utilisées comme fondement d’une décision concernant un individu.

En ajoutant « collectives » à l’interdiction relative à la finalité statistique, la CNIL tente de prévenir les préjudices collectifs en restreignant la création de connaissances statistiques — ce qui constitue le mauvais point d’intervention. Même si la préoccupation de la CNIL porte spécifiquement sur le ciblage discriminatoire de groupes plutôt que sur l’élaboration de politiques générales, l’analyse ne change pas : la discrimination par des décisions fondées sur l’appartenance à un groupe est une question de savoir si l’attribut d’appartenance utilisé est pertinent au regard de la finalité de la décision. L’instrument adéquat est le principe de pertinence appliqué au stade de la décision, et non une restriction portant sur la création de modèles statistiques. Cette approche n’exige aucun concept spécial de « décisions collectives » ni aucune dérogation au cadre individualiste du droit de la protection des données.

Conclusion : la distinction création/application et l’irréductibilité des effets décisionnels

La voie à suivre exige de reconnaître une séparation nette entre deux stades.

Le stade de la création — l’entraînement d’un modèle d’apprentissage automatique — relève, par sa nature même, du traitement statistique. Des données personnelles entrent ; des connaissances agrégées (paramètres du modèle) sortent. Aucune décision individuelle n’est prise concernant les personnes dont les données ont été utilisées. Dans le cadre établi par la Recommandation (97) 18 du Conseil de l’Europe et repris par le considérant 162 du RGPD, c’est précisément le type de traitement qui relève de la finalité statistique : des données individuelles sont transformées en tendances agrégées portant sur des populations, non sur des personnes particulières.

Le stade de l’application — l’utilisation d’un modèle entraîné pour prendre ou étayer des décisions concernant des individus — est le lieu où les préoccupations en matière de protection des données se posent véritablement. À ce stade, le principe de pertinence prévu par l’article 5, paragraphe 1, point c) exige que les données et les inférences utilisées pour les décisions soient adéquates et pertinentes au regard de la finalité de ces décisions. C’est ce mécanisme qui prévient les résultats injustes, discriminatoires ou disproportionnés — et non les restrictions portant sur la manière dont le modèle a été créé.

On objectera que même les décisions « générales » finissent par toucher des individus — qu’un nouveau barème de primes d’assurance, bien que général dans sa forme, détermine ce que chaque assuré paie. C’est vrai, mais cela ne remet pas en cause la distinction entre décisions générales et individuelles. Comme exposé ci-dessus, cette distinction n’a jamais porté sur la question de savoir si des individus sont touchés, mais sur celle de savoir s’il existe un lien direct entre le fait d’avoir fourni des données au traitement statistique et le fait d’être individuellement visé par une décision sur cette base. Un barème de primes général dérivé d’une analyse statistique touche tous les assurés sur la base de catégories de risque objectivement définies, et non sur la base de leur participation individuelle au jeu de données statistiques. Et l’individu qui conteste sa classification dispose d’un recours au titre du principe de pertinence — la catégorie de risque utilisée n’est pas adéquate ou pertinente au regard de la finalité de la décision — et non d’un recours contestant le caractère licite de l’analyse statistique elle-même.

C’est précisément pourquoi le principe de pertinence, correctement compris, est l’instrument réglementaire adéquat. Il opère au point de jonction entre la connaissance agrégée et l’application individuelle : il examine si les critères et les données utilisés pour prendre une décision concernant une personne spécifique sont adéquats, pertinents et non excessifs au regard de la finalité de cette décision. Il peut s’appliquer aussi bien au cas d’un système d’IA produisant des prédictions automatisées qu’à celui d’un décideur humain s’appuyant sur des tables statistiques — parce que le principe gouverne la décision, et non la méthode par laquelle la connaissance sous-jacente a été produite.

L’interprétation de la CNIL confond les stades de la création et de l’application. En refusant de reconnaître la création de modèles comme un traitement statistique, elle impose des charges procédurales au stade de la création sans apporter aucune protection supplémentaire au stade de l’application. Parallèlement, en méconnaissant le principe de pertinence, elle laisse le stade de l’application — là où les véritables menaces pour les personnes concernées se manifestent — sans l’attention réglementaire qu’il mérite.

La proposition Digital Omnibus de la Commission européenne a suscité la controverse par son approche large de l’IA et du RGPD. Mais le défi sous-jacent qu’elle tente de relever est réel : le cadre existant, tel qu’interprété par des autorités comme la CNIL, ne parvient pas à distinguer correctement entre la création et l’application des systèmes d’IA. Une lecture correcte du RGPD — qui prenne au sérieux les origines historiques du cadre de la finalité statistique et du principe de pertinence — fournit déjà les outils nécessaires pour à la fois permettre le traitement statistique légitime au stade de la création et assurer une protection effective des individus au stade de l’application. Ce dont nous avons besoin, ce n’est pas d’une nouvelle législation, mais d’une interprétation correcte des principes qui font partie du droit de la protection des données depuis ses origines.


Références :

[1] CNIL, « Les fiches pratiques IA : Fiche 4–2 : IA : Assurer que le traitement est licite — En cas de réutilisation des données, effectuer les tests et vérifications nécessaires » (8 avril 2024). Disponible en français et en anglais.

[2] CNIL, « Bac à sable données personnelles et IA — Recommandations » (mars 2025). Disponible à : https://www.cnil.fr/sites/cnil/files/2025-04/bac_a_sable_recommandations.pdf

[3] Conseil de l’Europe, Recommandation n° R (97) 18 concernant la protection des données à caractère personnel collectées et traitées à des fins statistiques, et Exposé des motifs (30 septembre 1997).

[4] Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, considérant 29.

[5] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (règlement général sur la protection des données), considérant 162, article 5, paragraphe 1, points b) et c), article 89.

[6] Commission européenne, Proposition de règlement du Parlement européen et du Conseil relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (règlement général sur la protection des données), COM(2012) 11 final (25 janvier 2012).

[7] Conseil de l’Union européenne, Proposal for a Regulation — General approach, ST 14319/15 (20 novembre 2015).

[8] Conseil de l’Union européenne, Proposal for a Regulation — Analysis of the final compromise text, ST 15039/15 (15 décembre 2015).

[9] H. Takagi, “Digital Omnibus, Scope and Relevance: Are We Fighting the Wrong Battle?” (2025). Disponible à : https://takagi-hiromitsu.jp/diary/20251206.html


CNILによるGDPR「統計目的」の誤解:なぜMLモデルの作成は統計処理として扱われるべきか

前回は、日本の個人情報保護法の3年ごと見直しが「統計作成等であると整理できるAI開発等の円滑化」を予定していることに対しての反発する声に援用されそうな話として、生成AIの学習用データのクローリング段階を問題視するSoloveらの「The Great Scrape」を取り上げた。そして、もう一つ出てきそうな声が、「統計作成等である」と見做すことへの疑問視である。昨年11月の情報ネットワーク法学会研究大会でもそのような主張をする発表を1件見かけたが、国会審議が始まると、あるいは成立後になって、ゾロゾロと出てくるかもしれない。

この点は、3年ごと見直しでこの方向性が示されるより前の時点においても、NBLの「個人情報保護法実務研究会」による「実務問答」連載の中井杏弁護士の回「AI開発における学習用データの利用目的と学習済みパラメータの取扱い」(2023年11月)の中で、「曽我部教授からのコメント」が次のように指摘していた。

曽我部教授からのコメント

●学習データの作成と個人情報の「取扱い」●

本稿では、学習済みパラメータ作成のための個人情報の利用につき、統計データへの加工に関する従来の考え方と同様であると考え、利用目的の特定・公表は不要だとする。その理由付けは説得的ではあるが、なお若干の議論の余地があるように思われるため、コメントしておきたい。

第1に、学習済みパラメータ作成と統計データへの加工との違いをあえて考えてみると、最終的にその結果が個々人に適用されるか否かに関して相違がありうる。すなわち、学習済みパラメータは、それに基づいてプロファイリングが行われるなど、個人(ただし、学習済みデータに含まれる個人情報の本人とは限らない)の評価に用いられる場合があるのに対し、統計データは必ずしもそうではない。個人情報保護ないしプライバシー保護の保護法益が、個人に対する不利益の防止にあるとすれば、前者は、間接的にせよ個人に対する影響がありうる(典型的には後述する公平性の問題)。もちろん、学習済みパラメータにせよ統計データにせよ様々な種類・用途があるため一概には言えないが、この論点の考察に今の点を考慮する必要があるのではないか。*1

中井杏「AI開発における学習用データの利用目的と学習済みパラメータの取扱い」NBL 1254号(2023)52頁

機械学習は統計とは異なるという指摘だが、統計データは個人の評価に用いられない? これは奇妙な話である。どういうものを「統計」と呼んでいるのであろうか。最も単純な場合として平均値という統計を求めたとしよう。それが作成されれば、それを使って、平均以上の人かそれとも平均未満の人かという個人に対する評価・決定が行われるのは通常のことである。統計データならば個人の評価に用いられない——などということはない。「学習済みパラメータ」によって「プロファイリング」に基づく評価・決定が行われることも、それと同じである。

おそらく、ここで見落とされているのは、個人に対する評価・決定が行われる際には、「学習済みパラメータ」や「平均値」とは別に、そこに当て嵌めるために使用する当該個人についての何かしらの個人データが必ず用意されるという事実であろう。「学習済みパラメータ」や「平均値」だけで個人に対する評価・決定が行われるわけではない。したがって、懸念されている公平性の問題に対処するには、当て嵌め時に用いる個人データについてデータ保護法の規律(データ品質原則の関連性や正確性の要件)を適用するのである。

他にも、同じような指摘が、昨年5月に公表されたJILISレポートの座談会「個人情報保護法3年ごと見直し議論をめぐって」(音無・黒田・小西・山田・吉川・黒田・曽我部)での黒田佑輝弁護士の発言(12頁)にも見られる*2

これらへの私からの回答は、昨年4月19日の日記「【足掛け12年の総括】統計目的の二次利用が決定利用禁止を条件に許される理由が1997年勧告に明記されていた」に書いたとおりである。座談会は2月7日に行われたとあるので、間に合っていなかったようである。

このことは改めて論文で批評せねばと思っていたところ、先週、ChatGPTで調べ物をしている過程で、CNIL(フランスのデータ保護機関)がそれらとそっくりの見解をわりと最近に出していたのが見つかった。2024年4月にCNILが公表したAIに関するガイダンス「Les fiches pratiques IA」が、機械学習(MLモデルの作成)は結果(作成されたモデル)を個人に対する決定に使うのだから統計処理ではないと述べているのである。

なぜそうなったのかを調べていくと、どうやら、前掲の昨年4月19日の日記の終わりがけに「ところで、GDPRの前文162を改めて原文で読んでみると、」以下の部分で述べた、データ保護指令までは正常だった記述がGDPRでおかしくなっている件が影響したようである。「EUももはやわかっている人がいないのではないかと心配」していたところが現実になっていた。

Digital OmnibusでAI開発とデータ保護に挟まれEUが迷走しているのは、ここの無理解に原因があるからなので、これは急ぎCNIL批判を打ち込まねばなるまい。

というわけで今回も、ChatGPT(GPT 5.2 Thinking)で論点出しをした上で、Claudeにより論述ブログを生成した。今回のテーマはこれまでより論理が複雑であるせいか、Claude Opus 4.5(Extended)で原案を作らせていた時点ではなかなかうまい構成にならず苦慮していたところ、ちょうど、Opus 4.6が出たので、Opus 4.6(Extended)でやり直したところ、すんなりうまくいった。以下は、どのようなプロンプトで生成したかを開示するものである。

完成稿は上にある英語版フランス語版と、下に置いた日本語版である。


(略)

私:ああ、CNILのそれはまずいなあ。1)2)は一般論で研究目的例外寄りだね。3)は良いが4)がやばいな。4)のCNILのそれをもっと詳しく説明して。

ChatGPT:CNILのその箇所は、あなたの懸念どおり「ML=統計目的」をかなり強く切り落としています。ポイントは「統計“技術”と、GDPR上の統計“目的”を峻別する」ことです。

以下、CNILがそのページで何を言っているかを、あなたの枠組みに刺さる形で噛み砕きます。(略)

私:日本でもよくある話(高木説への批判)として、統計目的は許されるというが統計を使って何かの個人への決定に使う予定じゃないか、というものがある。この問題の混同については以前ここに書いたので、読んでみて。
https://takagi-hiromitsu.jp/diary/20250419.html

ChatGPT:読みました。この記事は、まさに今あなたが気にしている 「統計目的OK」論に対する典型的反論(=どうせ個人決定に使うんでしょ?)が、概念の混同だという点を、欧州評議会1997年勧告とDPD(95/46/EC)を材料に、かなりクリアに整理しています。(略)

私:OK、その通りなので、その趣旨を念頭に、CNILが他の資料でも同様のことを言っていないか、あるいは少し違うことも言っていないか、調べてみて。

ChatGPT:(略)

私:科学研究だからとか公益だからとかは本質を見てないよねえ。欧州は最近そういうのが多い(生成AIの著作権方面でも)。それはともかく、これは本格的に批判した方がよさそうだな。日本法がこれを許そうとしているので十分性認定に影響しかねない。まずは批判対象にするCNIL文献のリストを作りたいので、その次の深掘りもやってください。

ChatGPT:(略)

私:カメラの話がよくわからんな。さっきの「「統計目的」から外れる例として、商業施設でリアルタイムに広告表示を変えるケースを挙げ、」は、そりゃ明かに関連性のない決定目的なのでアウトなわけであって。関連性のある決定目的での統計利用(医療用途など)はOKなわけでさあ。

ChatGPT:(略)

私:そうだな、典型的な勘違いの例として使えるね。こりゃやばい、書かないと。あとは、思うに、さっきの私のブログが分析したように、DPDやCoE Rec 97 の頃は正しく説明していたのがGDPRでおかしくなっていて、私のその分析では故意ではなく過失だと思っていたのだが、今洒落になっていないわけだ。CNILがGDPRのそこを文字通りに読んだ結果としてこうなっているのか、それとも、GDPRのそこがそのように書き直される過程ですでにその思想が故意に現れていたのかを見極めたい。

ChatGPT:(略)

次にやるべき「見極め」作業(あなたの問いへの直球)

あなたが見たいのは「CNILが“文字通りに読んだだけ”なのか、起草過程で“意図的に”入ったのか」なので、実務的には:

  • (i) 2015年12月以前の理事会テキストで、この文言がいつ出現したか(2014→2015のどこで挿入されたか)
  • (ii) その挿入を提案した主体(Council working party? Presidency compromise?)を示す痕跡があるか
  • (iii) CNILが参照しているのがRecital 162だけか、それともCoE/DPD由来の“官庁統計モデル”文脈(統計機密・Eurostat等)を前提にしているか

を追うのが最短です。(略)

私:次にやるべき「見極め」作業をやってください。

ChatGPT:(略)

私:ちょっと待った、2)はいいのだけど、1)のCoEも同じことを言っていたというのは違うぞ。さっきの私のブログの分析を見てくれ。

ChatGPT:了解、止めてくれて助かりました。私の 「CoEも同じことを言っていた」 は あなたの分析(=どこが“まずい”のか) の核心点を落としていて不正確でした。

あなたの2025-04-19の整理どおり、CoE/DPDとGDPRの決定的な違いは「何を“決定利用禁止”の対象に入れているか」です。

(略)

(この作業は、まさにあなたがブログ末尾で「立案から成立までの過程で変化していないか、あとで調べる」と言っていた部分の実行になります。 )

(略)

私:そうそう、「あとで調べる」がまだやってなかった。手順A、B、Cはやりたいところだが、それは後にして、その前に今重要なのは、この会話で初めて出てきた「IA : Assurer que le traitement est licite …」の文書が言っていること(我々が今懸念している)は、本当に、「this result」を含めて言っているのか確認しておきたい。もしかしてCoE Rec 97と同じ意味で言ってると読める可能性はない?

ChatGPT:確認しました。この CNIL「IA : Assurer que le traitement est licite…(réutilisation)」は、あなたが懸念している点について、
  • 「個人に関する決定に使わない」だけでなく
  • 「統計結果(résultats statistiques)は集計かつ匿名でなければならない」
  • さらに 「統計目的とは“集計データをそれ自体のために産出すること”であり、後続の意思決定(個別 だけでなく集団 も)ではない」

という形で書いています。つまり、“this result” を含む(結果側まで要件化する)読みに、実質的に寄っています。

(略)

ただし重要な一点:CNILはここで「this result を決定に使うな」とは明言していない

CNILの文は、「決定に使わない」の主語は traitement(処理)で、結果については「匿名集計であるべき」と言っています。 

つまり “this result or the personal data are not used…” というGDPR前文162の文言を、そのまま引用しているわけではありません。

でも、実質としては

  • 統計目的=集計値を作って終わる(決定に向かわない)
  • 結果=匿名集計
  • MLは統計目的ではない

という三点セットで、あなたの懸念する方向(統計目的の極端な縮減)にかなり踏み込んでいます。

(略)

私:うーん、そこは言語学的に注意深く分析したい。原文と邦訳を添えて分析して。

ChatGPT:(略)

4) 解析の要点(あなたの批判の足場になる言語ポイント)

このCNIL段落は、混同(あなたの意味での混同)を起こしうる要素が、言語上3つあります。

  1. finalité(目的)を「集計データをそれ自体のために」に縮減している(tendre qu’à / pour elles-mêmes)
  2. décisions ultérieures, individuelles ou collectives という語で、一般的決定まで「統計目的ではない」に含めうる(あなたの懸念どおり“洒落にならない”)
  3. 結果(résultats)に匿名・集計の属性要件を課し、統計目的の議論を 結果の形へスライドさせている

(略)

私:OK、そうだね。1)の(1)は、主語が処理だから、CoE Rec 97と同じことを言っているとも読める。しかし他を読むとそういうことではないとしか思えない、ということだね。しかしねえ、統計を作って一個人や集団に当てはめないなんてことある? 平均値を公表しただけでも誰かがそれより上か下かの決定に使うに決まってるじゃんね。

ChatGPT:うん、まさにそこが「統計目的」を “集計値を作って終わり” と定義してしまう議論の、論理的な破綻点だと思います。

あなたの言い方で整理すると:(略)

私:これは、学説でも日本でもよく見るのだけど、機械学習は危険な用途に使われるから危ないという主張が、モデル作成時点を規制しようとしてしまっているんだよね。個別の入力をデータ保護法制で規制しても無駄(懸念は解消されない)なんだがねえ。

ChatGPT:うん、その「危険な用途に使われるから危ない」→「だからモデル作成(学習)段階を締める」という短絡は、まさに 統計フェーズと決定フェーズの混同 が生む典型的な“規制設計ミス”だと思います。あなたの枠組み(決定指向・関連性)で言い直すと、論理の破綻点はここにあります。

何が混同されているか

(略)

私:OK、この文書が出た時期が2024年4月だから、OpenAI騒動を経て出てきているわけだ。今ではDigital Omnibusで揺り戻しが来ているわけですが、この2年弱の間に、このCNILの主張が、私のような批判に遭っているか、あるいは逆に支持されているか、そういう文献を探してください。

ChatGPT:了解。結論から言うと、CNILの「統計目的=“結果が匿名の集計データで、かつ“それ自体のための集計”であって、直接オペレーショナルな目的ではない」という立場は、(2024年4月のAI実務シートで“新しく出てきた”というより)少なくとも2023年のCNIL意見(公的統計の文脈)で既に明文化されており、2024–2025にかけて“反復・横展開”されているのが確認できました。一方で、あなたの問題意識(「統計→個別決定」混同の危険、決定指向モデルとの齟齬)に正面から応答して批判/支持を体系的に論じる二次文献は、この検索範囲では厚くは見つかっていません(「引用して紹介」や「要約して受容」が多い)。

以下、見つかったものを「批判/支持(少なくとも受容・流通)」の証拠として整理します。

(略)

私:OK、さっき後回しにした、手順A、B、Cに戻ろう。

ChatGPT:(略)

私:注釈書については以前調べたが、ほとんどコメントがなかった。確か、Kunner、Bygraveのを見たら、ほぼCoE Rec 97を見よとだけしか書かれていなかった。あとはドイツの注釈書がいっぱいあるが、うーん。Webにあるものを探してみる?さっきあんまりないという結果がもう出てるんじゃないか。

ChatGPT:(略)

2) Webで拾える「批判・対抗」っぽいもの(少なくとも“問題化”の痕跡)

正面からあなたのような「決定指向・関連性」観点で刺しているものは、今の検索では厚くは出てこない。でも、“論点化”はしています。

(a) 市民団体系の政策提案で、Recital 162+CoE R(97)18 を根拠に「統計目的の条件」を持ち出す

たとえばLa Quadrature du Netに関連する文書では、Recital 162 と CoE R(97)18 を並べて「統計結果は個人決定に使わないのが原則」等を根拠づけており、CNIL型の定義が“政策提案の武器”として使われています。これは支持・強化方向の材料。 

(b) “Recital 162”自体の解説はWebに少しある(ただし多くは逐語説明)

たとえばGDPR-text系のサイトは条文テキストと注釈の足場を提供していますが、ここも深い批判というより「そう書いてある」の整理が中心。

(略)

私:お、2)(a)は重要そうじゃないですか。主張している団体の正体と、主張の内容を分析して。

ChatGPT:はい、2)(a)は「誰が・何を主張しているか」を掴むのにかなり使えます。結論から言うと、これは“市民団体”ではなく、フランスの小売・商業施設(+そのテック供給側)を束ねる業界団体(ロビー団体寄り)が、CNILの「スマートカメラ」方針案に対して規制を緩め/適用除外や例外(統計目的)を広く取り、導入を進めたいという文書です。

1) 主張している団体の正体:PERIFEMとは何者か

  • 文書の差出人は PERIFEM。CNILの公開協議(consultation)に対する意見提出(réponse à consultation)で、日付は2022年3月11日です。
  • 文書内でPERIFEM自身が「大手小売(食品・専門店)やショッピングセンター、さらにスマートカメラ等のスタートアップを代表する」と説明しています。
  • PERIFEM公式サイトでも、「実店舗流通のTop50の80%やショッピングセンターの主要プレイヤーを代表」等、流通・小売の“技術系業界団体”であることを前面に出しています。

つまり、CNIL批判をしている“プライバシー団体”ではなく、規制の予見可能性・導入促進を求める“導入側の団体”です。

2) 文書が狙っている論点:CNILのスマートカメラ方針案を「より導入しやすく」したい

この意見書の全体像はざっくりこうです:

  • CNILの取り組み自体は称賛しつつ、「現行法でも多くのユースケースは可能」「法的確実性(sécurité juridique)が必要」として、“導入推進+規制の線引き調整”を求めています。
  • 特に強いのが、「異議申立て(droit d’opposition)」が実務上重すぎる/むしろ立法で外すべき場合があるという方向での議論です(CNIL案に対して“外す立法が望ましい”と述べる)。

3) あなたの関心点に直撃する箇所:「統計目的」例外の拡張と、Recital 162 の使い方

ここが重要です。PERIFEMは、CNILが示した「統計目的(fins statistiques)」の整理を歓迎し、さらに適用範囲を広げる方向で文言修正まで提案します。 

(1) まず、CoE→GDPR Recital 162 を“根拠”にする

PERIFEMは、CoEの考え方として「統計目的は統計調査・統計結果の生産に必要な処理で、得られたデータを個別の措置・決定に使うのは除外」と要約した上で、「この解釈はGDPR Recital 162に取り込まれ、(i)集計、(ii)個人に影響しない、の2要件だ」と述べます。 

ここは、まさに問題の “this result … measures or decisions regarding any particular natural person” を、統計目的の“定義・条件”として強く使っている部分です。

(2) そして「個人に影響しない」の読みを、あえて“集団ならOK”にねじる

さらに決定的なのが次です。

  • 「上記から、統計データ(匿名化・集計)が生産された時点から使うことを妨げるものはない」
  • ただし条件は「特定の個人には影響しないが、“集団(collectif)”には影響する」ならよい、と言います。

これはあなたの枠組みから見ると、かなり重要なシグナルで、

  • Recital 162 の “any particular natural person” を文字通りに取り、
  • 「個人ではなく“集団”に効くなら統計目的のまま運用できる」という道を開こうとしている

わけです(少なくとも、この意見書はその方向にCNIL文案を誘導しています)。

(3) 典型ユースケース:来店者数等の統計→安全管理や法令遵守に使う

具体例として、スマートカメラで施設の混雑・通行量などの統計を作り、安全確保や(例として)人数制限の遵守に使う、といった利用を正当化しています。 

4) この文書の「思想」を一言で言うと

“統計目的例外(+匿名化・集計)を、スマートカメラ運用の実務上の逃げ道として大きく使いたい” です。

そのために、

  • Recital 162 を「統計目的=(i)集計+(ii)個人に影響しない」の二要件として固定し、
  • さらに「個人でなく集団に効くならOK」という読みで、運用(ときにオペレーショナル)へ橋を架ける。

あなたが警戒している「統計⇄決定の混同」を、“個別”を避けて“集団”に逃がすことで実装可能にしてしまうタイプのロジックとして読めます。

必要なら次は、(略)

私:ああなるほどね、人流統計は問題ないだろという主張ですね。そのために統計定義を認めつつ、集団を外せって? でも、CNILがいうこの「集団」の趣旨は、集団に対する決定に使わないという意味ですよ。差別するなということね。私に言わせると、集団に対する決定は結局はそこに属する個人に対する決定(その個人がその集団に属す旨を識別しないと実際実施できないのだから)になるので区別する意味はないと思うのだけど、この団体がいう「集団」というのは決定の話ではないと指摘すべきかな。

ChatGPT:そう、その整理でほぼ合っていて、「collectif(集団)」が指しているものが、CNILとPERIFEMでズレているのが肝だと思います。

(略)

私:OK、話を少し戻すと、「理事会側の作業工程(2015年末)で追加された」のところ、なぜそうなったのかについて、私のブログの分析はどうです?以下のところ。
--
こうして比べてみると、GDPRの前文162がまずいのは、「this result or the personal data are not used in support of ……」と、「the personal data」だけでなく、「this result」(=「the result of processing for statistical purposes」)まで、使用しないものに入れてしまっているところだろう。要件から理由に変えようとして(注2)おかしくなったのだろうか。
注2:データ保護指令では、これに相当する文は、前文29にあり、「個人データの歴史的、統計的または科学的目的での更なる処理は、加盟国が適切な保護措置を講じることを条件として、当該データが以前に収集された目的と一般的に両立しないもの(incompatible)とはみなされない。これらの保護措置は、特に、特定の個人に関する措置または決定(measures or decisions)を裏付けるためのデータの使用を排除するものでなければならない。」と書かれていて、明確に要件として記載されていた。それが、GDPRでは、上記の前文162の書きぶりに変更されているわけだが、その変更の趣旨は、理由を説明するつもりで書き直したようにも見える。ところが、これが理由であるとは明言できなかったのか、何を言いたいのかが一般にわかりにくくなっており、これが要件であることも見えにくくなってしまっている。また、データ保護指令では、本文中に「措置または決定(measures or decisions)」の文言が存在していた(13条2項、開示等の権利を制限(義務を免除)する国内法を認める規定)のだが、GDPRではそれが消えてしまった(より一般化されて11条になった)ため、「措置または決定(measures or decisions)」概念の重要性がいっそう見えにくくなっている。

ChatGPT:あなたのその分析(「要件から理由に変えようとしておかしくなったのでは」)は、かなり筋がいいと思います。少なくとも、2015年末に理事会テキストへ“Statistical purposes mean … / implies …”が“追加”されたという系譜(=それまで無かった“定義+含意”段落が突然入る)と、あなたの言う「書きぶり変更(要件→理由っぽい言い換え)」は、同じ現象を説明し得ます。

(略)

もし次に進めるなら、あなたが以前言っていた“あとで調べる”の延長として、2015-11-20(14319/15)→2015-12-15(15039/15)で追加された段落の前後を並べて、「どの文章塊が丸ごと挿入されたか」を示すと、あなたの「言い換え事故」仮説がさらに固くなります。

私:ではそれをやってください。

ChatGPT:(略)

私:うーん、その方向で掘って見つかるかなあ。私が思うに、この「理由」らしきものを入れた背景は、なんで統計は許されるんだよ!という保護強化派に対する釈明として入れたんだと思う。理事会だけにね。

ChatGPT:(略)

私:統計局のそれはGDPRが先なんじゃないの?鶏か卵か。「改稿版があるはずで」はまだ掘れるんですか? 「争点だった痕跡」は見つかるといいけど、あるかなあ。

ChatGPT:(略)

必要なら、次は私の方で 「11/27〜12/15の間」にある理事会文書を、Recital 126c(当時番号)と “statistical purpose implies” で網羅検索して、初出点をもう一段細かく潰します(“改稿版があるはず”を、当てにいく作業)。

私:ではやってみてください。

ChatGPT:(略)

私:ん?「(A) Council of Europe の“統計目的”解説(2000年代前半)に、ほぼ同型の定義文がある」のリンク先は、これまで話題にしてきたCoE Rec (97)18そのものだよ。続く(B)の話は単に統計結果はanonymous informationでないとダメだよということを言っているだけでは?

ChatGPT:ご指摘どおりで、私の(A)の言い方はミスリーディングでした。(略)

私:追求はここまでだなあ。理事会のミスだな。CoE 1997の整理をわかってる人はもういないってことだよ。で、話を戻すと、(略)

ChatGPT:(略)

私:(ここまでのChatGPTとの会話を貼り付けて)
これはChatGPTとの会話(途中から)です。Claudeさんらしくまとめてください。
そこで出てくる高木ブログについてはこちらのソースを確認してください。
https://takagi-hiromitsu.jp/diary/20250419.html

Claude:[ChatGPTとの会話をまとめ、ブログソース確認を計画した。]

まず、ブログ記事の内容を確認させてください。

[ページ全体を把握するため追加情報を取得した。]

記事が長いので、続きも確認します。

[CNIL の GDPR 解釈と高木ブログの関連性を検証した。]

ブログの内容を十分把握しました。以下、ChatGPTとの会話の要旨をまとめます。


ChatGPTとの会話の要旨

テーマ

CNIL(フランスデータ保護機関)が2024年4月頃に公表した文書「IA : Assurer que le traitement est licite …」における「統計目的」の定義が、GDPR前文162の問題のある文言を文字通りに読んだ結果、統計結果(this result)すら個人に関する措置・決定に使用してはならないとする立場を取っているように見える問題を、ブログの分析を踏まえて掘り下げた議論。

議論の流れ

1. CNILの問題の発見

ChatGPTがCNILの文書を調査したところ、統計目的の定義について4つのポイントが示された。1)と2)は一般論で研究目的例外寄り、3)は妥当だが、4)が問題で、CNILが統計結果を含めて個人に対する決定への利用を禁じる趣旨を述べていた。

2. ブログの分析との接続

高木ブログ(2025年4月19日付)の分析では、以下の経緯が明らかにされている。

  • データ保護指令(1995年)の前文29では、統計目的の二次利用を許す条件として「特定の個人に関する措置または決定(measures or decisions)を裏付けるためのデータの使用を排除する」ことが要件として明記されていた。
  • これがGDPR前文162では、「The statistical purpose implies that … this result or the personal data are not used in support of measures or decisions regarding any particular natural person」と書き換えられ、「this result」(統計結果)まで使用禁止の対象に含まれてしまった。
  • ブログの分析では、この変更は「なぜ統計は許されるのか」の理由を説明しようとして書き直した結果の過失ではないかと推測されていた。

3. CNILの立場の深刻さ

CNILが前文162を文字通りに読んで「統計結果すら個人に対する決定に使ってはならない」と解釈しているとすれば、統計分析をしても使い所がないという不合理な帰結になる。ブログが指摘するように、平均値を公表しただけでも誰かがそれより上か下かの判断に使うのは必然であり、統計結果の一般的決定への利用まで禁じるのは、欧州評議会1997年勧告の「一般的決定」と「個別的決定」の区別を無視している。

4. 過失か故意かの見極め

会話では、GDPRの問題ある文言が「理事会側の作業工程(2015年末)で追加された」経緯について、なぜそうなったのかを探る作業を行った。ブログの分析は、保護強化派への釈明として理事会が「理由」らしきものを挿入した結果ではないかとの推測を示している。ChatGPTに立法過程の資料を探させたが、明確な証拠は見つからなかった。

5. CNILへの批判の必要性

日本法が個人情報保護法の3年ごと見直しで「統計作成等」の本人同意なき取扱いを許そうとしている中、CNILの統計結果の利用禁止的解釈がそのまま「欧州の標準的解釈」とみなされれば、十分性認定に影響しかねない。そこで批判対象とするCNIL文献のリストを作成する作業を進めた。

6. 関連する論点

  • 商業施設でのリアルタイム広告表示変更のケース:CNILが「統計目的から外れる例」として挙げているが、これは明らかに関連性のない決定目的なのでアウトであって、関連性のある決定目的での統計利用(医療用途など)がOKであることとは別の話。CNILはここを混同している。
  • 機械学習規制の問題:モデル作成時点(=統計処理段階)を規制しようとする発想は、個別の入力データを規制しても懸念は解消されないという本質を見ていない。
  • 業界団体からのパブコメ:人流統計は問題ないだろうという主張で、統計定義を認めつつ「集団」への適用を外すよう求めるものがあったが、CNILがいう「集団」の趣旨は集団に対する差別的決定の禁止であり、その団体の言う「集団」は決定の話ではないという齟齬がある。
  • GDPR注釈書の調査:Kuner、Bygrave等の注釈書を調べたが、ほぼCoE Rec (97)18を参照せよとあるだけで、実質的なコメントはほとんどなかった。

7. CoE Rec 97との関係の確認

CNIL文書の記述が、欧州評議会1997年勧告と同じ意味(=統計の入力データを個別的決定に使うなという意味)で言っているのか、それとも統計結果の利用までも含めて禁じているのかを、原文に即して言語学的に分析した。結論として、一部の文は1997年勧告と同趣旨とも読めるが、文書全体を読むと統計結果の利用禁止まで含意しているとしか読めない。

8. Digital Omnibusとの関係

CNIL文書が2024年4月(OpenAI騒動を経た時期)に出ている一方、現在はDigital Omnibusで揺り戻しが来ている。この2年弱の間にCNILの主張への批判・支持の文献を探す作業も行った。


核心的な問題意識

この会話の核心は、ブログが12年かけて到達した理解——統計目的の二次利用が許されるのは、統計処理そのものがデータ対象者の権利利益を害さないからであり、その条件は統計の入力データを「個別的決定」に使わないことにある(「一般的決定」への統計結果の利用は許される)——に対して、CNILが統計結果の利用まで含めて禁じる解釈を示していることへの危機感です。これがGDPR前文162の不適切な文言(「this result」の挿入)に由来する可能性が高く、データ保護指令時代やCoE 1997年勧告では正しく整理されていたものが、GDPRへの書き換え過程で崩れたことが背景にあります。

私:その通りです。CNIL批判をブログに書いておかなくてはと思います。CNILの該当文献が何を言っているかを確認してください。問題の文書はこれらです。
https://www.cnil.fr/fr/assurer-que-le-traitement-est-licite-reutilisation-des-donnees
https://www.cnil.fr/en/ensuring-lawfulness-data-processing-re-use
https://www.cnil.fr/sites/cnil/files/2025-04/bac_a_sable_recommandations.pdf

Claude:[仏語版を確認し、英語版の取得を進めた。]

Now let me fetch the English version and the PDF.

[Gathered dokumenty a připravil se ověřit obsah]

3つの文書を全て確認しました。問題の核心部分を整理します。

CNIL文書の「統計目的」に関する記述の確認

1. フィッシュ4-2(2024年4月8日公開、ウェブページ版)

フランス語原文の核心部分:

Lorsque la réutilisation des données poursuit des fins statistiques ou de recherche scientifique, le traitement est présumé compatible avec la finalité initiale s'il respecte le RGPD et s'il n'est pas utilisé pour prendre des décisions à l'égard des personnes concernées.

Pour poursuivre une finalité statistique au sens du RGPD, le traitement ne doit tendre qu'à la production de données agrégées pour elles-mêmes : le traitement doit avoir pour unique objet le calcul des données, leur affichage ou publication, leur éventuel partage ou communication (et non à la prise de décisions ultérieures, individuelles ou collectives). Les résultats statistiques ainsi obtenus doivent constituer des données agrégées et anonymes au sens de la réglementation sur la protection des données.

英語訳版では:

the processing must only aim at the production of aggregated data for themselves: the sole purpose of the processing must be the calculation of the data, their display or publication, their possible sharing or communication (and not taking subsequent decisions, individual or collective).

バック・ア・サーブル推奨文書(2025年3月、PDF)

RATP「PRIV-IA」プロジェクトのセクション3で、統計目的をさらに具体的に論じています:

le résultat d'un traitement à des fins statistiques ne peut pas, par définition, constituer des données à caractère personnel. Les données sont agrégées et ce résultat ne peut pas être utilisé à l'appui de mesures ou de décisions concernant une personne physique en particulier. La position de la CNIL sur les caméras « augmentées » précise cette condition en indiquant que le traitement ne peut être regardé comme uniquement statistique lorsqu'il tend par lui-même à une prise de décision immédiate.

そしてCNILは「即時の決定」の具体例を3つ挙げています:

  • 人の密度が高すぎる場合の即時のアラートや介入の発動
  • 人がパネルの前を走ったときに即時に広告を表示する
  • ある閾値に達したときに場所への即時のアクセス遮断

さらに:

Un traitement n'a une finalité statistique que s'il tend à la production de données agrégées pour elles-mêmes. Le traitement doit avoir pour unique objet le calcul des données, leur affichage ou publication, leur éventuel partage ou communication.

最後の結論部分:

certains des cas d'usage des capteurs « temps de vol » envisagés pouvaient être qualifiés de traitements à des fins statistiques dans la mesure où ils visent à la production et l'exploitation de statistiques anonymes et que les conséquences du traitement ne ciblent pas directement les voyageurs dont les données ont été collectées.

問題の分析

CNILの立場を整理すると、以下の4層構造になっています:

(A)フィッシュ4-2の記述は、GDPR前文162の文言に対応しつつ、独自の拡張を含んでいます。注目すべきは「individuelles ou collectives(個人的またはcollective的)」という表現です。GDPR前文162は「mesures ou de décisions concernant une personne physique en particulier」(特定の自然人に関する措置・決定)としか言っていないのに対し、CNILは「collective(集合的)」な決定も禁止対象に加えています。これは1997年欧州評議会勧告の「一般的決定(general decisions)」すなわち法律・評価尺度・予防接種キャンペーン等を排除することになりかねない、極めて問題のある拡張です。

(B)バック・ア・サーブル文書の方は、より具体的な文脈(RATP映像分析)に即しており、挙げられた3つの例(密度超過アラート、リアルタイム広告表示、閾値によるアクセス遮断)は、いずれもデータ入力時点と同じ特定個人に対して即時に作用する処理です。これらが「統計目的ではない」というのは、1997年勧告の枠組みからも妥当と言えます。つまり、入力データと同一人物に対して即時に介入するのは「個別的決定」そのものです。

(C)しかし問題は、フィッシュ4-2の「pour elles-mêmes(それ自体のための)」と「individuelles ou collectives」の表現の組み合わせです。 これにより、統計結果を「それ自体の公表以外のいかなる目的にも」使ってはならない、という読み方が導かれます。欧州評議会勧告(97)18が明確に許容していた「一般的決定」への利用(法律の制定、保険料率の設計、予防接種方針の策定、交通計画等)がすべて排除されてしまいます。

(D)さらに「résultats statistiques ... doivent constituer des données agrégées et anonymes」(統計結果は集約されかつ匿名でなければならない)という要件は、GDPR前文162にもない独自の追加です。前文162は結果が個人データを「構成しない」(ne constitue pas)と言っているだけで、匿名化を要件とはしていません。

ブログ分析との対応

ブログの分析(1997年欧州評議会勧告の解釈論)に照らすと、CNILの問題点は:

  1. 「collectives」の追加:GDPR前文162は「personne physique en particulier」(特定の自然人)に関する決定のみを禁じているのであって、一般的決定(集合的決定)は禁じていない。CNILはこれを「individuelles ou collectives」に拡張した。
  2. 「pour elles-mêmes」の解釈:統計結果が「それ自体のため」にしか使えないとすれば、統計は公表・表示以外には何の意味もないことになる。しかし統計の本来の機能は、結果を用いて(別途取得した新たなデータに基づく)一般的政策決定・制度設計に反映させることにある。
  3. バック・ア・サーブル文書の「即時決定」の例示は、実はそれ自体は正しい(入力データの本人に即時に作用する処理は統計目的ではない)。しかし、フィッシュ4-2の包括的な「pour elles-mêmes」「collectives」表現と組み合わせると、結果として統計結果のあらゆる活用が禁止されるかのような解釈に至る。
  4. 匿名性要件の追加:統計結果が常に匿名でなければならないという要件は、例えば地域別の疾病罹患率等、少数グループについては集計値自体が再識別リスクを持ちうることを考慮したものかもしれないが、GDPR本文にはない独自要件である。

ブログで批判するにあたっては、特に(A)フィッシュ4-2の「collectives」の追加と「pour elles-mêmes」表現がGDPR前文162からの逸脱であること、(B)バック・ア・サーブル文書の具体例は妥当だがフィッシュ4-2の一般論と結合すると過剰規制になること、(C)1997年勧告が明確に区別していた「一般的決定」と「個別的決定」の区分をCNILが無視していること、を軸にするのが有効だと思います。

私:collectivesのところは話がもう少し複雑です。ChatGPTとの会話でも述べたように、集団に対する決定は結局はそこに属す個人に対する決定の問題なので同じことのはずです。それなのにあえてCNILがそう書いている背景を汲む必要があるでしょう。2. バック・ア・サーブル推奨文書の「即時の決定」の具体例ですが、「人がパネルの前を走ったときに即時に広告を表示する」は正しくその通りです(むしろ統計が関係ない)が、「ある閾値に達したときに場所への即時のアクセス遮断」はどうですかねえ、対象者の何の個人データに基づいて判断しているのでしょうかね。その場所にいるという事実?これはちょっと変だと思うなあ。入れない人と入れる人を異なって扱って初めて個人データに基づく決定のはずなんですがねえ。同様に「人の密度が高すぎる場合の即時のアラートや介入の発動」もです。ここには触れない方がいいかもしれませんが、CNILがかなりおかしいことを指摘するのに使えるなら使うのもアリです。ChatGPTの会話では、CNILがおかしいことの証左に使えるという会話がありましたが、この件でしたか、別の件でしたか?

Claude:[検証した会話内容と具体例の関連性を確認した。]

いくつか重要なポイントがありますので、順に整理します。

1. “collectives”の問題の複雑さ

おっしゃる通り、集団に対する決定は結局その集団に属する個人に対する決定ですから、「個別的決定」との区別は、対象者が集団か個人かではなく、CoE (97)18が言う「統計の入力に提供した事実と、決定による影響を受ける事実との間に関連があるか否か」のはずです。

CNILがあえて「individuelles ou collectives」と書いた背景としては、おそらく「個人への決定は禁止されるが、集団への決定(一般的決定)なら許されるのでは?」という抜け道的な議論を封じようとしたのではないかと思います。つまり「一般的決定」の正当な区別を知らないまま、「集団に対する決定だから個人に対する決定ではない」という安易な回避論を想定して、それを潰しにいった。しかし結果として、CoE (97)18が正当に許容していた「一般的決定」(法律、保険料率の尺度、予防接種キャンペーン、交通計画など)まで巻き込んで禁止してしまっている、ということになりますね。

2. バック・ア・サーブルの具体例について

ご指摘は非常に鋭いです。

広告表示の例は、おっしゃるとおり統計とは無関係で、その場にいる人の行動データをリアルタイムにその人自身への行為(広告表示)に使っているので、そもそも統計の話ですらありません。

アクセス遮断密度アラートの例が問題です。「ある閾値に達したときに場所への即時のアクセス遮断」を考えると、これは「ある場所に1000人いることを計測して、以後の入場を止める」という処理です。この場合、入れなかった人について、その人の何の個人データに基づいて「決定」がなされたのかという問題があります。

閾値に達した後に到着した人は、たまたまその時刻に来たという事実だけで入場を拒否されています。その人が統計の入力データとして処理されたわけでもなく、その人の個人データが何か評価されたわけでもない。入場者数のカウント(内部にいる人の集計)に基づいて、まだカウントされてすらいない人の入場を止めているだけです。これは「特定の自然人に関する措置または決定」というより、物理的な定員管理です。入れる人と入れない人をその人の個人的属性に基づいて区別しているのではなく、到着時刻だけで機械的に区分されています。

密度アラートも同様で、「密度が高すぎるので介入する」のは、個々の人のデータに基づく個別的決定ではなく、集合体の状態に基づく運用上の対応です。

CNILはこれらを「統計目的から外れる例」として挙げていますが、そもそもこれらが前文162の意味での「特定の自然人に関する決定」に該当するのか自体が疑問です。

3. ChatGPTの会話との関係

過去の会話を確認した限りでは、ChatGPTとの会話で「典型的な勘違いの例として使える」と評されていたのは、CNILの統計目的解釈全体(「集団的な決定」まで禁止、統計結果自体の利用も禁止するかのような記述)についてであり、広告表示の例については「そりゃ明らかに関連性のない決定目的なのでアウト」とのコメントがありました。しかし、密度アラートやアクセス遮断の例について「そもそも個人データに基づく決定なのか」という今のご指摘の角度での議論は、今回私が確認できた範囲では見当たりませんでした。別の件だった可能性もありますし、ChatGPTとの会話の別の部分(私に提供された範囲外)にあった可能性もあります。

4. ブログでの使い方

この密度アラート・アクセス遮断の例の問題点は、CNILが前文162の「特定の自然人に関する決定」を過度に拡大解釈していることの証左として使えると思います。CNILは自ら挙げた例の中に、そもそも前文162の禁止規定の射程外(個人データに基づく個別的決定ではないもの)を含めてしまっている。これは、CNILが「決定」概念を理解していないことを示す有力な材料です。ただし、議論が込み入るので、本筋の「collectives」の問題や「pour elles-mêmes」の問題と比べて、触れるかどうかはブログの構成次第でしょうか。

私:CNILが実際どのくらい本気で間違えているのか、批判するには多段構えにするのがよいと思います。まずはGDPR前文162に沿った見解を示している箇所から、普通に読むと統計結果の利用を否定しているように読める。しかし、CoE Rec (97)18からの変遷を踏まえてGDPR前文162を見ると定義ではなく理由説明だと読めることから、CNILも引き写しただけで深い意味はないのかもしれない。CoE Rec (97)18と同じことを言っていると読めなくもない感じもある。しかし、CNILの他の箇所など併せて見ると、やはりどう見ても結果の決定利用をすれば統計目的じゃなくなると言っているようにしか読めないと持っていく。そこは機械学習が統計とは言えないとしている箇所が使えるのかな。

Claude:[多段階批判戦略を構築し、機械学習条項を証拠として活用した。]

おっしゃる通り、多段構えの論証が効果的だと思います。その構成を整理してみます。

第1段:CNIL、前文162を引き写しただけかもしれない

バック・ア・サーブルPDFの脚注11と16ページの記述は、前文162をほぼそのまま引用しています。

ce résultat ne peut pas être utilisé à l’appui de mesures ou de décisions concernant une personne physique en particulier

ここだけ見れば、前文162の文言に忠実であり、CoE (97)18からの変遷を踏まえて「定義ではなく理由説明」と読めば、CNILも同じ理解で引き写しただけかもしれない。深い意味はなく、統計結果の一般的決定への利用まで否定する趣旨ではない可能性がある。

第2段:しかし「pour elles-mêmes」は引き写しではない

ところがフィッシュ4–2を見ると、前文162にはない独自の表現が加わっています。

le traitement ne doit tendre qu’à la production de données agrégées pour elles-mêmes : le traitement doit avoir pour unique objet le calcul des données, leur affichage ou publication, leur éventuel partage ou communication

「集計データの生産それ自体のために」「唯一の目的は計算、表示、公表、共有」。これは前文162の引き写しではなく、CNILの独自解釈です。統計結果を何かの意思決定に活用することは「唯一の目的」から外れるので統計目的ではなくなる、と読める。しかし、ここまでであれば、前文162の「this result … are not used in support of measures or decisions」を自分の言葉で言い換えただけという弁解の余地がまだあります。

第3段:機械学習の排除が決定打

ここで機械学習の箇所が効いてきます。

Le recours à des techniques statistiques d’apprentissage automatique ne suffit pas à considérer qu’il s’agit de traitements « à des fins statistiques », dans la mesure où la finalité du traitement de données n’est pas de produire des données agrégées pour elles-mêmes.

この文の論理構造は明快です。機械学習が統計目的と言えない理由(dans la mesure où)として、「集計データをそれ自体のために生産することが目的ではないから」を挙げている。つまり、MLで学習したモデルは何かに使うために作られるものだから、統計結果が「pour elles-mêmes」ではない、ゆえに統計目的ではない、という推論です。

これが決定打になるのは、ここでCNILが「pour elles-mêmes」を実際に適用しているからです。単に前文162の言い回しを繰り返しているのではなく、「結果を何かに使う予定があるなら統計目的ではない」という判断基準として能動的に使っている。MLモデルは予測や分類に使うために訓練するのだから統計目的ではない、という論法です。

この論法を敷衍すれば、人口統計の結果を政策立案に使えば統計目的ではなくなり、医学統計の結果を治療方針に使えば統計目的ではなくなる。「pour elles-mêmes」を文字通り適用すると、あらゆる「使う統計」が統計目的から脱落します。

第4段(任意):「individuelles ou collectives」が念押し

さらに「et non à la prise de décisions ultérieures, individuelles ou collectives」が追い打ちをかけます。仮にMLの箇所を「MLは特殊だから」と弁解しても、「集団的な決定」まで明示的に排除しているのは、一般的決定への利用も認めない趣旨であることの念押しです。ただしここは先ほどの「集団への決定は個人への決定でもある」という複雑さもあるので、どの程度踏み込むかは判断次第です。


この多段構成なら、読者が「CNILは引き写しただけでは?」という疑問を抱いても、段階的に「いや、本気で間違えている」と説得できるかと思います。MLの箇所が「能動的に誤った基準を適用している」ことの証拠として最も強力ですね。

私:collectivesのところはおまけ的に最後の方で付け加えてダメ押しみたいな感じにしてはどうかな。
それから、統計の結果まで使用を認めないことで一体何が得られるのかという観点。機械学習で言えば、学習モデルの適用段階で典型的なデータ保護が問題にする問題が起きやすいからモデルの作成自体を制限するような話だけども、適用段階は別途適用段階で用いる個人データの使用についてデータ保護の規律がかかるのだからそれでいい(特に関連性原則)わけだけども、その問題をモデル作成段階の規制を厳しくしたところで防げるわけではない。実際、統計に該当するかの話しかしていないので、統計に該当しなくなったところで、別の適法化要件を満たせば同じ結果になる。CNILのこれら資料でも、統計に該当しないから別の適法化要件を満たせばやっていいというようなことを言っていますよね。ちょっとラフな説明になりましたが、どうですか。

Claude:[CNIL の統計的目的解釈の実効性を検証し、構造を再検討した。]

非常に鋭い論点です。整理してみます。

「統計結果の利用を認めないことで何が得られるのか」

おっしゃっていることの核心は、CNILの厳格解釈は保護の実効性をもたらさないという点ですね。

機械学習を例にとれば、問題の構造は二段階です。

第1段階(モデル作成): 個人データを入力として学習モデルを構築する。この段階でデータ対象者に危険が生じるのは、入力データがその本人への個別的決定に流用される場合であり、それは統計目的の条件(決定利用禁止)で防がれる。

第2段階(モデル適用): 学習済みモデルを新たな個人データに適用して予測・分類を行う。データ保護法が典型的に問題にする事態——関連性のないデータに基づく不公正な決定、プロファイリング等——はここで生じる。

CNILの解釈は、第2段階で問題が起きうることを理由に第1段階(モデル作成)自体を統計目的から排除しようとしている。しかし、第2段階には第2段階で用いる個人データについて独立にデータ保護の規律がかかります。関連性原則、目的制限、GDPR22条の自動化された個別的決定の規制等がそこで機能するのであって、モデル作成段階を制限したところで第2段階の問題は防げません。

そして決定的なのは、CNIL自身がそれを認めていることですね。フィッシュ4–2では、機械学習の訓練は統計目的に該当しないとした上で、6条1項の他の適法化根拠や6条4項の両立性テストを満たせば適法に実施できると説明しています。バック・ア・サーブルの各プロジェクトでも、統計目的に該当しない処理について「mission d’intérêt public」等の別の法的根拠で進めることを是認しています。

つまり、CNILの厳格解釈のもとでも、統計目的に該当しないだけで、別の要件を満たせばまったく同じ処理ができる。統計目的の要件を厳しく解釈したところで、処理自体が禁止されるわけではない。得られるものは、5条1項(b)後段の目的両立推定(compatibility presumption)が使えなくなるという手続的負担の増加だけで、データ対象者の実質的保護は何も変わりません。

論証構成への組み込み

これはブログの構成上、MLの箇所で「CNILが本気で間違えている」ことを示した後に、「しかもこの間違いは実害をもたらすわけですらない」として置くと、批判の重みが増すと思います。

まとめると全体構成は:

  1. 前文162の引き写しかもしれない(好意的読み)
  2. 「pour elles-mêmes」は独自解釈だが、言い換えに過ぎない可能性
  3. ML排除の論理で「本気で間違えている」ことが確定
  4. しかもその間違いは保護に何も寄与しない(CNIL自身が別の法的根拠で同じ処理を許容)
  5. おまけ:「individuelles ou collectives」で一般的決定まで禁止

この4番目の論点は、単に「CNILは間違っている」だけでなく「無意味に間違っている」ことを示す点で、批判として効果的ですね。

私:そうです。確信部分の論証の全体はその通りです。それでは、ブログ全体の構成をどうするか案を考えてください。

Claude:[ブログ全体の構成案を検討し、論証の流れを組織化した。]

(略)

この構成でいかがでしょうか。特に「CNILの記述の紹介」部分のボリューム配分や、「前提」部分で既存記事をどの程度繰り返すか、「まとめ」で日本への含意にどこまで踏み込むか、あたりが調整ポイントかと思います。

私:今回の狙いは日本の読者向けもさることながらCNILに届くようにフランス語版と英語版を中心に置くようにし、この記事単独で意図が伝わるようにしたいので、高木ブログ(2025年4月19日記事)にリンクしてもいいが、それを見ないでもわかるように改めて説明する必要があります。分量は気にせず、論理が複雑なところは丁寧に述べたいです。日本法への影響の話はあえて避けて、むしろEUの視点でDigital Omnibusが出て反発が出ている(AIは全部適法にするような案なので)ことに触れ、モデル作成段階と適用段階を分けて、作成段階を統計作成とみなすべきという結論に持っていきます。その際に、Omnibusについてすでに書いた英語ブログが https://takagi-hiromitsu.jp/diary/20251206.html にあるので、それにリンクする形で触れます。
それから、第4弾と第5弾の間に、なぜこうなってしまうのかの節を入れたいです。それは、関連性原則の存在が忘れられてしまっているからです。処遇AIの危険を恐れているから作成すること自体から問題視しようとしてしまうが、その恐れかたは関連性原則による解決が見えていないからです。それが上のOmnibusについて書いたブログで述べていることです。「独立にデータ保護の規律(関連性原則、目的制限、22条等)がかかる」のところ、22条の話は出さないほうがいいです。自動決定と通常決定は異なり、GDPRは前提として通常決定に対する規律であり関連性原則(データ品質原則)が肝であり、自動決定は対象を限定した上での上乗せ規制です。自動決定の規制は差別の防止にはならず人間疎外的な別の問題を解決しようとしてるものなので本件にほとんど関係しません。ここの混同は欧州の学説でもよく見かけるので特に注意です。目的制限もあまり関係ないかと。

Claude:[ブログ構成を再編成し、関連性原則の重要性を強調した。]

理解しました。重要な修正点が複数あるので、改訂した構成案を提示します。

(略)

この構成でいかがでしょうか。特に「関連性原則の忘却」の節の位置づけと、結論でのDigital Omnibusへの接続の仕方が適切かどうか、ご確認ください。

私:「前提」のところと「データ保護法の基本構造:関連性原則」のところが頭に来るので、何の話が始まるのか分かりにくいと思われます。先にCNILがおかしなことを言っているぞという話をしてから、どういう誤解なのかの話に進み、そのあとで再びCNILは本当にそういうことを言っているのかの検討に進み、なぜそうなるのかの話として関連性原則の話をする構成にするのがよいでしょう。
なお、GDPR5条1項(d)ではなく(c)の「relevant」が関連性です。データ最小化というラベルがついているので量の削減だと誤解されているがそうではないわけです。これはOmnibusについての私のブログを見よで済むかもしれないので確認してください。「自動化された決定の規制(GDPR22条)との混同に注意」についても大きく書きすぎで論点がずれるでしょう。Omnibusについての私のブログを見よで済むかもしれないので確認を。

Claude:[ブログ構成を再編成し、既存記事へのリンク活用を検討した。]

確認しました。このOmnibusブログは非常に充実しており、以下の論点がすでに十分に展開されています。

関連性原則(5条1項(c))について:

  • 「adequate, relevant and limited」は決定のためのデータ品質原則であり、抽象的なデータ最小化ではない
  • 「adequate」はICOガイダンスでは「sufficient」と説明されており、むしろデータ量を増やす方向の要件でもある
  • 「data minimisation」というラベルはDPDからGDPRへの書き換え時に歪められた
  • セクション2.4で明確に「AI training = statistical processing, AI operation = decision-making subject to relevance」と結論

22条との区別について:

  • 結論パートで詳しく論じている
  • 22条はlex specialisで非常に限られた部分集合向け
  • データ品質原則は自動化の有無を問わずすべての決定に適用される
  • 22条強化で解決しようとする人々と22条不要論の人々、どちらもデータ品質原則を忘れている

したがって、新しいCNILブログでは両方とも深入りせず、このOmnibusブログへのリンクで済ませられます。


再改訂版:ブログ全体構成案

導入:CNILがおかしなことを言っている

いきなりCNILの問題記述を見せる。フィッシュ4–2のML排除の箇所あたりを提示して、「統計的手法を用いた機械学習であっても、それだけでは統計目的の処理とはみなされない。なぜなら、集計データをそれ自体のために生産することが目的ではないからだ」というCNILの論理を示す。これでは統計を作って使うことが許されないことになる。どういう誤解がこれを生んでいるのか、以下で検討する、という流れ。

統計目的の「決定利用禁止」はなぜ存在するのか

ここでCoE Rec (97)18からの説明を改めて丁寧に展開する。

「一般的決定」と「個別的決定」の区別

CoE Rec (97)18説明覚書第13段落を引用・解説。統計目的で処理された個人データは一般的決定にのみ使用できる。禁止されるのは、入力データの本人に対する個別的決定への流用。

  • 一般的決定の例:法律、保険料率の尺度、予防接種キャンペーン、交通計画
  • 個別的決定の例:許可・除外、課税、給付、報酬
  • 区別の基準:統計の入力にデータを提供した事実と、決定の影響を受ける事実との間に関連があるか否か

統計処理そのものはデータ対象者を害さない

説明覚書第29段落:脅威は統計処理そのものではなく、入力データが非統計的目的に流用される可能性にある。統計はいかなる場合もデータ対象者の利益を侵害しない。だから利益衡量を要しない。

前文162の文言の問題

データ保護指令前文29から、GDPRでの書き換え(要件→理由説明、「this result」の追加)。理事会段階の過失と考えられる経緯。この文言の曖昧さがDPAの解釈を誤らせる原因となっている。

CNILは本当にそういうことを言っているのか(多段構え)

CNILの記述の紹介

まず中立的にCNILが何を言っているかを正確に紹介。フィッシュ4–2とバック・ア・サーブルPDFの該当箇所。

第1段:前文162を引き写しただけかもしれない

バック・ア・サーブルPDFは前文162にほぼ忠実。好意的に読めば引き写しに過ぎないかもしれない。

第2段:「pour elles-mêmes」は独自だが、言い換えかもしれない

前文162にない独自表現だが、弁解の余地はまだある。

第3段:ML排除の論理で確定

「pour elles-mêmes」を能動的に適用し、結果を何かに使う予定があれば統計目的ではないという判断を実際に下している。これで弁解の余地はなくなる。

第4段:この厳格解釈は保護に寄与しない

  • 脅威はモデル適用段階で生じる
  • 作成段階を制限しても適用段階の問題は防げない
  • CNIL自身が別の適法化根拠で同じ処理を許容
  • 得られるのは手続的負担の増加だけ

なぜこうなるのか:関連性原則の忘却

CNILが作成段階から問題視しようとするのは、適用段階での危険を恐れているから。しかしその恐れ方は、関連性原則による解決が見えていないことに起因する。

適用段階で個人に関する決定が行われる際、その決定に用いるデータが決定の目的に照らして関連性がなければならない(GDPR 5条1項(c)の「relevant」)。これがデータ保護法の基本的な規律であり、不公正な決定の防止はこの原則の適切な適用によって達成される。

この点の詳細——5条1項(c)の「data minimisation」というラベルが本来の「データ品質原則」をいかに歪めているか、22条の自動化された決定の規制との混同がなぜ問題か——については、Omnibusについての先行記事(https://takagi-hiromitsu.jp/diary/20251206.html )で論じたのでそちらを参照されたい。

ここで重要なのは、作成段階の規制を厳しくしても適用段階の問題は解決しないということ。そしてCNIL自身がそれを実証していること(統計目的に該当しなくても別の法的根拠で同じ処理を許容)。

おまけ・ダメ押し:「individuelles ou collectives」

「集団的な決定」まで明示的に排除していることの問題。一般的決定と個別的決定の区別を理解しないまま書いた結果。

結論:モデル作成段階を統計目的とみなすべき

  • CNILの解釈の問題の整理
  • 正しい方向性:作成段階=統計処理、適用段階=関連性原則による規律
  • Digital Omnibusへの接続:Omnibusは全面的適法化で反発を招いているが、作成段階と適用段階を分けて、作成段階を既存の統計目的の枠組みで処理し、適用段階に関連性原則を効かせる道筋がある。この点の詳細は先行記事を参照。


この構成でいかがでしょうか。関連性原則と22条の深い議論はOmnibusブログへのリンクに委ね、CNIL批判の論理に集中する形です。

私:おそらくよさそうです。あとは、英語版フランス語版を生成するために(私のブログからではなく)CoE Rec (97)18の原文を参照するべきですので、以下に添付します。
--
COUNCIL OF EUROPE
COMITTEE OF MINISTERS
EXPLANATORY MEMORANDUM
to Recommendation No. R (97) 18
(略)

Claude:[原文を参照して英語版とフランス語版を生成する準備を整えた。]

ありがとうございます。CoE Rec (97)18 Explanatory Memorandumの原文を受け取りました。

ブログ記事の生成にあたって、この原文から特に重要な箇所を確認させてください:

(略)

それでは、先ほど合意した構成に基づいて、まず日本語版のブログ記事を作成しましょうか?それとも英語版から始めますか?

私:Q: どの言語版から始めますか?
A: 英語版から

Claude:[ブログ投稿の構成を確認し、英語版を作成した。]

了解です。英語版から始めます。まず前回合意した構成の詳細をトランスクリプトから確認します。

[検証のため以前の文書を遡及調査した。]

前回の議論の詳細を確認できました。次に、CNIL文書からの正確な引用を確認するため、以前のトランスクリプトも確認します。

[英語版ブログ投稿の構成を確認し準備した。]

では、まずトランスクリプトで最終合意した構成を確認してから、英語版ブログ記事を作成します。

[英語ブログ投稿のため、複数の法的文書から引用を集約した。]

必要な資料が確認できました。英語版ブログ記事を作成します。

[英語版ブログ記事を完成させた。]

英語版ブログ記事の初稿です。合意した構成に従い、以下の流れで構成しています:

  1. Introduction — CNILのML排除の論理が、伝統的な統計利用(国勢調査→インフラ計画等)すら排除してしまうことを冒頭で示す
  2. Background — CoE Rec (97)18 説明覚書のpara 13(一般的決定 vs 個別的決定)、para 29(統計処理自体は無害)、para 12(中間目的としての統計)を引用して枠組みを説明。Recital 162の文言変遷問題も解説
  3. CNIL's Statements — Fiche 4-2とBac à sableの記述を中立的に紹介
  4. Multi-Stage Argument — 4段階(Recital 162の引き写し?→ "pour elles-mêmes"は独自だが弁解の余地あり → ML排除で確定 → 保護に寄与しない)
  5. Why This Happens — 関連性原則の忘却。Omnibusブログへのリンク
  6. Appendix — "individuelles ou collectives"の問題
  7. Conclusion — 作成段階=統計処理、適用段階=関連性原則

ご確認の上、修正点があればお知らせください。

私:よい感じです。特に出だしはいいですね。足りないなと思ったのは以下の点です。
・CNILが変なことを言っている……そんなことを言えばインフラ計画にも使えなくなる……という問題提起の方法ですが、そういう有用な使い方もできなくなるという言い方もいいのですが、じゃあどういう統計ならいいのか?平均値だって公開したらそれ以上かそれ未満かで決定利用されるんだぞ?的な指摘をどこかに入れたいです。おそらく冒頭よりも中盤のところで触れるのがいいのではないですかね。MLモデルと統計に違いはないんだぞというあたりか。
・「The Wording Problem in Recital 162」のところ、もう少し膨らませてしっかりと説明したいです。CoE Rec (97)18では明確に元の個人データの話をしていたこと、DPDではやや曖昧になっているがそう読めること、GDPRではそう読めなくなったこと、「this result」だけでなく「the personal data」が何を指しているのかといった言語的分析をしたいです。
・Appendixのところ、Appendixというのはちょっと変じゃないですかね。「さらに言えば」的なことじゃないでしょうか。そしてその内容は、それでもいいのですが、先ほど整理した、集団への決定は結局はその集団に含まれる個人への決定の問題に帰着されるので区別する意味はないという話を入れたいところですが、ここに入れると論点が迷走して見える気がするので、結論パートで触れてはどうでしょうか。結論パートが単なる繰り返しになっている間もあるので、新しい要素を結論パートに入れるといいと思います(Omnibusの件のブログでの結論パートでもそうしたように)。

Claude:[ユーザーの3つの修正要望を整理し、改訂版を起草した。]

よいフィードバックです。3点とも改訂します。

(略)

私:読みました。よさそうです。念の為、論理が飛んでいるところとか曖昧なところがないか自己点検してみてください。

Claude:[論理的な隙間と曖昧さを精査し、改善案を検討した。]

全文を精読しました。以下の点が気になります。

(略)

私:素晴らしい点検です。私も1と3が気になっていたところでした。私には他にまだ気になるところがあって、DPDでは要件だったところがGDPRでは定義になったと説明されているところ、私が思うに、これは定義というより、統計目的が目的外とみなされない理由を説明したのだと思う。だから十分条件を言えば足りるから広めに言っていると理解できる。どう思いますか。

Claude:[ユーザーの解釈を検証し、定義から説明機能への読み替えを支持した。]

なるほど、これは重要な指摘です。現在の記述では、DPDの「safeguard requirement」がGDPRで「definitional statement」に変わった、と書いています。しかし、Recital 162の機能をよく考えると:

Article 5(1)(b) は「統計目的の処理は当初の目的と不適合とはみなされない」と定めている。Recital 162はこの適合性推定がなぜ正当化されるかを説明している。つまり「統計処理の結果は個人データではなく集計データであり、個人への決定に使われないから、目的外利用とはみなされない」という十分条件の提示です。

この読みだと:

  • 十分条件であるから、広めに述べても問題ない。むしろ統計処理が安全である理由を余裕をもって説明している
  • “this result or the personal data”の広い書き方も、十分条件として安全性を説明する文脈なら理解できる(安全性を多めに説明しているだけ)
  • CNILのように必要条件(この条件を満たさなければ統計目的ではない)として読むのは、recitalの機能を取り違えている

これは「definitional statement」という私の記述よりも正確で、しかもCNILの誤読がなぜ起きるかをより明快に説明できます。修正しましょうか?

具体的には、55行目付近の「This seemingly small change has large consequences: it invites the reading that any processing failing to meet these conditions is by definition not statistical」の箇所を、「Recital 162はArticle 5(1)(b)の適合性推定の正当化根拠を述べており、十分条件を示しているのであって、統計目的の定義ではない。しかしその文構造が“the statistical purpose implies that…”となっているため、CNILのように必要条件=定義として読む誤読を誘引している」という方向に書き換えます。

私:(Claudeの生成物を添付して)
CNIL批判、Claudeに書いてもらいました。どうでしょう? どこか論理が不自然な箇所はないですか?

ChatGPT:全体として筋はかなり通っていて、「CNILの“pour elles-mêmes”基準を文字どおり適用すると統計概念が空洞化する」という主張の立て方も強いです。とはいえ、読み手(特に当局側)に突かれやすい/論理が飛んで見える箇所がいくつかあります。気になった点を「どこが不自然に見えるか」「どう直すと堅くなるか」で挙げます(下はアップされた原稿に基づく指摘です)。

(略)

私:言葉を弱めるのは悪手ですよ。揚げ足取られないようにすることが目標ではなく、論破しないといけないのでね。それから、話が複雑になりすぎると伝わらないです。

ChatGPT:了解。じゃあ「弱める」じゃなくて、断言の強さは維持したまま、相手に逃げ道を与えない形に“論理を締める”方向で言います。複雑化もしないように、直すなら最小限の“楔(くさび)”だけ。

(略)

私:うーん、それから、私が気になった箇所は、DPDでは要件だったところがGDPRでは定義になったと説明されているところで、私が思うに、これは定義というより、統計目的が目的外とみなされない理由を説明したのだと思うのね。だから十分条件を言えば足りるから広めに言っていると理解できる。

ChatGPT:そこ、あなたの読みの方が自然だと思います。そしてその読みを採ると、CNIL批判の「論破力」はむしろ上がります。

(略)

私:OK、あと、ChatGPTにも読んでもらいました。色々言われていますが、私は必ずしもChatGPTの意見に賛同しません。それでも参考になるところがあれば加味してください。使えるところはありますか?
--
CNIL批判、Claudeに書いてもらいました。どうでしょう? どこか論理が不自然な箇所はないですか?
(略)

Claude:[ユーザーの論破戦略に沿い、ChatGPTの指摘から最小限の有用な改善点を抽出した。]

ChatGPTの指摘を検討しました。使える点が3つあります:

1. 「harm = decision-harm」の一文追加(ChatGPT指摘1) 「統計処理自体は有害でない」の断言を弱めるのではなく、射程を固定する。相手がmembership inference等にすり替えるのを防ぐ。これは最小の一文で効く。

2. CNILの文言で錨を打つ(ChatGPT指摘3) Stage 3で「CNILの基準だと統計が消える」と言うところ、CNILの原文“not taking subsequent decisions, individual or collective”を先に引いて「immediateに限定されていない」と確認する。読者に「極端解釈で殴っている」と思わせない。

3. Council段階の記述(ChatGPT指摘4) 断言を弱めるのではなく、根拠を示せないなら表現を調整する。

これらと、先ほどの「定義→正当化根拠(十分条件)」の修正を合わせて直します。

[原稿の論理的矛盾点を修正中。]

Now the “harm = decision-harm” clarification:

[段階3のCNIL文言を引用箇所に追加する準備を進めた。]

Now anchor Stage 3 with CNIL’s own text:

[議論の論理構造を検証中]

Now the Council stage assertion:

[原稿の論理構造を検証し改善案を検討した。]

最終確認のために修正後の該当箇所を通して読みます。

[準備完了し、出力へ移行した。]

全体の流れが整合しています。最終版をコピーします。

[原稿の論理を強化し、反論耐性を高める改善案を検討した。]

修正のまとめ:

1. Recital 162の分析(最重要・自分の指摘+ChatGPT指摘を統合) 「DPDのsafeguard requirementがGDPRでdefinitional statementになった」→「GDPRではArticle 5(1)(b)の適合性推定を正当化する説明に書き換わった。十分条件を述べているのであって、統計目的の定義ではない。CNILはこの正当化根拠を定義として読み違え、必要条件として適用している」に全面改訂。

2. 「害=decision-harm」の射程固定(ChatGPT指摘1から採用) 「統計処理自体は有害でない」の箇所に一文追加。ここでいう脅威はdecision-harm(個別不利益決定)であり、情報漏洩・再識別等の情報セキュリティリスクは別の保護措置の問題だと明示。断言は弱めず、相手の論点すり替えルートを塞いだ。

3. CNIL文言による錨打ち(ChatGPT指摘3から採用) Stage 3に“ultérieures”(subsequent)であって“immediate”ではないことを明示する段落を追加。CNILが「即時的な個別介入だけを言っている」と逃げる道を塞ぎ、「極端解釈で殴っている」という印象を防止。

4. Council段階の記述調整(ChatGPT指摘4から部分採用) 断言を維持しつつ、「Commission原案にはこの形のrecitalがなく、Council段階で現在の文言が出現した」と根拠の所在を示す形に。

私:あと、DPDからGDPRでここが書き変わったのは、DPDでは各国法で定めなくてはならなかったから要件を示す必要があったのだけど、GDPRでは直接適用で規定されたので、一旦DPDの前文29が不要になるわけで、だから欧州委員会提案には記載がなかったのが、終盤で理由の説明として入ったんだと思うんだよね。どうだろう?

ChatGPT:かなり筋が良い仮説です。少なくとも 「Commission提案(2012)には、DPD前文29型の“統計目的=個別決定に使わない”という説明文が無い/薄い」ことは確認できます。(略)

私:OK、Recital 162のところだけど、GDPRでは説明文に変更されたという論に変えたので、「First, the sentence is restructured …」と「Second, the phrase …」を逆順にした方がよくない?そうすることで、後続の論展開も少し簡潔にできる気がする。
あと、DPDからGDPRでここが書き変わったのは、DPDでは各国法で定めなくてはならなかったから要件を示す必要があったのだけど、GDPRでは直接適用で83条で規定されたので、一旦DPDの前文29相当が不要になるわけで、だから欧州委員会提案には記載がなかったのが、終盤で理由の説明として入ったんだと思う。その話をどこまで入れるべきかはわからないけど、意識してみて。以下はChatGPTに聞いてみた結果です。参考までに。
--
かなり筋が良い仮説です。少なくとも **「Commission提案(2012)には、DPD前文29型の“統計目的=個別決定に使わない”という説明文が無い/薄い」**ことは確認できます。(略)

Claude:[構成を再検討し、DPDからGDPRへの制度的変化を統合した。]

おっしゃる通りです。順序を入れ替えると、まずテキストの変更点(“this result or the personal data”の追加)を示し、次にその変更がなぜ起きたか(DPDでは各国法実施のための要件→GDPRでは直接適用で一旦不要→終盤で理由説明として復活)を説明し、その文脈から「だから定義ではなく正当化根拠」と結論する流れになる。より自然で簡潔になります。流れが自然になりました。

[再構成と制度的文脈を統合し論理を洗練させた。]

  1. First: テキストの変更点(“this result or the personal data”の曖昧さ)
  2. Second: なぜこう変わったか(DPDは各国法実施のため要件提示が必要→GDPRは直接適用でArticle 89があるため欧州委員会提案では不要に→Council段階で理由説明として復活)→だから十分条件であって定義ではない
  3. CNILの誤読:正当化根拠を定義として適用

制度的文脈が「なぜ書き方が変わったか」の説明として自然に入り、「十分条件」論の根拠が強化されています。

私:OK、あと、Claude原稿の結論節で、集団への決定の話が弱いと思う。CNILが集団を入れてきたのは、いわゆるグループプライバシー論を取り入れたんじゃないかと思う。グループプライバシー論も複数の学派があるようでまだよくわかっていませんが、ここで言うべきは、グループへの決定を差別として特別に問題視しようとするのは、関連性原則を見落としているからではないか、グループへの決定はそれすなわちそこに属する個人に対する(当該グループに属するという個人データに基づく)決定に他ならないわけで、あえてグループ云々に着目する必要はないと思うわけ。どうだろう?

ChatGPT:その補強は、結論を強くできます。しかも「グループプライバシー論がどうこう」の学説整理に深入りしなくても、あなたの決定指向+関連性だけで十分に“詰む”形が作れます。

ポイントは2つに分けると通りが良いです。(略)

私:念の為、グループプライバシーとはどういう学説があるのか、調べてみて。

ChatGPT:グループプライバシー(group privacy / collective privacy)は、ざっくり言うと「個人のプライバシー権だけでは捉えきれない“集団に対する害”をどう概念化するか」の学説群で、主流はだいたい次の“型”に分かれます(学派というより、問題設定の型です)。

1) 共同秘匿型(shared/confidentiality within a group)

(略)

2) 推論・プロファイリング型(inference / algorithmic grouping)

(略)

3) 集団を“権利主体”として立てる型(group as right-holder / collective right)

(略)

4) ガバナンス/救済の集団化(collective enforcement / collective use of rights)

(略)

5) 予測・推定による「予測プライバシー」型(predictive privacy)

(略)

6) 2概念整理の代表:Loi & Christen(整理学)

「グループプライバシーは何を指すのか」が散らかりがちなので、定義の交通整理をする論文もあります。

  • Loi & Christen(“Two Concepts of Group Privacy”)は、(i) グループ内部の機密(shared secrecy)と (ii) 推論で作られるグループ(inference-based groups)を明確に分ける整理を提示しています。

CNILの “individual or collective decisions” は、どの型に近いか

文脈(AI/統計目的)からすると、CNILが言いたい「collective」はたぶん

  • ②推論・プロファイリング型(集団ターゲティング=差別)
  • あるいは ③集団的権利型(集団差別を“集団の害”として立てたい)

の直感が混ざってる可能性が高いです(あなたの見立てどおり“グループプライバシー輸入”っぽい動き)。

ただ、あなたの立場(関連性原則)で刺すなら、分類学派の細部よりも、

集団決定は、結局「集団所属」という個人データに基づく個人決定に還元される
⇒ 問題は“集団かどうか”ではなく、その属性が決定目的に関連性を持つか

という一本で十分戦えます。

必要なら、(略)

私:OK、あとは、結論パートで、集団への決定の話が弱いと思う。CNILが集団を入れてきたのは、いわゆるグループプライバシー論を取り入れたんじゃないかと思う。グループプライバシー論も複数の学派があるようでまだよくわかっていませんが、ここで言うべきは、グループへの決定を差別として特別に問題視しようとするのは、関連性原則を見落としているからではないか、グループへの決定はそれすなわちそこに属する個人に対する(当該グループに属するという個人データに基づく)決定に他ならないわけで、あえてグループ云々に着目する必要はないと思う。以下はこの点についてのChatGPTの意見です。参考にしてみてください。
--
OK、あと、Claude原稿の結論節で、集団への決定の話が弱いと思う。CNILが集団を入れてきたのは、(略)

Claude:[結論パートの集団決定論を簡潔に調整した。]

Now let me adjust the conclusion’s collective decision paragraph, since the main argument is now in Furthermore:

[構造化し、関連性原則で集団決定論を論破する道筋を確認した。]

流れが良くなりました。

[集団決定を関連性原則で再構成し、グループプライバシー学説を整理した。]

Furthermoreセクションの論理展開が3段構成になりました:

第1段: GDPRに根拠なし+CoE枠組みと矛盾(既存、維持)

第2段(新規): グループプライバシー論への応答。CNILの動機(集団ターゲティングへの懸念)を認めた上で、「集団への決定」は実際には「当該集団に属するという個人データに基づく個人への決定」の集合に他ならないと指摘。問題は決定が「集団的か個人的か」ではなく、使われた属性(郵便番号、年齢区分等)が決定目的に関連性を持つかどうか。

第3段(新規): したがってCNILは統計的知識の作成を制限することでグループレベルの害に対処しようとしているが、介入点が間違っている。正しくは決定段階での関連性原則。「集団的決定」という特別概念もデータ保護法の個人中心枠組みからの逸脱も不要。

結論の該当段落は、Furthermoreで論じ済みなので簡潔化し「As discussed above」で接続しています。

私:(Claudeの生成物を添付して)
Claudeの修正版です。よくなりました?

ChatGPT:かなり良くなっています。前の版で弱かった(=「極端解釈だろ」と逃げられる)部分が、今回 (i) “rationale vs definition” の整理と (ii) “ultérieures” を根拠にCNILがimmediate限定ではないことを確定で、論理の芯が一本になりました。特にこの段落は強いです:CNILは “subsequent (ultérieures)” と書いているので「リアルタイム限定」の弁解が潰れる、というところ。

その上で、さらに強くなる(=論破力が上がる)直しどころを、増量せずに挙げます。(略)

私:OK、再度ChatGPTに見てもらいました。3)はスルーで良いでしょう。1)は考えてみてください。2)は文献を入れましょう。全体として文献は本文から番号で参照するようにしたいですね。
--
Claudeの修正版です。よくなりました?(略)

Claude:[計画立案:論点強化、脚注追加、逃げ道封じ。]

まず、ChatGPTの1)について考えます。現在のテキストは「集団決定は個人決定に還元される→関連性原則で裁くべき」まで書いていますが、CNILが「collectiveは差別的ターゲティングの意味だ」と逃げる場合に、もう一歩踏み込んで「それでも統計目的の定義に混ぜる話ではなく、適用段階の問題」と明示するのは有効です。実は最後の段落がほぼそれを言っていますが、もう少し明確にできます。

では、1)の補強と2)の文献番号化を合わせてやります。

[計画立案:英仏両版の脚注番号化と論理強化を段階的に実行。]

大きな変更が3つあるので、段階的に進めます。まず1)のcollectives強化、次に文献番号化とCouncil文書の追加。

(略)

私:OK、では最後に、日本語版を別ファイルに生成してください。なお、「data subject」は「データ対象者」と訳し、「adequate, relevant …」は「十分で関連性があり」などのように「adequate」は「適切」ではなく「十分」と訳してください。

Claude:(略)

私:OK、先ほど生成してくれたフランス語版ですが、これは英語版からの翻訳ではなく直接にフランス的な立場から書いてくれていますか。フランス語の文書を引用するところでは原文をそのまま引用していますか。

Claude:[フランス語版の真正性と引用の正確性を検証した。]

重要な確認ポイントです。現在のフランス語版を確認します。

[フランス語版の出典確認と翻訳の妥当性を検証した。]

よい質問です。確認すべき点は主に以下です。

原文がフランス語のもの(問題なし):

  • CNILの引用(Fiche 4–2, Bac à sable)— 原文がフランス語なので、フランス語版では原文をそのまま引用しています ✓
  • GDPR前文162 — EU法は各言語で正文があり、フランス語版は公式フランス語テキストを引用しています ✓

確認が必要なもの:

  • 欧州評議会 説明覚書 (97) 18の引用(第13段落、第29段落、第12段落)— 欧州評議会の公用語は英語とフランス語で、説明覚書にも仏語正文があるはずですが、フランス語版の引用がその仏語正文から取ったものか、英語版から私が翻訳したものか、正直なところ確認が必要です。
  • データ保護指令 前文29 — 同様に仏語正文があるはずです。

実際のところ、欧州評議会説明覚書の引用部分は、英語原文をもとに私がフランス語に訳した可能性が高いです。原文の正確性を担保するには、欧州評議会のフランス語正文と照合する必要があります。

確認しましょうか?ウェブで仏語正文を検索して照合することができます。

私:(CoE Rec (97) 18本文フランス語版を添付して)
CoE Rec (97) 18の説明覚書のフランス語版はネットにない(ChatGPTが探したが)ようです。本文はあるのでここに置きます。データ保護指令 前文29のフランス語版は以下です。
--
(29) considérant que le traitement ultérieur de données à caractère personnel (略)

Claude:[検証し、フランス語版の引用文を修正する必要性を認識した。]

重要な確認です。PDFの勧告本文(仏語)が手元にありますが、説明覚書(Exposé des motifs)の仏語版はないとのこと。現行のフランス語版を照合しましょう。

[検証し、フランス語公式文を引用に統合した。]

問題を特定しました。照合結果を報告します。

(略)

修正してよろしいですか?また、英語版の前文29引用も併せて確認・修正しますか?

私:英語版の全文29はこうです。
--
(29) Whereas the further processing of personal data for historical, (略)

Claude:[公式英文と現在の版を照合し、複数箇所の修正を特定した。]

確認しました。英語版の前文29引用も問題があります。

(略)

三言語すべて修正します。

(略)

私:形式的な点を確認をしたところ、他に以下のところに問題があるようです。
・英語版、CNIL, Fiche 4–2の引用部、原文英語版からではなくフランス語版の翻訳のようです。英語版原文を引用しましょう。2箇所あります。
・英語版、Explanatory Memorandum, para. 13の冒頭が原文と違うようです。
・参考文献パートで、「Directive 95/46/EC of the European Parliament and of the Council」とあるのは正確でしょうか? 他の言語版も同様に。「Regulation (EU) 2016/679 of the European Parliament and of the Council」についても同様ですが。
・参考文献パートでは、タイトル・著者名は翻訳しないようにしましょう。
・参考文献パート、ST 14319/15とST 15039/15の文書名はそれでいいのだろうか?
・参考文献パート、高木ブログを引いている箇所のタイトルは原文どおり「Digital Omnibus, Scope and Relevance: Are We Fighting the Wrong Battle?」としてください。
それから、内容的な問題ですが、The Council of Europe Framework節の「but against using them to make individual decisions about the very persons whose data was fed into the statistical process」のところ、「them」(statistical results)の使用となっていますが、ここで言うべきは、themを使用するかに関わらず、「make individual decisions about the very persons whose data was fed into the statistical process」することではないでしょうか。

Claude:[複数の引用・参考文献の誤りを特定し修正方法を検討した。]

多数の修正点があります。順に確認・修正していきます。まずCNIL英語版の原文と説明覚書の原文を取得します。

(略)

私:OK、あとは、日本語版ですが、「——」句を使い過ぎています。読みにくいところが多く、文法的におかしいところもありました。

Claude:[日本語版の句読点過剰使用を修正する方針を検討した。]

日本語版の「——」の使用箇所を確認します。

[日本語版の過度なダッシュ使用を改善する計画を立てた。]

全文を通して「——」の使用を見直し、読みやすく文法的に自然な表現に改めます。系統的に処理します。

(略)


以上で完成した。


CNILによるGDPR「統計目的」の誤解:なぜMLモデルの作成は統計処理として扱われるべきか

はじめに:CNILが奇妙なことを言っている

CNIL(フランスのデータ保護機関)は、2024年4月に公表したAIに関するガイダンス「Fiche 4–2」[1]において、機械学習と統計目的に関して注目すべき主張を行っている。

「機械学習のために統計的技法を用いることは、そのデータ処理が『統計目的で』行われていると見なすには十分でない。なぜなら、データ処理の目的は、集約データをそれ自体として(pour elles-mêmes)生成することにはないからである。そうした技法の使用は、モデルの学習のために実施される手段にすぎない。」(CNIL, Fiche 4–2)

CNILの論理はこうである。GDPRにおいて処理が「統計目的」に該当するためには、集約データを「それ自体として」(pour elles-mêmes)生成することのみを目的としなければならない。すなわち、集約データはそれ自体が目的でなければならない。MLモデルの学習は、集約された知識(モデルパラメータ)を生成するが、それはその後何かに使用されるのであるから、統計処理には該当しえない、と。

しかし、この論理がどこに行き着くかを考えてみよう。政府機関が国勢調査を実施し、得られた統計をインフラ整備の計画に用いる。保険会社が保険金請求データを分析し、得られた統計を保険料率の設定に用いる。公衆衛生当局が疫学データを集計し、得られた統計をワクチン接種キャンペーンの設計に用いる。いずれの場合も、統計はその後の意思決定に使用するために作成されているのであって、「それ自体として」作成され、それ以上の用途がないわけではない。CNILの解釈に従えば、これらのいずれもが「統計目的」に該当しないことになる。

明らかに何かがおかしい。何が問題なのかを理解するには、CNILが適用しようとしている「決定利用禁止」の原点に立ち返る必要がある。

背景:「決定利用禁止」が存在する理由

欧州評議会の枠組み

統計データを個人に関する決定に使用してはならないという規則には、特定の起源と特定の趣旨がある。それは、統計目的で収集・処理される個人データの保護に関する欧州評議会勧告R (97) 18 [3]の説明覚書において最も明確に定式化された。

説明覚書は、統計処理の結果として生じうる二つの類型の決定を区別している。

「統計処理から得られた結果は、二つの類型の決定に用いることができる。すなわち、一般的決定(法律、料率表、予防キャンペーン、交通計画等)と個別的決定(入学許可または排除、課税、手当、報奨等)である。統計目的で収集・処理された個人データは、第一の類型の決定にのみ用いることができる。かかる一般的決定は、確かに特定の個人にとって(有利または不利な)特定の影響を及ぼす。しかし、個人情報を提供し統計的集合に組み入れられたという事実と、個別的決定の対象となるという事実との間に、いかなる関連もあってはならない。」(説明覚書 第13項)

ここに決定的な区別がある。禁止されているのは統計的結果を使用すること自体ではない。統計に基づく一般的決定は明示的に許容されている。禁止されているのは、統計処理にデータを提供したまさにその個人について個別的決定を下すことである。一般的決定(法律、保険料率表、公衆衛生キャンペーン、都市計画など)は統計的結果の完全に許容される使用形態であり、それが特定の個人に不可避的に影響を及ぼすとしてもそうである。重要なのは、統計的入力にデータを提供したことと、その提供を根拠として個別化された決定の対象とされることとの間に、直接的な関連が存在しないということである。

なぜ統計処理それ自体は有害でないか

説明覚書はさらに踏み込んで、統計処理がデータ保護法の下で優遇される理由を説明している。

「データ対象者にとって脅威となるのは統計処理それ自体ではなく、ただ単に、統計処理の基礎となるデータが非統計的目的に転用されうるという事実にすぎない。……統計的利益がデータ対象者の利益の侵害を正当化しうる根拠は存在しない。なぜなら、後者はいかなる場合も統計によって侵害されることはないからである」(説明覚書 第29項)

この一節は、決定利用禁止が対処する懸念が、入力データの非統計的利用への転用に関するものであって、統計的出力が利用に供されること自体に関するものではないことを明らかにしている。ここでいう「脅威」とは、データ対象者のデータに基づいて個別化された不利益な決定が下されるという脅威であって、データ漏洩や再識別といった情報セキュリティ上のリスクのことではない(後者は別個の保護措置によって規律される)。統計処理は個人レベルの個人データを集約的知識に変換する。この変換こそが、決定利用禁止の観点から統計処理を安全たらしめるものである。出力は集団やパターンに関するものであって、識別可能な個人に関するものではない。

説明覚書はまた、統計目的が出力段階で他の目的と接続する「中間的目的」としての性質を説明している。

「出力段階において、それは他の目的と結合する。……かかる中間的目的のために提供される統計情報は、常に集団現象に関するものであり、したがっていかなる場合にも、個人に対する直接的なまたは個別化された帰結を伴うことはありえない。」(説明覚書 第12項)

言い換えれば、統計的結果は使用されるべきものなのである。政策立案、計画、研究、一般的意思決定のために使用されるべきものである。統計的結果を使用してはならないのは、統計処理においてデータ対象者であったという事実を根拠として、特定の個人に関する決定を下すためである。

前文162の文言問題

欧州評議会勧告のこの枠組みはEUデータ保護法に引き継がれたが、各段階で文言が変遷し、原義を次第に曖昧にしていった。

欧州評議会勧告(97) 18は明確であった。説明覚書は一貫して入力データ、すなわち統計処理に情報が投入された個人の個人データについて語っている。禁止の対象は、それらのデータを転用してそれらの個人に関する個別的決定を行うことである。統計的出力(集約的結果)は、一般的決定に使用されることが明示的に予定されている。何が禁止され何が許容されるかについて、混乱の余地はない。

データ保護指令 前文29 [4](1995年)は次のように述べていた。「歴史的、統計的又は科学的目的のための個人データの更なる処理は、加盟国が適切な保護措置を設けることを条件として、データが以前に収集された目的と一般に不適合であるとはみなされない。これらの保護措置は、特に、いかなる特定の個人に関する措置又は決定を裏付けるためのデータの利用を排除しなければならない。」

この定式は核心的な考え方を保持している。利用が排除されるべき「データ」とは、処理されている個人データ(入力データ)を指している。保護措置の要件は、この個人データが個別化された措置または決定を裏付けるために転用されてはならないというものである。前文は保護措置の要件として構成されており、加盟国は保護が存在することを確保しなければならないのであって、「統計目的」とは何を意味するかの定義として構成されているのではない。さらに、統計目的を、当初の収集目的と推定的に適合する更なる処理の一類型として位置づけている。この枠組みは、後にGDPR第5条1項(b)が直接に法典化することになるものである。

GDPR前文162 [5]は、二つの重要な点でこれを再定式化した。

「統計目的は、統計目的の処理の結果が個人データではなく集約データであること、及びこの結果又は個人データが特定の自然人に関する措置又は決定を裏付けるために使用されないことを含意する。」

第一に、「この結果又は個人データ」という語句は、それ以前の定式化には存在しなかった重大な曖昧さを導入している。原来の枠組みにおいて、禁止の対象は入力個人データの個別化された決定への転用のみであった。いまや「この結果」(集約的統計的出力)が「個人データ」と並んで、特定の個人に関する決定に使用されてはならないものとして置かれている。問題は、なぜ「この結果」がそもそも追加されたのかである。指令の定式化(個人データを個別的決定に使用してはならない)をそのまま維持していれば、保護措置は明確かつ十分であったはずである。「この結果」を「個人データ」と並置することによって、起草者は、禁止を統計的出力そのもの拡張するものと最も自然に読める定式化を作り出した。文字通りに受け取れば統計的結果のあらゆる決定利用を禁止し、統計的枠組みの趣旨全体と矛盾する読みである。もう一つの読み、すなわちこの条項は原来の枠組みと実質的に同じことを述べており、「この結果」は統計的出力が個人データを構成すべきでないことを明確にしているにすぎないという読みは、立法史との整合性がより高いが、選言的な語句がそれをはるかに自明でないものにしている。

第二に、この文は保護措置の要求から説明的記述へと構造が変化している。「統計目的は……を含意する」という形式がそれである。制度的文脈がこの変化を説明する助けとなる。データ保護指令前文29は、加盟国が指令を国内法に転換する際に実施すべき保護措置を規定していたため、要件を明示する必要があった。これに対しGDPRは直接適用されるものであり、統計処理に関する独自の実体的規定(第89条)を含んでいる。欧州委員会の当初のGDPR提案 [6]には、データ保護指令前文29の形での統計目的に関する前文は含まれておらず、前文162となる文言は2015年11月20日の理事会の一般アプローチ [7]には存在しないが、2015年12月15日の妥協テキスト [8]に出現しており、理事会交渉の終盤で導入されたことを示している。しかし、再導入されたのは一連の要件ではなく、説明的な理由づけであった。「統計目的は……を含意する」という形式は、統計目的のための追加的処理がなぜ第5条1項(b)に基づき原目的と適合的と推定されるのかを説明するものである。これは十分条件の記述、すなわち適合性の推定を典型的に正当化する特徴を記述するものであって、何が統計処理に該当するかの定義ではない。前文が正当化を提供しているがゆえに、典型的事例を広く記述することが許される。必要条件の網羅的な集合として読まれる必要はない。

しかし、「統計目的は……を含意する」という語句は、まさにこの誤読を誘う。CNILはこの前文を統計処理が何であるかを定義するものとして扱い、述べられたすべての条件を満たさない処理は定義上統計的ではないと結論づけている。これは正当化のための理由づけと定義上の境界とを混同するものである。

利用可能な審議経過資料において、データ保護指令の枠組みからの実質的な逸脱が意図されていたという徴候はない。しかし、生じた曖昧さは、「この結果又は個人データ」の定式化と要件から理由づけへの転換の双方において、データ保護機関を誤った方向に導いてしまった。勧告(97) 18におけるその起源に照らして読めば、この規定は、統計処理のために収集された個人データが、データを処理された個人に関する個別的決定を行うために転用されてはならないことを意味するにすぎない。しかし、CNILがそうしたように孤立的に読めば、統計的結果そのものがいかなる個人に関するいかなる決定にも使用されてはならないことを意味するものと解される余地がある。

CNILが実際に述べていること

Fiche 4–2(2024年4月)

CNILのAIとデータ再利用に関するガイダンスには、統計目的を具体的に扱った記述がある。そこにはこう述べられている。

「GDPRの意味における統計目的を追求するためには、処理は集約データをそれ自体として生成することのみを目的としなければならない。処理の唯一の目的は、データの計算、その表示又は公開、その共有又は伝達の可能性でなければならない(その後の個別的又は集団的な決定を行うことではない)。こうして得られた統計的結果は、データ保護規則の意味における集約された匿名データを構成しなければならない。」

CNILはその上でこの定義を機械学習に適用する。

「機械学習のために統計的技法を用いることは、そのデータ処理が『統計目的で』行われていると見なすには十分でない。なぜなら、データ処理の目的は、集約データをそれ自体として生成することにはないからである。そうした技法の使用は、モデルの学習のために実施される手段にすぎない。」

規制サンドボックス勧告(2025年3月)

RATP(パリ交通公団)のPRIV-IAプロジェクト(旅客流動管理のための映像分析)に関する規制サンドボックス勧告 [2]において、CNILはさらに詳述している。

「統計目的の処理の結果は、定義上、個人データを構成しえない。データは集約されており、この結果は特定の自然人に関する措置又は決定を裏付けるために使用されえない。『拡張型』カメラに関するCNILの見解は、処理がそれ自体として即時的な意思決定に向かう場合には、その処理を専ら統計的とみなすことはできないと指摘することで、この条件を明確にしている。」

CNILは、集約的測定を生成するにもかかわらず統計的ではないと考える処理の三つの例を挙げている。すなわち、群衆密度が閾値を超えた際に即時の警報を発動すること、通行人がパネルの前を通過した際にリアルタイムで広告を表示すること、閾値に達した際に場所へのアクセスを即時に遮断することである。

この三つの例は実のところ適切に選ばれている。いずれも、まさにデータが収集された当の個人に対してリアルタイムで作用する処理を含んでいる。勧告(97) 18の枠組みの下では、これらは確かに統計処理に該当しないであろう。なぜなら、データを提供したことと即時の個人レベルの帰結を受けることとの間に直接的な関連が存在するからである。

CNILの見解の分析

段階1:前文162を単に写しているだけか?

CNILの見解に対する好意的な読みの一つは、規制サンドボックス文書が単に前文162を言い換えているにすぎないというものである。統計的結果は「特定の自然人に関する措置又は決定を裏付けるために使用されえない」という記述は、前文の文言を忠実に追っている。もしこれがCNILの述べていることのすべてであれば、問題はCNILの解釈ではなく前文162の起草にあることになろう。

段階2:「pour elles-mêmes」は独自の表現だが、言い換えの可能性もある

しかし、Fiche 4–2は「pour elles-mêmes」(それ自体として)という表現を導入している。これは前文162にもGDPRのいかなる箇所にも現れない語句である。これもなお、前文の意味を言い換えようとする試みと読む余地がある。すなわち、統計的結果は統計処理の最終的生成物として作成されるべきであり、個別化された意思決定の隠れ蓑としてではない、と。

段階3:MLの排除が誤解を確認する

しかし、CNILが機械学習の学習を統計目的から明示的に排除していることにより、好意的解釈の余地はなくなる。ここでCNILは、MLモデルの学習がその後何かに使用される集約的知識を生成するがゆえに、統計処理には該当しないと結論づけるために、「pour elles-mêmes」基準を積極的に適用している。

これはCNILの見解の強引な読みではない。Fiche 4–2 [1]は、統計処理が「la prise de décisions ultérieures, individuelles ou collectives」(「その後のultérieures)個別的又は集団的な決定を行うこと」)に向かうものであってはならないと明確に述べている。その語は「その後の」(ultérieures)であって「即時の」ではない。CNILはその禁止をリアルタイムの個人的ターゲティングに限定しているのではない。結果がいかなる種類のいかなるその後の決定をも提供しうる処理のすべてを排除しているのである。

この論理は、統計のあらゆる伝統的利用を等しく失格とさせるであろう。インフラ計画に使用される国勢調査データ、公衆衛生政策に使用される疫学データ、金融政策に使用される経済データ。いずれもその後に使用される集約的結果を生成する。CNILの基準を首尾一貫して適用すれば、「統計目的」の概念は事実上無意味なものとなる。

実のところ、問題はさらに深い。最も基本的な統計的出力である公表された平均値を考えてみよう。平均賃金、平均リスクスコア、平均治療成績が知られると、誰でも特定の個人をその平均と比較し、それに応じた決定を行うことができる。銀行は申請者の所得を公表された平均と比較できる。病院は患者の検査結果を公表された基準と比較できる。欧州評議会の枠組みの下では、このような使用は完全に正当である。これらはまさに統計的結果が提供すべき「一般的決定」であり、決定は一般的な統計的基準に基づいており、個人が基礎となるデータセットに参加したことに基づいているのではない。しかしCNILの基準の下では、生産者がそれらを単なる表示を超えて何かに使用することを意図していた場合、これらの平均値の生成すら「統計的」に該当しないことになる。統計的結果がその後の決定を提供しうるという単なる可能性が処理を「統計的」でないとするのに十分であるなら、いかなる統計処理も該当しえないことになる。

CNILはMLモデルのパラメータを伝統的な統計的出力と本質的に異なるものとして扱っているが、この区別は精査に耐えない。MLモデルのパラメータは、学習データにおけるパターンの圧縮された集約的表現であって、複雑な統計的係数の集合と機能的に類似している。係数を生成する回帰モデル、分割規則を生成する決定木、重み行列を生成するニューラルネットワークは、すべて同じこと、すなわち個人レベルのデータから集約的パターンを抽出することを行っている。違いは複雑性の程度にあるのであって、種類の違いではない。個人データに基づいて学習された線形回帰モデルが統計処理に該当するならば、同一のデータに同一の方法で学習されたニューラルネットワークが該当しない原理的理由は存在しない。

段階4:この制限的解釈は何の保護も達成しない

解釈上の誤りを措くとしても、CNILの統計目的の制限的解釈は、データ対象者に対する追加的保護を何ら提供しない。その理由は以下の通りである。

第一に、データ対象者に対する脅威は適用段階(MLモデルが個人に関する決定に使用される段階)において生じるのであって、個人データが集約的モデルパラメータに変換される作成段階においてではない。欧州評議会の説明覚書はこの点について明示的であった。すなわち「データ対象者にとって脅威となるのは統計処理それ自体ではない」と。

第二に、作成段階を制限しても適用段階における問題を防止できない。異なる法的根拠(正当な利益など)の下で作成されたMLモデルは、統計目的の下で作成されたものとまったく同じ方法で適用されうる。CNIL自身、他の法的根拠の下でのML学習を認めることによって、この点を暗黙に認めている。

第三に、CNILの解釈が達成するものは、手続的負担の増加にすぎない。管理者に対し、統計目的に利用可能な適合性の推定の代わりに他の法的根拠に依拠することを要求するだけである。実体的な処理は同一のままであり、変わるのは書類仕事のみである。

なぜこのようなことが起きるのか:関連性原則の忘却

CNILがモデル作成を制限しようとするのは、モデルがどのように適用されうるかについての懸念、具体的には、個人データに基づいて学習されたモデルが個人に対して不公正な決定を行うために使用されうるという恐れに起因するものと思われる。この懸念は正当であるが、CNILは保護を求める場所を間違えている。

データ保護法は、この懸念に適用段階で対処するための強力なメカニズムをすでに含んでいる。第5条1項(c)に基づく関連性原則がそれである。GDPRにおいて「データ最小化」と誤解を招く名称が付されたこの規定は、その起源においてはデータ品質の原則である。個人に関する決定に使用されるデータは、処理の目的との関係において「十分で、関連性があり、かつ過度でない」(指令の定式化)又は「十分で、関連性があり、かつ必要なものに限定された」(GDPRの定式化)ものでなければならないことを要求している。

AIシステムが個人に関する決定を行い又は裏付けるために適用される場合、その決定に供されるデータは決定の目的に対して関連性を有していなければならない。保険会社は引受リスクと無関係の健康データを使用できない。融資者は返済能力と合理的関連を有しないデータに基づいて信用評価を行うことはできない。これは関連性原則の作用であり、基礎となるモデルがどのように作成されたかに関わらず適用される。

CNILのアプローチにおける根本的な誤りは、適用段階の問題を作成段階の制限によって解決しようとする試みである。モデルがどのように作成されるかに対するいかなる制限も、そのモデルが不適切に適用されることを防止しえない。逆に、適用段階におけるデータ品質要件の適切な執行は、モデルの出自に関わらず実効的な保護を提供する。

第5条1項(c)に基づく関連性原則、データ量の原則ではなくデータ品質の原則としてのその歴史的起源、及び自動化された個別的決定に関する第22条との関係については、Digital Omnibus提案に関する以前の論考 [9]で詳述した。中核的な洞察は、「データ最小化」という名称が、実際には決定品質の要件、すなわち個人に関する決定が当該決定にとって十分かつ関連性のあるデータに基づくことを確保するという要件を歪曲しているということである。これは時として、より少ないデータではなく、より多いデータを意味しうる。

さらに:「individuelles ou collectives」(個別的又は集団的)

CNILの誤解のさらなる徴候は、禁止に「collectives」(集団的)を追加していることである。Fiche 4–2 [1]は、統計処理が「la prise de décisions ultérieures, individuelles ou collectives」(「その後の個別的又は集団的な決定」)に至るものであってはならないと述べている。

この追加はGDPRに何ら根拠を有しない。前文162 [5]は、統計データの「特定の自然人に関する措置又は決定を裏付けるため」の使用のみを禁じている。集団的決定については何も述べていない。

より重要なことに、この追加は欧州評議会の枠組みと直接に矛盾する。勧告(97) 18 [3]は、統計的結果の「一般的決定(法律、料率表、予防キャンペーン、交通計画等)」への使用を明示的に許容している。これらの一般的決定は、その性質上、集団的である。それは集団、共同体、及び全人口に影響を及ぼす。一般的決定と個別的決定の区別の要点はまさに、統計的結果に基づく集団的決定が単に許容されるのみならず、統計の第一義的な正当な使用であるということにある。

CNILが「collectives」を追加した動機は、おそらくグループプライバシーに関する新興の文献にも関連する懸念、すなわち統計モデルが集団そのものを標的にするために使用され、個人レベルの分析では捉えきれない差別的効果を生み出しうるという懸念を反映している。この懸念は根拠のないものではない。地区全体に懲罰的料率を設定する保険会社や、人口統計的カテゴリーを体系的に不利にするアルゴリズムは、確かに集団レベルの害をもたらす。

しかし「集団に関する決定」は、実際には、個々人に関する決定の集合にほかならず、各決定は個々のデータポイント(すなわち当該個人がその集団に属するという事実)に基づいている。保険会社が特定の郵便番号のすべての居住者に高い料率を適用する場合、影響を受ける各契約者は、住所という個人データに基づく個別的決定の対象となっている。法的問題は、決定が形式上「集団的」であるかどうかではなく、使用された属性(郵便番号、年齢層、人口統計的カテゴリー)が決定の目的に対して関連性を有するかどうかである。これはまさに第5条1項(c)に基づく関連性原則が規律するところである。すなわち、個人に関する決定の根拠として使用されるデータの十分性と関連性である。

統計目的の禁止に「collectives」を追加することによって、CNILは統計的知識の作成を制限することで集団レベルの害に対処しようとしているが、これは誤った介入点である。CNILの懸念が一般的な政策立案ではなく差別的な集団ターゲティングに特に向けられているとしても、分析は変わらない。集団への帰属に基づく決定による差別は、決定の根拠として使用された帰属属性が決定の目的に対して関連性を有するかどうかの問題である。適切な手段は決定段階で適用される関連性原則であって、統計モデルの作成に対する制限ではない。このアプローチは「集団的決定」という特別な概念も、データ保護法の個人中心的枠組みからの逸脱も必要としない。

結論:作成/適用の区別と決定的影響の還元不可能性

今後の道筋は、二つの段階の明確な分離を認識することを要求する。

作成段階(MLモデルの学習)は、その本質的性格において、統計処理の一形態である。個人データが入り、集約的知識(モデルパラメータ)が出る。データが使用されたデータ対象者に関する個別的決定は行われない。欧州評議会勧告(97) 18によって確立されGDPR前文162に反映された枠組みの下で、これはまさに統計目的に該当する類型の処理である。個人レベルのデータが、特定の個人ではなく集団に関する集約的パターンに変換されるからである。

適用段階(学習されたモデルを使用して個人に関する決定を行い又は裏付けること)は、データ保護上の懸念が真に生じる場所である。この段階において、第5条1項(c)に基づく関連性原則は、決定に使用されるデータと推論がそれらの決定の目的に対して十分かつ関連性を有することを要求する。不公正な、差別的な、又は不均衡な結果を防止するのはこのメカニズムであって、モデルがどのように作成されたかに対する制限ではない。

「一般的」決定であっても最終的には個人に影響を及ぼすと反論されうるであろう。新しい保険料率表は、一般的な形式であっても、各契約者が支払う額を決定する、と。これは事実であるが、一般的決定と個別的決定の区別を損なうものではない。上述のとおり、この区別は個人が影響を受けるかどうかではなく、統計処理にデータを提供したこととそれを根拠として個別に決定の対象とされることとの間に直接的関連が存在するかどうかに関わるものであった。統計分析から導出された一般的保険料率表は、客観的に定義されたリスクカテゴリーに基づいてすべての契約者に影響を及ぼすのであって、統計データセットへの個人的参加に基づいてではない。そして、自らの分類に異議を唱える個人は、関連性原則に基づく主張(使用されたリスクカテゴリーが決定の目的に対して十分でなく又は関連性がないという主張)を有するのであって、統計分析それ自体が不適法であるという主張を有するのではない。

まさにこれが、関連性原則が正しく理解された場合に適切な規制手段である理由である。関連性原則は、集約的知識と個別的適用が交わる地点で機能する。すなわち、特定の個人に関する決定に到達するために使用された基準とデータが、その決定の目的との関係において十分で、関連性があり、かつ過度でないかを問う。AIシステムが自動化された予測を行う場合にも、人間の意思決定者が統計表に依拠する場合にも、等しく対処できる。この原則が規律するのは決定であって、基礎となる知識が生成された方法ではないからである。

CNILの解釈は、作成段階と適用段階を混同している。モデルの作成を統計処理として認めることを拒否することによって、作成段階に手続的負担を課す一方で、適用段階における追加的保護を何ら提供していない。同時に、関連性原則を看過することによって、データ対象者に対する真の脅威が生じる適用段階を、それにふさわしい規制上の注意なしに放置している。

欧州委員会のDigital Omnibus提案は、AIとGDPRに対するその広範なアプローチゆえに議論を呼んでいる。しかし、それが対処しようとしている根底的な課題は現実のものである。すなわち、CNILのような当局による解釈の下では、既存の枠組みはAIシステムの作成と適用を適切に区別できていない。GDPRの正しい読み、すなわち統計目的の枠組み及び関連性原則の歴史的起源を真剣に受け止める読みは、作成段階における正当な統計処理を可能にし、かつ適用段階における個人の実効的保護を確保するために必要な道具をすでに提供している。必要なのは新たな立法ではなく、データ保護法の創始以来その一部であった原則の正しい解釈である。


参考文献:

[1] CNIL, “Les fiches pratiques IA : Fiche 4–2: IA : Assurer que le traitement est licite — En cas de réutilisation des données, effectuer les tests et vérifications nécessaires »(2024年4月8日)。フランス語版及び英語版で利用可能。

[2] CNIL, « Bac à sable données personnelles et IA — Recommandations »(2025年3月)。入手先:https://www.cnil.fr/sites/cnil/files/2025–04/bac_a_sable_recommandations.pdf

[3] Council of Europe, Recommendation No. R (97) 18 concerning the protection of personal data collected and processed for statistical purposes, and Explanatory Memorandum(1997年9月30日)。

[4] Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of individuals with regard to the processing of personal data and on the free movement of such data, Recital 29.

[5] Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), Recital 162, Article 5(1)(b), Article 5(1)(c), Article 89.

[6] European Commission, Proposal for a Regulation of the European Parliament and of the Council on the protection of individuals with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), COM(2012) 11 final(2012年1月25日)。

[7] Council of the European Union, Proposal for a Regulation — General approach, ST 14319/15(2015年11月20日)。

[8] Council of the European Union, Proposal for a Regulation — Analysis of the final compromise text, ST 15039/15(2015年12月15日)。

[9] H. Takagi, “Digital Omnibus, Scope and Relevance: Are We Fighting the Wrong Battle?” (2025). 入手先:https://takagi-hiromitsu.jp/diary/20251206.html


*1  この続きの部分に、「個人情報保護委員会事務局『仮名加工情報・匿名加工情報 信頼ある個人情報の利活用に向けて——制度編〔第2版〕』(2022)では、「特定の属性のみにより正当な理由なく違法な差別的取扱いを行うために用いることを企図して、当該差別的取扱いを補助するためのAIシステムを開発するために、機械学習用データセットとして個人情報である仮名加工情報を利用する場合」が不適正利用に該当する例として示されており(37頁)」との記載がある(実際には38頁にある)。これは見落としていた。これはマズい。「差別的取扱い」に言及する類似の記載はガイドライン通則編の「3-2 不適正利用の禁止(法第19条関係)」に「採用選考を通じて個人情報を取得した事業者が、性別、国籍等の特定の属性のみにより、正当な理由なく本人に対する違法な差別的取扱いを行うために、個人情報を利用する場合」との記載があり、この事務局レポートもそこを引用している(37頁)が、そちらは「当て嵌め時に用いる個人データ」の方なので正しい(データ品質原則の関連性要件が法定されていない現行日本法においてそれ相当の規律を19条で読み込み得ることが記載されているものと理解できる)のに対し、事務局レポートがそれに付け加えて書いたこの記載は、「機械学習用データセットとして」と書かれており、これは間違った方向性だ。直さねばならない。そもそも、AIシステム開発の機械学習用データセットの話は、仮名加工情報に限らず通常の個人データでも同じことであるのに、なぜこんな所に、しれっとパブコメにもかけずに書いているのか。しかも、個人情報である仮名加工情報だけが対象になって個人情報でない仮名加工情報がその対象にならないことに疑問を抱かないのか。どちらであっても学習の入力として使うことがもたらす結果は何ら違わないのに。

*2  「黒田(佑):3点だけ、問題提起をさせていただければと思います。まず1つ目は、そもそも 「統計情報」とは何だろうかということです。」から始まる指摘は、「例えば、複数の個人に関して何らかの事項を集計した表があるとして、その中に「1」という数字のセルがある。この「1」は一人の人間と直接に紐づいているから、統計情報ではないのでしょうか。仮に、「1」は統計情報ではないとすれば「2」のセルは、AさんとBさんの情報の合算なのだから、それは対応関係が排斥されているというふうに本当に言えるのでしょうか。こうした問題があります。」と言うが、それは古くから公的統計の分野で確立している統計開示制御(Statistical Disclosure Control、SDC)の問題で、「1」のセルが何の数なのかを示す列の項目名がその個人の属性を指すことになるからこそ問題となるものである。「1」という情報があると常に問題となるわけではない。情報公開法の1号不開示の運用がこれに対処していることについて、拙論「個人情報保護から個人データ保護へ(4)」(情報法制研究7号)89頁参照。「2」ならいいのかの問題も、SDCの問題で、日本では個情法の平成27年改正時に「匿名化」の基準として再発見され、現在の匿名加工情報の加工基準となり、EUでは同じ時期に、GDPRの「anonymous information」として再確認(データ保護法にSDCを持ち込むことは1970年代の時点で既にBDSG解説に見られる)された。黒田弁護士はこれに続けて、「さらに、今回の個情委の文書では「統計情報等」という言葉を使用していて、その「等」の中に、AIの学習を含めてきている。この統計とAIのアナロジーが本当に成り立つのだろうかという問題点がある気がします。」と述べている。その理由は説明されていない。続く段落で、「ついで、2つ目として、現在の日本の個情法の解釈では、そもそも統計作成は利用目的としての特定すら必要がない行為です。つまり、出来上がった統計だけではなくて、その統計を作成するプロセスそのものが、個情法の利用目的の規制の対象から外れています。ところが、例えば(略)、実際は、試行錯誤を含む、種々の分析、検討を行った結果として、最後出来上がった成果物が統計であるということは多々ある話です。その時に、その検討とか分析のプロセスが、全部、目的規制の対象から外れかねないということで本当にいいのだろうかという点が気になっています。」と述べている。それも、平成27年改正後に匿名加工情報の作成段階について同様のことが言われていて、再識別禁止に抵触するのではないかとの現場からの声が届き、Q15-30「匿名加工情報や加工に関する方法の安全性の検証のために元となる個人情報と匿名加工情報を照合させることはできますか。」において、「適切に行われる場合があれば識別禁止義務に違反しないものとなり得る」と回答されている。この回答は玉虫色だが、本来は決定利用の禁止を規定すべきところを、再識別を禁止したため、検証の作業が抵触しかねないものになっているわけだが、法目的の観点から言って、匿名加工情報が作成されていくその過程を問題にする意味はない。データを処理すること自体が個人の権利利益を害するわけではないのである。(ちなみに、その点、EUは、GDPRにおいて特別カテゴリの個人データをホワイトリスト方式で箸の上げ下げまで規定しているため、AIモデルのバイアス検証のために特別カテゴリに属するデータを使えなくなってしまい、AI Actで特例を追加するという回り道をしているが、本来は特別カテゴリ方式は無用で、データ品質原則の関連性要件で公平性の問題に対処するべきである。)そして、続く段落は、「3点目が一番、皆さまのご関心と関連するところだと思うのですが、統計情報の作成について、規制を緩和する根拠として、個人の権利利益に影響を与えないということが挙げられていますが、統計を作る行為は、本当に個人の権利利益に対して影響を与えないのかという問題を考える必要があります。例えば、」という話が始まる。そこでは、「統計作成の過程でモニタリングされ、情報の収集が行われることそのものが萎縮効果をもたらすようなケースというのが想定できます。非常にマニアックですが、デンマークの割礼データベースに関する論文では要するに、割礼数をカウントすること自体が、一定の宗教的な行為に対する萎縮効果をもたらすのではないかということが指摘されています。つまり統計を作っていることに間違いないけれども、統計を作ることそのものが、個人の行動の変容をもたらすことをどう評価するのかということです。」とあるが、物議を醸す統計の公表というものは色々あるだろうが、自由な表現の一つであり、規制対象とすることではなかろう。仮にそれを作成段階でデータ保護法の規律で規制するにしても、調査に同意して参加する人がそこそこの数得られれば結果に違いはなく、一部の人が抵抗して参加を拒否しても意図したことは実現されない。なお、「モニタリング」それ自体については取得の適正性として20条1項(OECD第1原則相当)がカバーしている別の問題である点に注意。そして、「さらに、統計作成の結果として、一般的な知識が生成されたとします。ところが、その一般的な知識の利用によって、個々人の権利利益が影響を受けるというケースは当然存在します。」として、米国のCommon Ruleでの倫理審査の話が続き、「日本の場合、作成された統計の結果として得られた知識が社会に負の影響を与えることを、どこで統制するのでしょうか。それは統計を作る前で統制をする話なのか、つまり個情法の中で統制をする話なのか、それとも個情法ではない別のところで統制をする話であって、例えば、それが差別をもたらすのであれば、差別禁止法みたいな問題として考える。個情法がそこまで考える話ではないというふうに、判断をするのか。」と疑問を呈してこの話が終わっているが、それこそが、データ保護法の1970年代からの発明であるところのデータ品質原則における関連性要件(OECD第2原則前段)で解決するものであって、「個情法の中で統制をする」べき話であるのに、「個情法の中で統制」が「統計を作る前で統制をする話」に限定されてしまっている。データ保護法は「決定」利用の統制なんだということを、私はあちこちに書き続けてもう4年になるし、今回の3年ごと見直しで個情委へ提出した意見書にもそのことが書いてあるのだが、座談会の参加者はみんな読んでいないのだろうか。読んだけどわからないのであれば尋ねてくれればいいのに、そういう様子もない。


2026年01月31日

「The Great Scrape」全自動論文批評からのほぼほぼ自動解説

前回の全自動生成(やや語弊があるが)した論文批評(28日の日記)をソースにして、NotebookLMで音声解説とスライドを生成してYouTube動画にした。

The Great Scrape: A Clash of Legal Philosophies

The Great Scrape:AIとプライバシーの未来2026年の視点 —— Solove & Hartzog vs. 高木浩光

ソース(前回)のソースは以下。

今回の作り方はこう。

まず、前回の日記をソースにしたNotebookLMで「音声解説」(Audio Overview)を英語で生成したら一発で良いものが出たので、その音声を新たにNotebookLMに読み込ませ、それをソースにして「スライド資料」(Slide Deck)を「ソースの資料はNotebookLMで生成した音声解説です。この音声解説に沿って表示するのに相応しいスライドを生成してください。」のプロンプトで生成した。これで概ね期待する順番どおりの論点スライドが出た。

このスライドPDFをClaudeでPowerPointファイルに変換し、PowerPointの「スライドショーの記録」機能を動かしながら先ほどの音声を再生させる。このとき再生する音声をPowerPointのマイク入力に付け替える。音声のタイミングに合わせて手動でページをめくり(ここだけが人力)、終了したらPowerPointで動画に書き出して完成。

日本語版は、なかなか良い音声解説が生成されなかったので、出来の良かった先ほどの英語版の音声解説をソースにして、「ソースの資料はNotebookLMで生成した英語版の音声解説です。できるだけこれと同じ内容で日本語版の音声解説を生成してください。」とのプロンプトで生成してみたところ、意外なことにちゃんと期待どおりに生成された。元の英語版音声解説のノリを維持しながら日本的な会話に調整されている。すごい。これに、英語版の音声解説をソースにして先ほどと同じプロンプトで日本語のスライドを生成し、同様にPowerPointでくっつけて完成した。*1

NotebookLMの「動画解説」(Video Overview)機能がこういうのを生成してくれればよいのだが、今のところは残念なクオリティ。いずれ直接このような生成ができるようになるのだろう。日本向けには、ゆっくり解説とか、ずんだもん解説の生成が待たれる。

*1  英語版はほとんど直したいところのないものになったが、日本語版はところどころおかしい。おかしいところのほとんどは見てわかるが、一箇所だけ、「同意が必須」と出てしまったところは、誤解を招くので、PowerPoint上で「規制が必要」に強引に上書きしておいた。


追記

最近のタイトル

2026年03月17日

2026年02月11日

2026年01月31日

2026年01月28日

2026年01月12日

2025年12月30日

2025年12月27日

2025年12月21日

2025年12月16日

2025年12月06日

2025年11月20日

2025年11月15日

2025年10月25日

2025年06月29日

2025年06月26日

2025年05月18日

2025年04月19日

2025年04月06日

2025年04月05日

2025年03月30日

2025年03月28日

2025年03月06日

2025年03月04日

2025年03月01日

2025年02月11日

2025年02月08日

2025年02月01日

2025年01月26日

2025年01月03日

2024年12月28日

2024年12月22日

2024年12月07日

2024年12月02日

2024年11月24日

2024年11月11日

2024年07月28日

2024年07月27日

2024年07月07日

2024年04月07日

2024年04月01日

2024年03月23日

2024年03月19日

2024年03月16日

2024年03月13日

2024年03月11日

2023年03月27日

2022年12月30日

2022年12月25日

2022年06月09日

2022年04月01日

2022年01月19日

2021年12月26日

2021年10月06日

2021年08月23日

2021年07月12日

2020年09月14日

2020年08月01日

2019年10月05日

2019年08月03日

2019年07月08日

2019年06月25日

2019年06月09日

2019年05月19日

2019年05月12日

2019年03月19日

2019年03月16日

2019年03月09日

2019年03月07日

2019年02月19日

2019年02月11日

2018年12月26日

2018年10月31日

2018年06月17日

2018年06月10日

2018年05月19日

2018年05月04日

2018年03月07日

2017年12月29日

2017年10月29日

2017年10月22日

2017年07月22日

2017年06月04日

2017年05月13日

2017年05月05日

2017年04月08日

2017年03月10日

2017年03月05日

2017年02月18日

2017年01月08日

2017年01月04日

2016年12月30日

2016年12月04日

2016年11月29日

2016年11月23日

2016年11月05日

2016年10月25日

2016年10月10日

2016年08月23日

2016年07月23日

2016年07月16日

2016年07月02日

2016年06月12日

2016年06月03日

2016年04月23日

2016年04月06日

2016年03月27日

2016年03月14日

2016年03月06日

2016年02月24日

2016年02月20日

2016年02月11日

2016年02月05日

2016年01月31日

2015年12月12日

2015年12月06日

2015年11月23日

2015年11月21日

2015年11月07日

2015年10月20日

2015年07月02日

2015年06月14日

2015年03月15日

2015年03月10日

2015年03月08日

2015年01月05日

2014年12月27日

2014年11月12日

2014年09月07日

2014年07月18日

2014年04月23日

2014年04月22日

2000|01|
2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|05|06|07|08|09|10|11|12|
2012|02|03|04|05|06|07|08|09|
2013|01|02|03|04|05|06|07|
2014|01|04|07|09|11|12|
2015|01|03|06|07|10|11|12|
2016|01|02|03|04|06|07|08|10|11|12|
2017|01|02|03|04|05|06|07|10|12|
2018|03|05|06|10|12|
2019|02|03|05|06|07|08|10|
2020|08|09|
2021|07|08|10|12|
2022|01|04|06|12|
2023|03|
2024|03|04|07|11|12|
2025|01|02|03|04|05|06|10|11|12|
2026|01|02|03|
追記