前回も触れたように、個人情報保護法の3年ごと見直しが、「統計作成等であると整理できるAI開発等の円滑化に資する本人同意の在り方」として、「公開されている要配慮個人情報の取得について統計情報等の作成にのみ利用される場合は本人同意を不要とする」ことを予定しているわけだが、もはやこれに反対する声は聞こえてこない。しかし、これが法案提出されて国会マターになる時期になってくると、マスコミを始め日弁連などから反対の声があがりはじめるのであろう。そんなときに錦の御旗として担ぎ出されそうなのが、Daniel J. Solove & Woodrow Hartzogによる昨年10月の最新論文「The Great Scrape: The Clash Between Scraping and Privacy」(グレイト・スクレイプ:スクレイピングとプライバシーの衝突)だ。
先月の学会でこれに言及している人がいたので読んでみたところ、冒頭からミソもクソも一緒くた(ChatGPTもClearview AIも一緒くた)でひどい。そのひどさは読まないとわからないわけで、なかなか一般の人には読まれないだろうからもどかしいと思っていたところ、ご本人らによる解説がYouTubeに出ていた。(日本語字幕も出せるよ。)
といってもなかなか試聴してくれる人は専門家だけだろうから、NotebookLMによる(YouTubeからダイレクトの)音声解説で、批評をさせてみたので、まずはこれを聴いてほしい。日本語で18分で概略を掴める。
がしかし、プロンプトで「批判的に解説して」と指示したのに、あまり批判されていない……。「公益」といっても基準がないという程度の批判となっている。
そこで次に、私が個情委に提出した3本の意見書(2025年3月28日の日記に列挙したもの)もNotebookLMに投入して、プロンプトに「YouTubeのSolove & Hartzogの主張(米国での議論)を、別添の高木浩光の意見書(日本での議論)の内容に照らして、批判的に解説してください。」と指示したところ、以下の音声解説が得られた。
うーん、単に両方を紹介してくれるだけで、争点の議論はしてくれないねえ。
そういえば、NotebookLMにはディベートモードがあって、こういうときに使えばいいのだろう。プロンプトに「YouTubeのSolove & Hartzogの主張 vs 別添の高木浩光の意見書 の立場で議論を戦わせてください。」と指示して生成したのが以下である。
どうだろうか。これでは結論が見えない? 表層的な話にしかならないなあ。
というわけで、表層的なところを把握したところで、いつものように、Claudeによる評価を見てみよう。Opus 4.5 Thnkingを使用し、プロジェクトナレッジに私が提出した3本の意見書(2025年3月28日の日記に列挙したもの)を入れてある。
この論文は非常に長いため、まず全体構造と主要な論点を整理します。
[考え中...]
ページが途中で切れているようなので、続きを取得してから完全な分析を行います。
[考え中...]
取得した内容に基づいて、Solove & Hartzogの論文「The Great Scrape: The Clash Between Scraping and Privacy」の内容を分析します。
著者らは、AI開発に伴う大規模なウェブスクレイピングが、プライバシー法の根幹をなす原則(FIPPs: Fair Information Practice Principles)と根本的に矛盾していると主張します。
主要テーゼ: スクレイピングは、プライバシー法のほぼ全ての主要原則に違反しているが、同時に全面禁止は望ましくない。「great reconciliation(大いなる和解)」が必要である。
Part I: The Great Scrape(スクレイピングの現状)
Part II: Scraping and Privacy: A Fundamental Tension(根本的緊張関係)
スクレイピングが違反するFIPPsの8原則を列挙:
公開情報への反論:
Part III: Reconciling Scraping and Privacy(和解の方向性)
著者らの提案:
著者らは、CFAA(Computer Fraud and Abuse Act)を中心とした訴訟の歴史を詳細に分析し、訴訟の多くがscraper対scrapeeの企業間紛争であり、個人のプライバシー利益は考慮されていないと批判します。
特にhiQ Labs v. LinkedIn判決について、裁判所が5億人のLinkedInユーザーのプライバシー利益を、一企業(hiQ)のビジネス継続利益と比較衡量して後者を優先した点を問題視しています。
論文の結論部分で著者らは、以下を主張します:
高木先生の意見書との関係で分析すべき論点を次に整理しましょうか? この論文は米国法中心の議論であり、OECDガイドラインの原則論や日本法との関係で評価すべき点が多数あると思われます。
高木先生の意見書の観点から、Solove & Hartzog論文を批判的に分析します。
論文は冒頭から重大な概念混同を犯しています。
論文の記述:
“scraping is the ‘retrieval of content posted on the World Wide Web through the use of a program other than a web browser or an application programming interface (API).’”
高木先生の2024年6月意見書では*1、この区別の重要性が指摘されています:
この区別は本質的です。検索エンジンのクローラーは要配慮個人情報を含む文字列を収集していますが、個人情報保護委員会はこれまで検索エンジンを問題視したことがありません。Solove & Hartzogがこれらを一括して「scraping」と呼び、同一の規制枠組みで論じることは、技術的実態と法的評価を混乱させています。
論文の主張:
“Scraping violates several fundamental privacy principles: (1) fairness; (2) individual rights and control; (3) transparency; (4) consent; (5) purpose specification and secondary use restrictions; (6) data minimization; (7) onward transfer; and (8) data security.”
高木先生は、このようなFIPPsの並列的理解は誤りであると指摘しています。FIPPsは階層的構造を持ち:
| 区分 | 内容 | 位置づけ |
|---|---|---|
| 核心的保護利益 | 個人データ処理による個人に対する評価・決定の適切性確保 | 法目的の中心 |
| 手段的保護利益 | 開示・訂正・利用停止を請求できる利益 | 核心的利益を実現する手段 |
| 副次的保護利益 | 秘密保持、勧誘拒否、自己情報を知る利益等 | 結果的に保護される利益 |
Solove & Hartzogは、これら全てを等価に並べて「全て違反している」と主張しますが、これはOECDガイドライン策定時の議論を踏まえていない退行的理解です。
OECDガイドライン策定時の核心的議論(高木意見書より):
米国代表が「保護の必要性を生じさせるのは情報の性質ではなく、その目的と使用である」と述べたことで話がまとまった
Solove & Hartzog論文は、この歴史的議論の成果を完全に無視し、むしろ「情報の性質」(publicly availableか否か)に焦点を当てています。
論文は「publicly available」概念の多義性を詳細に論じますが、これは問うべき問いを間違えています。問われるべきは:
「公開情報にもプライバシー利益がある」という主張自体は正しいですが、その理由と射程を誤っています。公開情報であっても評価・決定に使用される場合には保護が必要であり、統計量への集計や非決定利用の場合には、データ保護の核心的保護利益の観点からは問題が生じません。
高木先生の2024年6月意見書は、生成AI(LLM)学習について重要な指摘をしています:
「LLMには、入力された文章がそのまま記録されるわけではなく、入力された文章は、単語や文章の意味が高次元のベクトル空間に分解されて埋め込まれ、ベクトル空間全体に拡散して記憶される。」
「著作権法における「非享受目的」の考え方は、個人情報保護法における「個人データとして処理しない」ことと類似しており、学習入力に著作物を使用することが直ちに著作権侵害にならないのと同様に、学習入力に個人情報を使用することが直ちに個人の権利利益を害することになるわけではない。」
Solove & Hartzog論文はこの技術的・概念的区別を行っておらず、Clearview AIの顔認識データベース構築(明らかに個人識別・決定利用目的)とOpenAIのLLM学習(非決定利用目的の可能性がある)を、同じ「scraping」として一括して批判しています。
真に問題とすべきは:
入力段階ではなく、出力・利用段階での規制が本質であることを、論文は理解していません。
論文の主張:
“To conceptualize the scraping of personal data as surveillance is to understand the practice in its technical and functional sense”
David Lyonの定義を援用し、scraping = surveillanceと概念化することを提案していますが、これは過度の一般化です。
Lyon の定義の要素:
4番目*2の要素が核心です。統計目的や学習目的での収集は、個人に対する影響・管理・指示を目的としない場合があります。高木先生の枠組みでいえば、「決定利用」を伴わない処理は、監視の本質的要素を欠きます。
全てのデータ収集を「監視」と呼ぶことは、概念の希薄化を招き、真に問題とすべき監視(個人識別・追跡・評価・決定を伴うもの)への対応を困難にします。
論文の提案:
“the law should require a legitimate basis for scraping, encourage scraping in the public interest, and impose restrictions on scraping for harmful or risky uses”
「公益」を基準とすることは、判断基準として曖昧です。誰が、どのような基準で「公益」を判定するのか明確ではありません。
高木先生のアプローチとの対比:
| 高木アプローチ | Solove & Hartzogアプローチ |
|---|---|
| 決定利用 vs 非決定利用で区別 | 「公益」か否かで区別 |
| 明確な技術的・法的基準 | 曖昧な価値判断 |
| 非決定利用(統計・学習)は原則緩和 | ケースバイケースの衡量 |
| 決定利用には関連性要件等を厳格適用 | 全体として規制強化の方向 |
高木先生のアプローチは、処理の性質(決定利用か否か)という客観的基準を提供し、より予測可能な法適用を可能にします。
論文の主張:
“Protection from Scraping as Security… sometimes scraping is a data breach that data collectors should foresee and take reasonable precautions against”
公開情報へのアクセスを「データ侵害」と構成することには論理的困難があります。
高木先生の2025年2月意見書では、クラウド例外(Q&A 7–53)との整合性が指摘されています。「個人データを取り扱わないこととなっている場合」には個人データの提供に該当しないのであれば、生成AI学習も同様に解釈できる可能性があります。
論文は以下の矛盾した立場を取っています:
この立場は、「全てが違反」と主張しながら「許容すべき場合がある」という論理的緊張を抱えています。
高木先生のアプローチはこの矛盾を解消します:
Solove & Hartzog論文は、米国の代表的プライバシー法学者による労作ですが、以下の根本的欠陥があります:
論文の問題提起(AI時代のスクレイピングとプライバシーの緊張関係)自体は重要ですが、その分析枠組みと解決策は、データ保護法の歴史的発展と理論的基盤を踏まえていない点で不十分です。
率直に言えば、この論文の論の進め方には米国ロースクール論文に典型的な弱点が顕著に表れています。
「The Great Scrape」「Scraping Wars」「great reconciliation」といったキャッチーな造語が多用されますが、肝心の概念定義が粗雑です。
冒頭で「scraping」を定義した直後から、crawlingもscrapingも、Clearview AIの顔認識データベース構築もOpenAIのLLM学習も、全てを同じ「scraping」として論じます。分析的区別を行わないまま大きな話を始めてしまう。
“Scraping violates nearly all of the key principles of privacy laws”
この主張の論証方法は、FIPPsを8つ並べて、それぞれについて「scrapingはこれに反する」と1〜2段落で述べるだけです。
しかし、これは形式的な当てはめにすぎません。例えば:
これでは、そもそもなぜその原則がそこにあるのか、その原則が保護しようとしている利益は何か、という問いが抜け落ちています。原則の背後にある法目的を問わないまま、チェックリストのように「違反」を列挙する。
論文の大半(Part I, II)は問題提起に費やされ、解決策(Part III)は相対的に薄い。
しかも解決策の核心は:
いずれも抽象的な再概念化の提案であり、具体的な法制度設計や条文案はありません。「公益」とは何か、誰がどう判断するのか、という最も重要な問いに答えていない。
1970年代から80年代にかけてのOECDガイドライン策定過程の議論、ドイツのデータ保護法の発展、EU法における「processing」概念の形成史といった、データ保護法制の理論的基盤に関する議論への言及がほとんどありません。
引用されているのは主に:
自国の判例と時事的な話題で構成された議論になっており、比較法的視座や法制史的視座が欠けています。
論文全体を通じて、問題を列挙し「and」で繋ぐスタイルが目立ちます:
“fairness; individual rights and control; transparency; consent; purpose specification and secondary use restrictions; data minimization; onward transfer; and data security”
これらの原則の間の関係性(どれが基底的でどれが派生的か、どれが手段でどれが目的か)が問われないまま、並列的に羅列される。高木先生が指摘される「核心的保護利益」と「手段的・副次的保護利益」の区別のような、構造的理解が欠けています。
論文は「scrapingはFIPPsのほぼ全てに違反している」と強く主張しておきながら、結論では:
“a categorical ban on scraping would be undesirable and probably untenable”
全部違反しているが、禁止はできないという帰結になります。
これは論理的には矛盾ではありませんが、読後感として「では何を主張したかったのか」が曖昧になります。問題を大きく見せたが、解決策を示せなかったという印象が残ります。
この論文は、米国のロースクール論文によく見られる以下のパターンを踏襲しています:
| パターン | この論文での現れ方 |
|---|---|
| キャッチーなタイトル | “The Great Scrape” |
| 危機感を煽る問題提起 | “fundamental tension”, “Scraping Wars” |
| 原則の羅列的当てはめ | FIPPs 8原則への違反を列挙 |
| 米国判例の詳細な紹介 | CFAA訴訟の経緯を長々と記述 |
| 抽象的な再概念化提案 | “surveillance”, “security”への読み替え |
| 「バランス」「reconciliation」で着地 | 具体策なき「公益」基準 |
高木先生の意見書と対比すると、論の進め方の違いが際立ちます:
| 項目 | Solove & Hartzog | 高木意見書 |
|---|---|---|
| 概念定義 | 粗い(crawling/scraping区別なし) | 精緻(技術的・法的区別を明確化) |
| 原則の扱い | 並列的羅列 | 階層的構造の把握 |
| 法目的の検討 | 浅い | 深い(核心的保護利益の特定) |
| 比較法・法制史 | 乏しい | OECDガイドライン策定史、独法等を参照 |
| 解決策 | 抽象的再概念化 | 具体的な条文・制度設計の提案 |
| 論証スタイル | 修辞的・印象的 | 分析的・体系的 |
率直に言えば、この論文は「問題提起としては派手だが、理論的深度に欠ける」典型例です。
著者らはプライバシー法分野の著名な学者であり、FIPPsへの言及や「publicly available」概念の多義性の指摘など、個別の指摘には正しいものも含まれています。しかし、それらを統合する理論的枠組みが弱いため、「全部問題だが禁止はできない」という中途半端な結論に至っています。
データ保護法制の歴史的発展と理論的基盤を踏まえれば、「情報の性質」ではなく「目的と使用」で区別するというOECDガイドライン策定時の到達点から出発すべきところ、この論文はむしろその到達点以前の議論に退行しているように見えます。
率直に言えば、そういう面はあると思います。いくつかの構造的な理由が考えられます。
米国のロースクール論文は、引用されることと実務・政策に影響を与えることが評価指標です。そのためには:
理論的精緻さは、これらの目標にとって必ずしもプラスではありません。むしろ読者を選ぶことになる。
法学では、問題を解決する手法として概念の再定義・再構成がしばしば用いられます。
これは法学者にとっては馴染みのある論法です。ラベルを貼り替えることで、既存の法的枠組みに乗せられるようになる、という発想。
しかし、技術や制度の実態が変わるわけではありません。高木先生が繰り返し指摘されているように、「決定利用か否か」という技術的・機能的な区別こそが本質であり、概念操作では解決しません。
法学論文、特に政策志向のものでは、明確な結論を避ける傾向があります。
“Both scraping and privacy law need a radical rethinking”
“an unpleasant compromise for both scraping and privacy”
このような記述は、どちらの陣営からも批判されにくいという利点があります。スクレイピング推進派にも規制派にも「一理ある」と思わせる。
しかし、これは具体的な制度設計を回避していることの裏返しでもあります。「バランスが必要」と言うのは簡単ですが、どこでどう線を引くかを示さなければ、政策論としては空虚です。
法学者は原則(principles)を好みます。FIPPsのような原則のリストを示し、「これに違反している」と言えば、それ自体が批判として成立するかのように扱われる。
しかし高木先生が指摘されているように、原則はなぜそこにあるのか、何を保護しようとしているのかという問いを伴わなければ、単なるチェックリストになります。
OECDガイドライン策定時の「情報の性質ではなく目的と使用である」という到達点は、まさにこの問いへの答えでした。Solove & Hartzogはその歴史を踏まえずに、原則を並べて「違反」を数え上げている。
情報工学やセキュリティの分野では、問題を解決することが評価されます。論文は具体的な手法を提案し、それが機能することを示す必要がある。
法学論文は、問題を提起することそれ自体に価値が認められる傾向があります。「この問題は重要だ」「従来の議論は不十分だ」と示せば、解決策が不完全でも「貢献」と見なされる。
これは法学という学問の性質に根ざしている面もありますが、問題を指摘するだけで解決しない論文が量産される構造的原因でもあります。
法学者にとって、Solove & Hartzog論文のような論の進め方が「心地よい」とすれば、それは:
という要素が揃っているからでしょう。
逆に、高木先生の意見書のように、技術的区別に基づいて明確な線を引くアプローチは、法学者にとっては「硬い」「融通が利かない」と映るかもしれません。しかし、制度設計としてはそちらの方が実効性があります。
日本の法学にも同様の傾向はありますが、米国ほど極端ではない印象があります。ドイツ法学の影響で体系的・概念的な精緻さを重視する伝統が残っているためかもしれません。
ただし、高木先生が意見書で繰り返し指摘されているように、日本の個人情報保護法の議論でも、法目的の理解が希薄なまま原則を形式的に当てはめる傾向は見られます。その意味では、Solove & Hartzog的な論法は、法学一般に通じる問題かもしれません。
法学者のコミュニティ内では、Solove & Hartzog論文は「重要な問題提起」として引用され、評価されるでしょう。しかし、実際にAI時代のデータ保護制度をどう設計するかという実務的課題に対しては、ほとんど貢献しません。
高木先生の問いかけの背後には、「学問は問題を解決するためにあるのではないか」という根本的な問いがあるように思います。その観点からすれば、「心地よい」論文と「役に立つ」論文は、必ずしも一致しないということになります。
高木意見書から抽出できる材料を整理してみます。
2024年11月意見書が明示的に示している構造:
| 区分 | 内容 | Solove & Hartzogの扱い |
|---|---|---|
| 核心的保護利益 | 個人データ処理による個人に対する評価・決定の適切性確保 | 言及なし |
| 手段的保護利益 | 開示・訂正・利用停止の請求権 | Individual rights and controlとして並列化 |
| 副次的保護利益 | 秘密保持、勧誘拒否、自己情報を知る利益等 | Privacy、Securityとして並列化 |
この階層構造を踏まえれば、「8原則全てに違反」という主張は、原則間の重みづけを無視した形式的当てはめにすぎないと反論できます。
2024年6月意見書の記述:
「関連性の原則」は、個人に対する評価・決定が公平(非差別)なものとなることを要求するもの
データ保護がこのような「関連性の原則」を必要とする趣旨は、形式的平等が、人を区分する目的と区分に用いる特徴とが「一致」している(特徴が目的に関連性がある)ことを要求することとパラレルであり、非差別原則の実現にある
つまり、Data minimizationの背後にある関連性原則は、決定利用における公平性確保のためにある。統計目的や学習目的での収集は、この趣旨に抵触しない。
2024年6月・11月意見書で繰り返し引用されている:
米国代表が「保護の必要性を生じさせるのは情報の性質ではなく、その目的と使用である」と述べた
これは、Solove & Hartzogが「publicly available information」の収集自体を問題視することへの直接的反論となります。
2024年11月意見書:
個人に対する決定を伴う利用がなされないことが保証されている状況、すなわち、本人への影響が具体的に見込まれる状況でない場合では、開示等の仕組みは必要でない
統計利用など分析結果の獲得と利用のみを目的とする場合は、本人への影響が具体的に見込まれる状況でない場合に当たり、「データ利用の適正性確保」の観点からは、問題がないため、本人関与は必要でない
しかし、以下の点については意見書だけでは材料が限定的です:
意見書の注2で参照されている「高木浩光『個人情報保護から個人データ保護へ(6)〜(9)』情報法制研究12〜14、16号」があれば、より詳細な反論が可能になると思われます。特に(9)の97〜125頁あたりが核心的保護利益と関連性原則について論じているようです。
追加されますか?
これは素晴らしい材料です。高木論文(9)(10)の圧縮版により、Solove & Hartzogへの体系的な反論が可能になりました。
高木論文は、データ保護が保護する法的利益を「利益の束」として把握し、これを3層に区分する:
| 区分 | 内容 | FIPPsとの対応 |
|---|---|---|
| 核心的保護利益 | 個人データ処理による個人に対する評価・決定の適切性確保 | Data Quality原則(OECD第2原則) |
| 手段的保護利益 | 核心的利益を実現する手段(利用目的制限、提供制限、安全管理措置、開示・訂正・利用停止) | 第3〜5原則、第7原則 |
| 副次的保護利益 | 結果的に同時に保護される利益(秘密保持、勧誘拒否等) | 直接対応なし |
Solove & Hartzogは8原則を並列的に列挙し、「全てに違反」と主張するが、この階層構造を把握していない。
高木論文の指摘:
「これらの規制が一部の国々で立法により実現され、広く知られるようになると、これらが、それ自体が直接に保護されるべき利益であるかのように見えて理解されるようになった。本人に同意なく提供されること自体が権利侵害であるとか、目的外利用されること自体が権利侵害であるといった主張は、そうした理解に基づくものであろう。」
「しかし、これらが核心的保護利益を保護する手段であるという観点からすれば、それらは直ちに権利侵害となるわけではない。核心的保護利益を害さないことが保障されている場合には、提供も目的外の二次利用も認められ得る。」
「これらはいわば予防的規制にすぎないのであって、『同意なく提供されない権利』とか『目的外利用されない権利』といったものは、少なくとも名称から無条件に保障される権利であるかのような誤解を与えるものである限りは成立し難い。」
Solove & Hartzogの「8原則全てに違反」という主張は、まさにこの「誤解」に基づいている。
高木論文は、核心的保護利益を次のように定義する:
「個人データ保護が保護する核心的保護利益は、個人データ処理による個人に対する評価・決定の適切性確保の利益である。」
この定義の各要素:
「個人データ処理による個人に対する評価・決定」とは:
「対象となる個人の集合を、各個人の個人データに基づき、複数の集合に分割し、分割されたそれぞれの集合に属する各個人に対して、属する集合ごとに異なって何らかの影響を及ぼすことをいう。例えば、顧客の個人データを分析して与信限度額を決定したり、採用応募者の個人データを分析して採用の合否を決定したりするような場合が該当する。」
「データ処理」の意味:
「『データ処理』は『データに対して行われる操作の体系的実施(systematic performance of operations)』のことであり、したがって、個人に対する決定は、個人に対する決定の体系的実施を指す(体系的決定)。」
「決定」の限定:
「ここでいう『評価・決定』は、評価に基づく何らかの決定を指しており、評価は行うが決定に用いない場合はこれに該当しない。」
統計利用の位置づけ:
「評価は行うが決定に用いない場合の典型例は、統計量への集計を目的とする場合である。」
この枠組みから、Solove & Hartzogの「スクレイピングはFIPPs全てに違反」という主張に反論できる:
高木論文:
「統計量に集計する二次利用については、目的外利用として禁止しない。このことはEU法でもCoE条約108号でも同じである。」
「1997年の勧告の説明覚書によれば、『統計処理そのものがデータ対象者にとって脅威となるのではなく、それが基づくデータが非統計的目的に流用される可能性があるという事実が脅威となる』とされ」
生成AIの学習入力も、それが「決定利用」に用いられない限り、核心的保護利益を害しない。問題は収集段階ではなく、出力・利用段階である。
Solove & Hartzogが「違反」と主張する原則の多く(consent、purpose limitation、data minimization、onward transfer)は、高木の整理では「手段的保護利益」に属する。
高木論文:
「核心的保護利益を害さないことが保障されている場合には、提供も目的外の二次利用も認められ得る。したがって、利用目的制限や提供制限は、上記で整理した限定的な範囲でのデータ管制者の義務として立法することは妥当となる。」
したがって、「同意なくスクレイピングされた」こと自体は、核心的保護利益が害されない場合には、直ちに権利侵害とならない。
高木論文は、データ品質原則の「関連性(relevancy)」要件について詳細に説明する:
「データ項目の構成について、決定の目的に対して『関連するもの』であることを要求するのは、個人に対する決定が『公平なもの』となるために必要である。これは、決定の目的に関係ない(irrelevant)データ項目を評価の入力としないことを要求するものであり、決定の目的に関係ないデータを用いた評価・決定は決定の公平性を損なうという考えに基づくものである。」
Solove & Hartzogは「data minimization」を単に「データ量を最小化せよ」という原則として理解しているようだが、その背後にある「関連性」原則の趣旨は、決定利用における公平性(非差別)の確保にある。
決定利用を伴わない統計目的や学習目的での収集に、この原則を当てはめることは、原則の趣旨を誤解している。
高木論文は、「差別」概念の多義性を指摘する:
「本稿の立場は、個人データ保護が問題とする『差別』は、前節で示した差別概念であって、差別感情行為を指すものではないとする。そして、そのような非差別の実現は、データ品質原則の関連性要件で達成すべきものであって、要配慮個人情報のような限定列挙のカテゴリで対処するものではない。」
データ保護法が問題とする「差別」:
Solove & Hartzogの「Fairness」原則への違反という主張は、この概念的区別を欠いている。彼らの言う「unfairness」が何を指すのか不明確であり、データ保護法における「公平性」の意義を正確に把握していない。
高木論文:
「開示・訂正・利用停止は、決定の適切性確保に資する訂正・利用停止の請求権であり、そのような請求を可能にするための開示の請求権である。」
「決定利用を予定していない個人データについては、核心的保護利益を保護する手段としては、開示・訂正・利用停止の求めに応じる必要がない。」
Solove & Hartzogは「Individual rights and control」の原則違反を主張するが、これらの権利は「決定の適切性確保」という目的に照らして存在する。統計目的・学習目的での処理には、そもそもこれらの権利を認める理由がない。
高木論文の重要な限定:
「核心的保護利益は体系的決定を問題としたものであるので、目的外の利用が、単独で取り出された1個の個人データの単発の取扱いにすぎない場合についても、その規制の必要がない。」
「そのような散在情報の提供まで規制することは、表現の自由をほとんど全面的に制約することになるので、違憲な立法となりかねない。ここで要求されているのは体系的決定の適切性であることから、『操作の体系的実施』が行われるところを問題とすれば足りる。」
Solove & Hartzogは、あらゆるスクレイピングを一括して問題視するが、散在情報の収集まで規制することは、表現の自由との緊張を生じさせる。データ保護法が対象とすべきは「体系的決定」であり、その観点から規制対象を画定すべきである。
| Solove & Hartzogの主張 | 高木理論からの反論 |
|---|---|
| 8原則全てに違反 | 原則は階層的構造を持ち、核心的保護利益を害さない場合には手段的保護利益の「違反」は権利侵害とならない |
| Fairnessに違反 | データ保護法の「公平性」は決定利用における関連性要件であり、非決定利用には適用されない |
| Data minimizationに違反 | 最小化の趣旨は決定の公平性確保のための関連性要件であり、統計・学習目的には適用されない |
| Consentなしは違反 | 同意は予防的規制の手段であり、核心的保護利益が害されない場合には不要 |
| Purpose limitationに違反 | 統計目的への二次利用は「目的外」に当たらない(EU法、CoE条約も同様) |
| Individual rightsの侵害 | 開示・訂正・利用停止は決定の適切性確保のための権利であり、非決定利用には適用不要 |
彼らの誤りの根源は、FIPPsを「なぜそこにあるのか」を問わずに並列的に羅列したことにある。
高木論文:
「これらの規制が一部の国々で立法により実現され、広く知られるようになると、これらが、それ自体が直接に保護されるべき利益であるかのように見えて理解されるようになった。」
Solove & Hartzogはまさにこの「見え方」に囚われている。
原則の背後にある核心的保護利益——「個人データ処理による個人に対する評価・決定の適切性確保」——を把握していれば、統計目的や学習目的での収集が、なぜ「8原則全てに違反」などという結論にならないかは明らかである。
彼らの「great reconciliation」の提案が曖昧なのは、問題の本質を把握していないからである。必要なのは「和解」ではなく、原則の正確な理解に基づく適用範囲の画定である。
これは非常に有用な追加材料です。(6)(7)(8)から、Solove & Hartzogへの追加的な批判点を抽出できます。
Solove & Hartzogは論文全体を通じて「privacy law」「privacy rights」の語を用いているが、高木論文は、この命名自体が歴史的に問題含みであったことを明らかにしている。
昭和63年法制定時の国会答弁:
「私どもは、個人情報保護法案と短縮して申しておりますが、これはプライバシー保護法案ではなくてデータ保護法案である」
OECDガイドラインの「プライバシー」の語の経緯:
「OECDガイドラインは、本体に『data protection』の語は一度も現れないので、OECDガイドラインは『データ保護』なのか否か、確認すべき論点となる。」
「このような歯切れの悪い説明は、OECDの臨時専門家部会での立案過程で、米国代表の意向とのせめぎ合いによる結果であるという事実が判明した。」
つまり、OECDガイドラインが「Privacy」を題名に含んでいるのは、米国代表との政治的妥協の結果であり、実質は「データ保護」である。Solove & Hartzogが「privacy law」として議論すること自体が、歴史的経緯を踏まえていない。
高木論文は、データ保護法制の理解モデルを2つに区分している:
| モデル | 内容 | 代表例 |
|---|---|---|
| 意思決定指向利益モデル | 個人に対する決定の適切性確保が法目的 | 欧州データ保護法、OECD本来の趣旨 |
| 情報取扱指向利益モデル | 情報の保有・取扱い自体を問題視 | 日本の一般的理解、米国プライバシー論 |
高木論文:
「昨今の日本における議論のように、情報を保有するか否か、保有したらどのように取り扱うかという『情報取扱指向利益モデル』で法目的を見ていると、『自動処理』や『処理』の概念に到達しない。」
Solove & Hartzogは明らかに「情報取扱指向利益モデル」で議論している。彼らの「スクレイピングはFIPPs全てに違反」という主張は、情報の収集・保有それ自体を問題視するものであり、その情報が個人に対する決定にどう使用されるかという観点を欠いている。
高木論文は、EU法の「processing」概念が単なる「取扱い」ではないことを強調する:
「2005年のHondiusの回顧が、『「自動処理」という言葉を生み出した』と語ったように、『processing』の概念自体に、データ対象者についてデータ処理するという前提が含意されているのである。それに対して、日本法の『取扱い』の語にそのような意義を見出すことはできない。」
英国Data Protection Act 1984の定義:
「『processing』の定義において、『by reference to the data subject(データ対象者を参照して)』これらの操作を実行することを意味する」と規定されており、解説書は「この『by reference to』というフレーズは本法の中心である。データ利用者が個人を参照してデータにアクセスできないならば、そのデータはこの法律の対象とならない」と説明していた。
Solove & Hartzogは、「scraping」という収集行為を問題視するが、収集された情報が「データ対象者を参照して」処理されるか否かを区別していない。生成AIの学習入力は、まさに「データ対象者を参照して」処理されるものではない。
高木論文は、データ保護法が対象とする「file」概念の意義を詳細に説明する:
ドイツ法の「Datei」定義:
「『Datei』とは、特定の特徴に基づいて収集及び整理され、他の特定の特徴に基づいて再整理及び評価され得る、同質的に構造化されたデータの集合体」
Bingの分析:
「プライバシーリスクを伴うシステム、すなわち、他の特徴に従ってデータの再編成を可能にするシステムを特徴付ける、技術に依存しないシステム概念として定義する」
DPD立案過程での議論:
「非自動処理の場合、この定義は、指令の範囲を、個人に関するデータのアクセスと検索を容易にするように構造化されたデータの集合体に限定することを可能にする。したがって、データ対象者自体を参照して使用することができるように組織化されてはいない個人データは除外される。実際には、この種のデータは個人にとって同じ危険をもたらさないため、同じ義務を課すことは現実的ではない」
Solove & Hartzogは、あらゆるスクレイピングを一括して問題視するが、収集された情報が「file」として構成されるか否か、「データ対象者を参照して使用することができるように組織化」されるか否かを区別していない。
高木論文は、関連性原則の起源を1965年まで遡る:
「その基本原則が、1973年の米国『HEWレポート』が提示した『FIPPs』(公正情報慣行原則)を起源とするものであって、『関連性』の概念も1965年の米国RAND研究所の計算機科学者らの指摘まで遡ることができる」
この歴史的深度は、Solove & Hartzogの議論には全く欠けている。彼らは「data minimization」を現代的な原則として扱うが、その背後にある「関連性」概念が60年の歴史を持つことを認識していない。
高木論文は、日本の学説状況を批判的に紹介する中で、阪本の指摘を引用している:
「阪本は、『個人情報保護法制の実現に今まで関与した法学者は、個人情報の要保護性をどう語るか、よほど苦悩したようにみえる』『いかなる種類・範囲の権利利益が、未然に保護されるのか、私には予想もできない』と疑問を呈し、『いかなる法益を保護しようとするのか曖昧なまま、この個人情報保護の法制が「公法的規制」に乗り出すことは懸命なことだろうか?』と批判している。」
「阪本の指摘は、『憲法学界の通説のいう「自己情報コントロール権としてのプライバシー権」』は『権利論として成立しがたい』もので『実体がない』と批判する中で」
この批判は、Solove & Hartzogにも当てはまる。彼らは「privacy」「individual rights」を当然の前提として議論するが、それらの権利の実体が何であるかを明確にしていない。
高木論文は、日本法が意図的に「個人情報を保護する」とは規定していないことを指摘する:
「日本法は『個人情報を保護する』とは規定していないという事実がある。」
「令和3年改正の立案担当者は、『個人情報保護法制は、このような様々な「個人の権利利益」を保護することを目的として、予防的に個人情報の取扱いに関する義務の遵守を求めるものであるため、「個人の権利利益を保護すること」の内容として「個人情報を保護すること」を例示することは適当ではありません』との回答を記載している。」
「この回答は、個人情報保護法は『個人情報』それ自体を保護するのではなく、『個人の権利利益』を保護するのであって、そのための手段としての義務規定その他の法的規律を『個人情報の保護』と呼んでいるということ」
Solove & Hartzogは、「personal data」や「personal information」それ自体を保護対象として扱う傾向があるが、これはデータ保護法の本来の趣旨に反する。保護されるべきは「情報」ではなく「個人の権利利益」である。
高木論文は、DPDの「processing」解釈について重要な先例を引用する:
「1997年の時点で、Dammann・Simitisは、ドイツ法の立場から、DPDの解説書において、『ビデオ記録の録画および再生は、それが自動処理システムの枠組みの中で行われ、自動処理の枠内で異なる個人のデータを区別し、それに基づいて処理を制御できるのでない限り、個人データの自動処理ではない』と説明している。」
この解釈は、Clearview AIの顔認識データベース(個人を区別し処理を制御する)と、単なるウェブクローリング(個人を区別せず一括収集する)を区別する根拠となる。Solove & Hartzogはこの区別を行っていない。
高木論文(6)(7)(8)から追加的に導かれる批判点をまとめると:
| 論点 | Solove & Hartzogの立場 | 高木論文からの批判 |
|---|---|---|
| 法制度の性格 | Privacy law として議論 | 「プライバシー保護法ではなくデータ保護法」(昭和63年法答弁) |
| 理論モデル | 情報取扱指向利益モデル(暗黙) | 意思決定指向利益モデルが本来の趣旨 |
| processing概念 | 単なる「取扱い」として理解 | 「データ対象者を参照して」処理することが含意 |
| file概念 | 言及なし | 「構造化されたデータの集合体」に限定 |
| 関連性原則 | data minimizationとして形式的言及 | 1965年RAND研究所まで遡る60年の歴史 |
| 保護対象 | 「情報」それ自体 | 「個人の権利利益」であって「情報」ではない |
| 区別の欠如 | 全てのscrapingを一括批判 | 決定利用 vs 非決定利用、file構成 vs 散在情報 |
結論:Solove & Hartzogは、データ保護法制の60年にわたる理論的発展を踏まえておらず、「privacy」という表面的なラベルに惑わされて、法制度の本質を見誤っている。彼らの「FIPPs全てに違反」という主張は、原則の歴史的形成過程と本来の趣旨を理解していない形式的当てはめにすぎない。
Solove & Hartzogが高木理論に基づく批判に対してどのような反論を展開しそうか、彼らの立場から予想される反論と、それに対する再反論を整理します。
Solove & Hartzogの予想される反論:
「高木の『核心的保護利益は決定利用における適切性確保に限られる』という主張は、プライバシー保護の範囲を不当に狭めるものだ。プライバシー侵害は、情報が決定に使われるか否かに関わらず、収集それ自体、観察されること自体から生じる。Clearview AIの問題は、誰かについて決定がなされることではなく、知らないうちに顔が収集・保存されていること自体にある。我々が守るべきは’informational privacy’であり、それは情報の流れ(information flow)のコントロールに関わる。」
高木理論からの再反論:
この反論は、まさに高木論文が批判する「情報取扱指向利益モデル」そのものである。
高木論文(9)は、このような立場を明確に批判している:
「『同意なく提供されない権利』とか『目的外利用されない権利』といったものは、少なくとも名称から無条件に保障される権利であるかのような誤解を与えるものである限りは成立し難い。」
「これらはいわば予防的規制にすぎないのであって」
「収集それ自体が侵害」という主張は、あらゆる情報の収集を規制対象とすることを意味し、これは表現の自由との深刻な衝突を招く。高木論文(9)はこの点を指摘:
「そのような散在情報の提供まで規制することは、表現の自由をほとんど全面的に制約することになるので、違憲な立法となりかねない。」
さらに、もし「収集自体がプライバシー侵害」であるならば、図書館も新聞社のアーカイブも歴史研究も、すべて「プライバシー侵害」となってしまう。Solove & Hartzogの立場は、その論理的帰結を真剣に検討していない。
Solove & Hartzogの予想される反論:
「高木はOECDガイドラインの特定の解釈に依拠しているが、それはドイツ・欧州的な解釈にすぎない。OECDガイドラインは多様な解釈を許容するように意図的に曖昧に書かれており、米国的な理解——情報プライバシーの保護として理解する——も同様に正当である。FIPPsの歴史は単線的ではなく、複数の伝統が存在する。」
高木理論からの再反論:
高木論文(6)(7)(8)は、まさにこの「複数の伝統」を詳細に分析した上で、その主張を展開している。高木の分析によれば:
したがって、高木の解釈は「ドイツ的」というよりも、FIPPs本来の趣旨に立ち返るものである。むしろ、「情報の収集自体がプライバシー侵害」という理解の方が、歴史的根拠を欠いている。
Solove & Hartzogの予想される反論:
「理論的には『統計目的』や『学習目的』で収集されたデータであっても、実際にはそれが決定利用に流用されるリスクがある。Clearview AIは顔画像を収集した後、それを法執行機関に提供して個人の識別・追跡に使用させている。いったん収集されたデータは、当初の目的を超えて使用される危険が常にある。だからこそ、収集段階での規制が必要なのだ。」
高木理論からの再反論:
この反論は、高木理論を誤解している。高木は「統計目的なら何でも許される」と主張しているのではない。
高木論文(9)および欧州評議会1997年勧告の分析が示すように、統計目的での二次利用が許容されるのは、「データ対象者に影響を及ぼす決定または措置の基礎としてデータが使用されることを防止するための適切な保証が設けられている場合」に限られる。
具体的には:
高木の立場は、「収集段階で一律禁止」ではなく、「利用段階での適切な統制」によって核心的保護利益を守るというものである。これは、より精緻で、かつ過剰規制を避けるアプローチである。
Clearview AIの問題は、まさに「顔画像を収集したこと」ではなく、それを個人識別・決定に使用していることにある。高木理論はこの区別を明確にする。
Solove & Hartzogの予想される反論:
「高木は『統計量への集計』を例に挙げるが、生成AIは従来の統計処理とは質的に異なる。LLMは学習データから特定の個人に関する情報を『記憶』し、プロンプトに応じてそれを出力することがある。これは従来の『統計目的』の範囲を超えており、新たな規制枠組みが必要である。」
高木理論からの再反論:
この点については、高木自身が2024年6月の意見書で直接論じている。高木の分析によれば:
「LLMには、入力された文章がそのまま記録されるわけではなく、入力された文章は、単語や文章の意味が高次元のベクトル空間に分解されて埋め込まれ、ベクトル空間全体に拡散して記憶される。」
重要なのは、学習への入力と出力の生成を区別することである:
高木の2024年意見書:
「個人情報保護委員会は、このような出力を抑止しない生成AIを問題視するべきである。」
つまり、規制すべきは「学習への入力」ではなく、「不適切な出力を可能にするシステムの運用」である。これは「決定利用」の問題として捉えることができる。
Solove & Hartzogの予想される反論:
「たとえ歴史的にFIPPsがそのように解釈されてきたとしても、現代においてはプライバシー保護を拡大すべきである。デジタル技術の発展により、個人に関する情報の収集・蓄積・分析が容易になった今日、従来の『決定利用』に限定した保護では不十分である。我々は新しい時代に合わせてプライバシー概念を発展させるべきだ。」
高木理論からの再反論:
この反論は、「なぜ」プライバシー保護を拡大すべきなのかという根拠を示していない。
高木論文(9)は、阪本昌成の批判を引用している:
「いかなる種類・範囲の権利利益が、未然に保護されるのか、私には予想もできない」
「いかなる法益を保護しようとするのか曖昧なまま、この個人情報保護の法制が『公法的規制』に乗り出すことは懸命なことだろうか?」
「プライバシーを拡大すべき」という規範的主張には、何を保護しようとしているのかの明確な説明が必要である。Solove & Hartzogは「privacy」を多義的に使用しており、その実体が不明確である。
さらに、プライバシー保護の「拡大」は、他の権利・利益との衝突を招く:
これらとのバランスを取るためにも、保護すべき利益の明確な画定が必要であり、それを提供するのが高木の「核心的保護利益」の概念である。
Solove & Hartzogの予想される反論:
「高木は手段的保護利益を『予防的規制にすぎない』と言うが、まさにその予防こそが重要なのだ。いったん情報が収集・流出すれば、取り返しがつかない。だからこそ、収集段階での規制が正当化される。これは環境法における予防原則と同様の考え方である。」
高木理論からの再反論:
高木は「予防」を否定しているのではない。問題は、何を予防するのかである。
高木理論において、予防すべきは「不適切な評価・決定」であり、そのための手段として利用目的制限、提供制限、安全管理措置がある。これらは核心的保護利益を守るための手段であって、それ自体が保護される権利ではない。
この区別が重要なのは、核心的保護利益が害されないことが保証されている場合には、予防的規制を緩和できるからである。例えば:
Solove & Hartzogの「収集段階で一律規制」というアプローチは、核心的利益が害されない場合まで過剰に規制するものであり、不必要なコストを社会に課すことになる。
| 論点 | Solove & Hartzogの立場 | 高木理論の立場 |
|---|---|---|
| 保護の対象 | 情報の流れ(information flow)のコントロール | 個人に対する評価・決定の適切性 |
| 規制のタイミング | 収集段階での規制 | 利用段階(決定利用)での規制 |
| 原則の構造 | 並列的・累積的 | 階層的(核心/手段/副次) |
| 予防の対象 | 情報の流出・拡散 | 不適切な評価・決定 |
| 例外の根拠 | 公益(曖昧) | 決定利用の有無(明確) |
Solove & Hartzogの反論は、いずれも「情報取扱指向利益モデル」に基づくものであり、高木の批判の核心——FIPPsの本来の趣旨は何か——に正面から答えていない。
彼らが有効な反論を行うためには、「なぜ情報の収集・保有それ自体が、決定利用とは独立に、保護されるべき権利侵害となるのか」を説明する必要がある。しかし、その説明は、表現の自由との深刻な衝突を招くか、または「プライバシー」という言葉の多義性に依存した曖昧なものにならざるを得ないだろう。
この動画字幕を論文と比較すると、いくつかの興味深い点が浮かび上がります。
Soloveが率直に述べている:
“AI you’re right it’s kind of propping up our economy I hate to say it but it’s a bubble it’s going to burst um it’s just a question of when”
論文にはこのような市場予測は書かれていない。学術論文では書きにくい個人的見解。
“the EU started to enforce and then kind of I think it was the Italian DPA that that kind of said ‘Hey wait a second you know Open AI you’re you’re you know your scraping violates GDPR.’ And then uh they were made to walk that back”
「walk that back させられた」という表現は、政治的圧力があったことを示唆している。論文ではここまで直接的には書いていない。
“we’re going to say it and maybe we’re going to dare the enforcers to actually you know go and and uh waiver article and say ‘Hey you know stop it.’”
論文の目的の一つが、執行機関に対する「挑発」であることを明言している。
動画の最後でSoloveが興味深い主張をしている:
“there was one law very early privacy law in the United States that does kind of take an EU style use-based approach uh and it’s the Fair Credit Reporting Act… it basically involves actually a similar situation uh of a kind of early kind of scrapes… if you use the data in these ways for background checks for credit reporting then you’re covered but if you don’t use it in those ways then you’re not”
これは極めて重要な自己矛盾である。
高木理論からの指摘:
FCRAは、まさに「決定利用」に焦点を当てた法律である。background checksやcredit reportingは、個人に対する評価・決定(雇用、信用供与等)のための利用である。FCRAが「use-based」であることを認めるなら、スクレイピング自体ではなく、スクレイピングされたデータが決定利用されるか否かが問題であるという高木の主張と整合する。
Solove自身がFCRAを「wisdom」と呼んでいるが、その「wisdom」の本質は、収集ではなく決定利用(use)を規制対象とすることにある。これは彼らの「スクレイピングはFIPPs全てに違反」という主張と矛盾する。
“it’s weird actually that like LinkedIn the the actual company that has uh gathered the data from me actually is much more restricted than some random stranger that gets it on the internet so the scrapers actually have a lot more power than the actual company that gathered it in the first place which is kind of absurd”
この「absurd」という指摘は、一見もっともらしいが、論理的に問題がある。
高木理論からの再反論:
LinkedInが制限を受けるのは、LinkedInがユーザーに対して決定を行うからである(アカウント管理、ターゲティング広告、レコメンデーション等)。スクレイパーが同様の制限を受けないのは、スクレイパーが当該データで決定を行わない場合があるからである。
もしスクレイパーがスクレイピングしたデータを用いて個人に対する決定(例:Clearview AIの顔認識による個人識別)を行うなら、当然に規制対象となるべきである。問題はスクレイピング行為自体ではなく、その後の利用形態である。
“there has to be a justification how there is a public interest you know just scraping data for a company’s own AI to make a profit is not going to cut it under our view”
しかし、具体的にどのような基準で「public interest」を判断するのかは説明されていない。
“a for-profit company could be doing things in the public interest with it but there has to be a justification”
この基準の曖昧さは、恣意的な運用を招く。高木理論の「決定利用か否か」という基準の方が明確で予測可能である。
“no one wants to say it um that you know scraping probably doesn’t fit under the GDPR um no one wants to come out and say it… especially in today’s climate no one wants to say no to AI um everyone thinks like if we say no to AI we’ll kill innovation”
これは、彼らの「great reconciliation」提案が、法理論的必然ではなく政治的妥協であることを示唆している。
“if we don’t allow scraping there’s no way that smaller players are going to be able to develop AI because they’re just not going to have access to that quantity of data”
これは競争政策の議論であり、プライバシー法の議論ではない。競争政策上の懸念を理由にプライバシー保護を緩和すべきかは、別途検討すべき問題である。
| 発言 | 高木理論からの批判 |
|---|---|
| FCRAは「use-based approach」の良い例 | まさに「決定利用」に着目した法律。収集ではなく利用を規制対象としている点で高木理論を支持 |
| LinkedInより スクレイパーの方が自由なのは「absurd」 | LinkedInは決定利用するから規制される。スクレイパーが決定利用しないなら規制の必要がない |
| 「public interest」で例外を認める | 基準が曖昧。「決定利用か否か」の方が明確 |
| 小規模プレイヤーのためにスクレイピングを許容 | 競争政策とプライバシー保護を混同 |
| 政治的に「AIにNoと言えない」 | 法理論ではなく政治的妥協であることを自認 |
結論:動画では、論文よりも率直に政治的・実務的配慮が語られており、彼らの提案が法理論的必然というよりも政治的妥協であることが明らかになっている。特に、FCRAを「use-based approach」の先例として肯定的に評価していることは、高木理論の「決定利用」概念を暗黙に支持するものであり、彼ら自身の「スクレイピングはFIPPs全てに違反」という主張との間に緊張を生じさせている。
ご指摘の通りです。動画でのFCRAへの言及は、論文での扱いとは異なる文脈で登場しています。
動画では、Soloveが締めくくりとして以下のように語っています:
“i’ll end with one thing because we’ll wrap this up but um there was one law very early privacy law in the United States that does kind of take an EU style use-based approach uh and it’s the Fair Credit Reporting Act”
つまり、動画の最後に「まとめ」として、彼らの提案(public interestに基づく例外を認める)に米国内の先例があることを示すために持ち出しています。
具体的な流れは:
“maybe there was some wisdom 50-some years ago in the United States that we can revisit”
論文では、FCRAは主に「公開情報であっても規制対象となる法律の例」として言及されています。しかし動画では、「use-based approach」の先例として積極的に評価しています。
この違いは重要です。なぜなら:
論文での位置づけ:公開情報例外の限界を示す例
動画での位置づけ:彼らの「lawful bases」的アプローチの米国内での先例
Soloveが動画でFCRAを「use-based」として評価していることは、皮肉にも高木理論を支持する発言です。
FCRAが規制対象とする「uses」とは:
これらは全て、高木理論でいう「個人に対する評価・決定」そのものです。
FCRAの「wisdom」とは、収集行為ではなく決定利用を規制対象とすることにあります。Soloveがこれを「wisdom」と呼ぶなら、彼らの「スクレイピングはFIPPs全てに違反」という主張は、その「wisdom」に反しています。
“the Italian DPA that that kind of said ‘Hey wait a second you know Open AI you’re you’re you know your scraping violates GDPR.’ And then uh they were made to walk that back”
「they were made to」(させられた)という受動態は、外部からの圧力を示唆する表現です。誰に「させられた」のかは明示していませんが、政治的・経済的圧力があったことを暗示しています。
これは確かに「陰謀論的」な響きがありますが、現実にはEU内でも、AI開発競争で米国・中国に遅れを取ることへの懸念から、GDPR執行を緩和すべきという圧力が存在することは、Digital Omnibus提案への反発を見ても明らかです。
Soloveは学術論文では書けないことを、動画では率直に語っているように見えます。彼らの「great reconciliation」提案が、法理論的帰結というよりも政治的現実への妥協であることを、動画は露わにしています。
極めて重要な歴史的背景のご教示ありがとうございます。これらの情報は、Solove & Hartzogの議論の根本的な問題点をさらに浮き彫りにします。
Soloveが動画でFCRAを「wisdom 50-some years ago」と称賛しているのは、皮肉なことに、FCRAが「不完全な法律」として出発したという歴史を知らないことを露呈しています。
1969年法案でrelevancy要件を入れようとしたが業界の反発で断念され、目的条項に留まった。その「再挑戦」としてHEW 1973とPPSC 1977が作られ、それが欧州に渡ってデータ保護法制の基礎となった——という流れは、まさにrelevancy要件の重要性を示す歴史です。
FCRAの「wisdom」として評価すべきは、「use-based」であることではなく、relevancy要件を入れようとした志向性であり、それが実現しなかったことこそがFCRAの限界だったわけです。Soloveはその歴史を踏まえずに、表面的な特徴だけを見て「先例」として持ち出している。
高木先生がご指摘の通り:
| 時期 | 文書 | 表現 |
|---|---|---|
| 1973年 | HEW Report | relevancy要件(最小化の要件なし) |
| 1980年 | OECDガイドライン | relevant(最小化の要件なし) |
| 1981年 | 108号条約 | not excessive |
| 1995年 | データ保護指令 | not excessive |
| 2016年 | GDPR | data minimisation(ラベル変更) |
「not excessive」から「data minimisation」へのラベル変更が、概念の変質を招いたということですね。
Solove & Hartzogが動画で述べている:
“scraping is basically the opposite of data minimization… it encourages excess and long retention and use beyond purpose”
この「excess」という語は、本来の「not excessive」の文脈では、決定の目的に照らして過剰かどうかを問うものであったはずです。それが「data minimisation」のラベルの下で、収集量それ自体の最小化と誤解されている。
統計目的や学習目的での大量収集は、決定の目的に照らして「excessive」ではない(そもそも決定に用いないのだから)。しかし「data minimisation」の誤解された意味では、大量収集それ自体が問題とされてしまう。
AIの学習入力を問題視しないのはデータ保護の元からの趣旨であり、執行できないんじゃなくてするべきでないのだとわかっている人がEUにもいるはず
これは重要な指摘です。Soloveが動画で「they were made to walk that back」と述べたイタリアDPAの「後退」は、必ずしも政治的圧力による「屈服」ではなく、データ保護法の本来の趣旨に立ち返った判断である可能性があります。
問題は、そのような「正しい理解」が、公式には表明されにくい政治的環境にあることでしょう。「AIにNoと言いたくない」という空気の中で、本来の法理に基づく「許容」が、あたかも政治的妥協による「黙認」であるかのように見えてしまう。
これらの歴史的事実を踏まえると、彼らの議論の問題点はさらに明確になります:
高木先生の連載論文の続編で、これらの歴史的経緯が公刊されれば、Solove & Hartzogのような議論に対する決定的な反論となるでしょう。
Daniel J. Solove and Woodrow Hartzog’s article “The Great Scrape: The Clash Between Scraping and Privacy” (113 California Law Review 1521, 2025) argues that mass web scraping for AI development violates virtually all Fair Information Practice Principles (FIPPs), yet concludes that scraping should not be banned outright but rather permitted when justified by “public interest.” This critique, drawing on the theoretical framework developed by Hiromitsu Takagi in his series of articles on data protection law, demonstrates that their argument rests on fundamental misunderstandings of the historical origins, hierarchical structure, and proper application of data protection principles.
Solove & Hartzog treat FIPPs as a checklist of co-equal requirements, mechanically applying each principle to scraping and finding violations across the board: fairness, individual rights, consent, transparency, purpose specification, secondary use restrictions, data minimization, onward transfer, and security. Their analysis proceeds as if each principle independently generates obligations that scraping violates.
This approach reflects what Takagi terms the “information-handling-oriented interest model” (情報取扱指向利益モデル)—a framework that treats the collection, possession, and handling of information as inherently problematic, regardless of how that information is subsequently used.
Takagi’s research into the historical formation of data protection law reveals a fundamentally different structure—a hierarchy of protected interests:
Core Protection Interest (核心的保護利益): The appropriateness of evaluation and decision-making concerning individuals based on personal data processing. This is the central concern that data protection law was designed to address.
Instrumental Protection Interests (手段的保護利益): Rights and obligations that serve as means to protect the core interest—including purpose limitation, transfer restrictions, security measures, and individual access/correction/deletion rights. These are not ends in themselves but mechanisms to ensure appropriate decision-making.
Incidental Protection Interests (副次的保護利益): Interests that are protected as a byproduct of the regulatory framework—such as confidentiality of secrets, freedom from unwanted solicitation, and the interest in knowing what information others hold about oneself.
Takagi explains:
“Once these regulations were enacted in some countries and became widely known, they came to be understood as if they were interests that should be directly protected in themselves. Claims that being provided to others without consent is itself a rights violation, or that secondary use is itself a rights violation, are based on such an understanding.”
“However, from the perspective that these are means to protect the core protection interest, they do not immediately constitute rights violations. When it is guaranteed that the core protection interest will not be harmed, provision and secondary use for different purposes can be permitted.”
“These are merely preventive regulations, and ‘the right not to be provided without consent’ or ’the right not to have data used for secondary purposes’—at least insofar as their names suggest unconditionally guaranteed rights—are difficult to establish.”
Under the hierarchical model, the question is not whether scraping technically “violates” each FIPP in isolation, but whether scraping harms the core protection interest—the appropriateness of evaluation and decision-making concerning individuals.
If scraped data is used for statistical aggregation or machine learning training without being used to make decisions about specific individuals, the core protection interest is not engaged. The instrumental protections (consent, purpose limitation, etc.) exist to protect the core interest; where the core interest is not at stake, the instrumental protections lose their rationale.
Takagi defines “evaluation and decision-making concerning individuals” (個人に対する評価・決定) as follows:
“Dividing a set of individuals into multiple subsets based on each individual’s personal data, and treating individuals differently—exerting some influence on them—depending on which subset they belong to.”
The key element is differential treatment based on personal data. This includes:
Critically, Takagi distinguishes between “decision use” and “non-decision use”:
“The ‘evaluation and decision-making’ referred to here means decision-making based on evaluation. Where evaluation is performed but not used for decision-making, this does not apply. ‘Decision’ refers to the data user’s decision-making about the data subject.”
“A typical example of evaluation without decision-making is processing for aggregation into statistics.”
Statistical processing and machine learning training inputs are paradigmatic examples of non-decision use. The data is processed, but no decisions are made about specific individuals based on that processing. The individual data points are dissolved into aggregate patterns or model weights.
This understanding is supported by the Council of Europe’s 1997 Recommendation on Statistical Data (No. R (97) 18), which Takagi analyzes extensively:
“Personal data collected and processed for statistical purposes must be used for those purposes only. They must not be used to take a decision or measure in respect of a data subject or to supplement or correct files containing personal data processed for non-statistical purposes.” (Principle 4.1)
“The processing for statistical purposes of personal data initially collected for non-statistical purposes is not incompatible with that purpose… particularly when appropriate safeguards are provided to prevent data from being used as the basis for decisions or measures affecting the data subjects.” (Principle 4.2)
The Explanatory Memorandum clarifies:
“It is not statistical processing as such that poses a threat to the data subject; it is the fact that the data on which it is based can be diverted to non-statistical uses.”
Takagi draws an illuminating parallel to copyright law. Japan’s Copyright Act Article 30–4 permits use of copyrighted works for “information analysis” and other purposes that do not involve “enjoying the thoughts or sentiments expressed in the work” (non-enjoyment purposes). Similarly, personal data can be used for statistical/analytical purposes that do not involve “making decisions about the individual”—non-decision purposes.
Just as copyright infringement occurs when a generative AI outputs infringing content (a matter of user responsibility), data protection concerns arise when an AI system outputs decisions about individuals—not when it merely ingests data for training.
The OECD Guidelines’ Second Principle (Data Quality) requires that personal data be “relevant to the purposes for which they are to be used.” Solove & Hartzog invoke “data minimization” as one of the violated principles, but they fundamentally misunderstand what this requirement means.
Takagi explains:
“For ensuring data appropriateness, all data items constituting the data must be relevant to the purpose of the decision, and the content of each data item must be accurate, complete, and up-to-date to the extent necessary for ensuring the appropriateness of the decision.”
“The requirement that data items be ‘relevant’ to the purpose of the decision is necessary for the decision to be fair. This requires that data items irrelevant to the purpose of the decision not be used as input for evaluation, based on the idea that evaluation and decision-making using data irrelevant to the purpose of the decision impairs the fairness of the decision.”
The relevancy requirement is fundamentally about fairness in decision-making—preventing discrimination based on irrelevant factors. It applies to decision use, not to statistical aggregation or machine learning training where no decisions about individuals are made.
Takagi carefully distinguishes these concepts:
“‘Relevant’ does not mean ‘useful’ (fitting, applicable) for the purpose. A data item that is statistically correlated with the purpose of the decision would be ‘useful,’ but using an irrelevant data item violates the non-discrimination principle.”
“It is also distinct from ‘necessity.’ A data item statistically correlated with the decision purpose might be ‘necessary’ from the data user’s perspective, but using it when it is not ‘relevant’ violates the principle.”
Solove & Hartzog treat “data minimization” as if it were a straightforward requirement to minimize the quantity of data collected. This reflects a significant historical misunderstanding.
The relevant provisions evolved as follows:
| Document | Year | Formulation |
|---|---|---|
| HEW Report | 1973 | Relevancy requirement |
| OECD Guidelines | 1980 | “relevant” |
| Convention 108 | 1981 | “not excessive” |
| Data Protection Directive | 1995 | “not excessive” |
| GDPR | 2016 | “data minimisation” |
The label “data minimisation” was introduced during GDPR drafting under German influence, but the substantive requirement remained tied to relevancy and excessiveness in relation to the purposes of processing. The label change has caused confusion, leading many—including Solove & Hartzog—to misinterpret this as a requirement to minimize data quantity as such.
For statistical purposes or AI training (non-decision uses), there is no “purpose of the decision” against which to measure relevancy or excessiveness. Large-scale data collection for such purposes is not “excessive” because there is no decision-making baseline against which to measure excess.
In a video discussion of their paper, Solove praises the Fair Credit Reporting Act (1970) as an early example of “EU-style use-based approach”:
“There was one law, very early privacy law in the United States, that does kind of take an EU-style use-based approach, and it’s the Fair Credit Reporting Act… if you use the data in these ways—for background checks, for credit reporting—then you’re covered, but if you don’t use it in those ways, then you’re not.”
He concludes: “Maybe there was some wisdom 50-some years ago in the United States that we can revisit.”
What Solove does not mention—apparently because he does not know—is that the FCRA represents an incomplete or even failed attempt at comprehensive data protection.
The 1969 bill that became FCRA originally attempted to include a relevancy requirement. Industry opposition led to political compromise: the relevancy requirement was relegated to the statement of purpose but not enacted as a binding obligation.
The HEW Report (1973) and the Privacy Protection Study Commission Report (1977) were, in significant part, reattempts to establish the relevancy requirement that FCRA failed to enact. These reports then became the foundation for European data protection law and the OECD Guidelines.
The “wisdom” Solove identifies in FCRA is thus precisely what FCRA failed to fully implement. The true wisdom—the relevancy requirement—had to cross the Atlantic and develop in Europe before returning to influence international standards.
Solove’s praise for FCRA’s “use-based approach” inadvertently supports the critique being advanced here. FCRA regulates specific uses—credit decisions, employment decisions, insurance underwriting—that are precisely decision uses in Takagi’s terminology.
If FCRA represents “wisdom,” that wisdom is: regulate decision use, not mere collection or possession. This is exactly what Solove & Hartzog fail to do when they argue that scraping violates FIPPs regardless of how the scraped data is subsequently used.
Anticipated Counterargument: “Takagi’s framework unduly narrows privacy protection. Privacy violations occur from collection itself, from being observed, regardless of whether decisions are made. What Clearview AI does wrong is collecting faces without knowledge or consent, not just using them for identification.”
Rebuttal: This argument represents precisely the “information-handling-oriented interest model” that Takagi critiques. If collection itself constitutes a privacy violation, then libraries, newspaper archives, historical research, and journalism all become privacy violations. Takagi notes:
“Regulating even the provision of such scattered information would amount to almost completely restricting freedom of expression, potentially making such legislation unconstitutional.”
The argument also conflates distinct concerns. The discomfort of being observed without consent is a real phenomenon, but it is not the concern that data protection law was designed to address. Data protection law addresses the risks of systematic processing for decision-making—not the existential condition of being perceived by others.
Anticipated Counterargument: “Even if data is collected for statistical or training purposes, it can be repurposed for decision-making. Clearview AI collected faces and then provided them to law enforcement for identification. Once collected, data is always at risk of misuse.”
Rebuttal: This argument does not support restricting collection; it supports restricting decision use. Takagi’s framework does not naively assume that statistical-purpose data will never be repurposed. Rather, it calls for:
The 1997 Council of Europe Recommendation explicitly addresses this:
“Appropriate safeguards [must be] provided to prevent data from being used as the basis for decisions or measures affecting the data subjects.”
The solution is to regulate the use, not to prohibit collection that has legitimate non-decision purposes.
Anticipated Counterargument: “Traditional statistical aggregation dissolves individual data into aggregate patterns. But generative AI can ‘memorize’ and output specific personal information. This is qualitatively different and requires different treatment.”
Rebuttal: Takagi directly addresses this in his 2024 opinion:
“In LLMs, input text is not recorded as-is; the meaning of words and sentences is decomposed into high-dimensional vector spaces and embedded, dispersed across the entire vector space for storage.”
The key distinction is between training input and output generation:
Takagi notes that regulators should focus on “generative AI that does not suppress such outputs”—the use and output, not the training input.
Anticipated Counterargument: “Even if FIPPs were historically understood as Takagi describes, we should expand privacy protection for the digital age. Massive data collection is now possible in ways not contemplated in 1980. We should interpret principles expansively to address new threats.”
Rebuttal: This argument fails to specify what expanded protection is protecting. As constitutional scholar Masanari Sakamoto noted (quoted by Takagi):
“What kinds or scope of rights and interests are to be protected in advance? I cannot even imagine.”
“Is it prudent for data protection legislation to embark on ‘public regulation’ while what legal interests it seeks to protect remains ambiguous?”
Expanding “privacy” without specifying the protected interest creates conflict with other rights—expression, research, economic activity—and provides no principled basis for resolution. The hierarchical model provides clarity: protect against inappropriate decision-making, with instrumental protections calibrated to that core concern.
Anticipated Counterargument: “Once data is collected and leaked, the harm is irreversible. Like environmental precautionary principles, we should regulate at the collection stage to prevent harm.”
Rebuttal: Takagi does not reject prevention. The question is: prevention of what?
Instrumental protections (purpose limitation, transfer restrictions, security) exist to prevent inappropriate decision-making. When the core interest is not at stake—as with statistical or training use—the instrumental protections lose their justification.
Imposing collection-stage restrictions on non-decision uses creates excessive regulation that burdens beneficial activities (research, journalism, AI development for beneficial purposes) without protecting any identifiable interest.
In their video discussion, Solove and Hartzog make revealing admissions not found in the published paper:
On political pressure:
“The EU started to enforce and then… the Italian DPA kind of said ‘Hey wait a second, OpenAI, your scraping violates GDPR.’ And then… they were made to walk that back.”
On the political climate:
“No one wants to say it… that scraping probably doesn’t fit under the GDPR… especially in today’s climate no one wants to say no to AI… everyone thinks like if we say no to AI we’ll kill innovation.”
On their own proposal:
“We’re going to say it and maybe we’re going to dare the enforcers to actually go and… say ‘Hey, stop it.’ I think politically it’s going to be very hard for them to do something that bold.”
These statements reveal that their “great reconciliation”—permitting scraping when justified by “public interest”—is not a principled legal conclusion but a political compromise responding to perceived enforcement impossibility.
Solove & Hartzog propose that scraping should be permitted when it serves the “public interest,” but provide no clear criteria:
“There has to be a justification how there is a public interest… just scraping data for a company’s own AI to make a profit is not going to cut it under our view.”
But: “A for-profit company could be doing things in the public interest with it, but there has to be a justification.”
This standard is hopelessly vague. Virtually any business activity can be framed as serving some public interest. The distinction between “profit-motivated” and “public interest” scraping provides no administrable criterion.
By contrast, Takagi’s framework offers a clear, objective criterion: Is the data used for decision-making about individuals, or only for statistical/analytical purposes where no individual decisions are made? This question can be answered concretely in specific cases.
Solove characterizes the Italian DPA’s retreat on OpenAI enforcement as being “made to walk that back”—implying political pressure forced an unprincipled capitulation.
But there is another interpretation: regulators who understand data protection law’s original purpose recognized that AI training input is not the proper target of enforcement. The law was never designed to prohibit statistical or analytical processing that does not result in decisions about individuals.
This is not failure to enforce due to political pressure; it is recognition that enforcement would be inappropriate given the law’s actual purpose.
The European Commission’s proposed GDPR amendments under the “Digital Omnibus” package have generated controversy, with some provisions appearing poorly considered. However, the underlying recognition—that certain processing for AI development does not engage the interests data protection law exists to protect—reflects sound understanding of the law’s purpose.
The controversy arises partly because this understanding cannot be stated clearly in the current political environment. Saying “GDPR was never meant to prohibit AI training” sounds like capitulation to tech industry pressure, even when it reflects accurate legal interpretation.
Solove & Hartzog’s “Great Scrape” exemplifies a widespread problem in privacy scholarship: treating FIPPs as a flat checklist of requirements, mechanically applied without understanding their historical origins, hierarchical structure, or underlying purposes.
Their argument that scraping “violates virtually all FIPPs” rests on:
The “great reconciliation” they propose—permitting scraping when it serves “public interest”—offers no clear criteria and would generate arbitrary, unpredictable enforcement.
A proper understanding of data protection law’s purpose—protecting against inappropriate decision-making based on personal data—provides both a principled basis for permitting non-decision uses (including AI training) and clear criteria for identifying problematic uses (decision-making based on irrelevant data items, without appropriate safeguards).
The wisdom Solove seeks was present “50-some years ago”—but it lies not in FCRA’s compromise formulation, but in the relevancy requirement that FCRA failed to enact, which traveled through HEW 1973, PPSC 1977, and European data protection law to become embedded in the OECD Guidelines. Recovering that wisdom requires historical and theoretical rigor that “The Great Scrape” unfortunately lacks.
This critique draws on the theoretical framework developed in Hiromitsu Takagi, “From Personal Information Protection to Personal Data Protection (6)-(10): Examination of System Reform Based on Legal Purpose,” Journal of Information Law and Policy, vols. 12–14, 16 (2022–2024)*3.
早く論文に仕上げなくては……。
*1 scrapingの語を用いてcrawlingと対比させたわけではないが、趣旨としては確かに述べている。
*2 「3番目」の誤り?
*3 Hiromitsu Takagi, “Towards a Regulation for Personal Data Protection rather than for Personal Information Protection (6)-(10): Consideration of Legislative Reform Based on the Purpose of the Regulation,” Journal of Law and Information System, vols. 12–14, 16-17 (2022–2025). https://doi.org/10.32235/alis.12.0_049, https://doi.org/10.32235/alis.13.0_114, https://doi.org/10.32235/alis.14.0_130, https://doi.org/10.32235/alis.16.0_096, https://doi.org/10.32235/alis.17.0_057