La version française se trouve ci-dessous. / The French version follows below.
In its AI guidance (“Fiche 4–2”) [1], published in April 2024, the CNIL (France’s data protection authority) makes a remarkable claim about machine learning and statistical purposes:
“The use of statistical techniques of machine learning is not enough to consider that they are processing ‘for statistical purposes’, since the purpose of processing is not to produce aggregated data for themselves. The use of these techniques is more of a mean to train the model.” (CNIL, Fiche 4–2)
The CNIL’s reasoning is this: for processing to qualify as having a “statistical purpose” under the GDPR, it must aim solely at producing aggregated data “for themselves” (pour elles-mêmes) — that is, the aggregated data must be the end in itself. Since ML model training produces aggregated knowledge (model parameters) that will subsequently be used for something, it cannot qualify as statistical processing.
But consider where this logic leads. A government agency conducts a census and uses the resulting statistics to plan infrastructure. An insurer analyses claims data and uses the resulting statistics to set premium rates. A public health authority compiles epidemiological data and uses the resulting statistics to design vaccination campaigns. In each case, the statistics are produced in order to be used for subsequent decisions — they are not produced “for themselves” and nothing more. Under the CNIL’s interpretation, none of these would qualify as “statistical purposes” either.
Something has clearly gone wrong. To understand what, we need to go back to the origins of the “decision use prohibition” that the CNIL is attempting to apply.
The rule that statistical data should not be used for decisions about individuals has a specific origin and a specific rationale. It was articulated most clearly in the Explanatory Memorandum to Council of Europe Recommendation No. R (97) 18 [3] on the protection of personal data collected and processed for statistical purposes.
The Explanatory Memorandum distinguishes between two types of decisions that can follow from statistical processing:
“Assistance with planning and decision-making is a purpose relevant to officials responsible for taking two types of decision: general decisions (laws, scales of assessment, vaccination campaigns, organisation of transport, design of blueprints, entry into production, etc.) and individual decisions (admission or exclusion, taxation, benefit, remuneration, etc.). Personal data collected and processed for statistical purposes may be used only for the first type of decision. Such general decisions no doubt have particular implications (favourable or unfavourable) for certain persons; but there must be no connection between the fact of having provided personal information which is then added into the statistical mix, and the fact of being concerned by an individual decision.” (Explanatory Memorandum, para. 13)
This is the crucial distinction: the prohibition is not against using statistical results — general decisions based on statistics are explicitly permitted — but against making individual decisions about the very persons whose data was fed into the statistical process. General decisions — legislation, insurance rate scales, public health campaigns, urban planning — are perfectly permitted uses of statistical results, even though they inevitably affect particular individuals. What matters is the absence of a direct link between having contributed data to the statistical input and being targeted by an individualised decision on the basis of that contribution.
The Explanatory Memorandum goes further, explaining why statistical processing receives favourable treatment under data protection law:
“it is not statistical processing as such which presents a threat to data subjects, but merely the fact that the data on which it is based could be diverted to non-statistical purposes … there are no grounds on which statistical interests could justify an infringement of the interests of the data subjects, since the latter are not in any case infringed by statistics” (Explanatory Memorandum, para. 29)
This passage makes clear that the concern addressed by the decision-use prohibition is about diversion of input data to non-statistical uses — not about the statistical output being put to use. The “threat” in question is the threat of individualised adverse decisions being made about data subjects on the basis of their data; it is not about information security risks such as data breaches or re-identification, which are governed by separate safeguards. Statistical processing transforms individual-level personal data into aggregate knowledge. This transformation is precisely what makes it safe from the perspective of the decision-use prohibition: the output relates to populations and patterns, not to identifiable individuals.
The Memorandum also explains the nature of statistical purpose as an “intermediate purpose” that connects to other purposes at the output stage:
“at the output stage it links up with other purposes … the statistical information furnished for such intermediate purposes always relates to mass phenomena and cannot, therefore, under any circumstances entail direct or individualised consequences for individuals.” (Explanatory Memorandum, para. 12)
In other words, statistical results are meant to be used — for policy-making, planning, research, and general decision-making. What they must not be used for is making decisions about particular individuals on the basis of their having been data subjects in the statistical process.
This framework from the Council of Europe Recommendation was carried into EU data protection law, but the wording shifted at each stage in ways that progressively obscure the original meaning.
Council of Europe Recommendation (97) 18 was unambiguous. The Explanatory Memorandum speaks consistently about the input data — the personal data of the individuals whose information was fed into the statistical process. The prohibition is against diverting those data to make individual decisions about those persons. The statistical output — aggregate results — is explicitly meant to be used for general decisions. There is no confusion about what is prohibited and what is permitted.
DPD Recital 29 [4] stated: “the further processing of personal data for historical, statistical or scientific purposes is not generally to be considered incompatible with the purposes for which the data have previously been collected provided that Member States furnish suitable safeguards; whereas these safeguards must in particular rule out the use of the data in support of measures or decisions regarding any particular individual.”
This formulation preserves the core idea: “the data” whose use must be ruled out refers to the personal data being processed — the input data. The safeguard requirement is that this personal data must not be diverted to support individualised measures or decisions. The recital is structured as a requirement on safeguards — Member States must ensure that protections exist — not as a definition of what “statistical purpose” means. It also establishes statistical purposes as a case of further processing that is presumptively compatible with the original collection purpose — a framing that GDPR Article 5(1)(b) would later codify directly.
GDPR Recital 162 [5] reformulated this in two significant ways:
“the statistical purpose implies that the result of processing for statistical purposes is not personal data, but aggregate data, and that this result or the personal data are not used in support of measures or decisions regarding any particular natural person.”
First, the phrase “this result or the personal data” introduces a critical ambiguity absent from the earlier formulations. In the original framework, the prohibition concerned only the diversion of input personal data to individualised decisions. Now, “this result” — the aggregate statistical output — is placed alongside “the personal data” as something that must not be used for decisions about particular persons. The question is why “this result” was added at all. If the clause had simply retained the DPD’s formulation — that the personal data must not be used for individual decisions — the safeguard would have been clear and sufficient. By inserting “this result” alongside “the personal data,” the drafters created a formulation that most naturally reads as extending the prohibition to the statistical output itself — precisely the reading that, if taken literally, would prohibit any use of statistical results for decisions, contradicting the entire purpose of the statistical framework. The alternative reading — that the clause is really saying the same thing as the original framework, and that “this result” merely clarifies that statistical outputs should not constitute personal data — is more coherent with the legislative history, but the disjunctive phrasing makes it far less obvious.
Second, the sentence has been restructured from a safeguard requirement into an explanatory statement — “the statistical purpose implies that …” The institutional context helps explain this shift. DPD Recital 29 was prescribing safeguards that Member States had to implement in their national legislation transposing the Directive; it needed to specify requirements. The GDPR, by contrast, is directly applicable and contains its own substantive provisions for statistical processing (Article 89). The Commission’s original GDPR proposal [6] accordingly did not contain a recital on statistical purposes in the form of DPD Recital 29; the wording that would become Recital 162 is absent from the Council’s general approach of 20 November 2015 [7] but appears in the compromise text of 15 December 2015 [8], indicating that it was introduced at a late stage of the Council negotiations. What was reintroduced, however, was not a set of requirements but an explanatory rationale: “the statistical purpose implies that …” — explaining why further processing for statistical purposes is presumed compatible with the original purpose under Article 5(1)(b). This is a statement of sufficient conditions — describing the characteristics that typically justify the compatibility presumption — not a definition of what counts as statistical processing. Because the recital is providing a justification, it can afford to describe the typical case broadly; it does not need to be read as an exhaustive set of necessary conditions.
Yet the phrasing “the statistical purpose implies that …” invites precisely this misreading. The CNIL treats the recital as defining what statistical processing is — and concludes that any processing not meeting every stated condition is, by definition, not statistical. This confuses a justificatory rationale with a definitional boundary.
There is no indication in the available travaux préparatoires that any substantive departure from the DPD’s framework was intended. Yet the resulting ambiguity — both in the “this result or the personal data” formulation and in the shift from requirement to rationale — has led data protection authorities astray. Read in light of its origins in Recommendation (97) 18, the provision simply means that personal data collected for statistical processing must not be diverted to make individual decisions about the persons whose data was processed. Read in isolation — as the CNIL appears to have done — it can be taken to mean that statistical results themselves must not be used for any decisions about any persons.
The CNIL’s guidance on AI and data re-use contains a passage specifically addressing statistical purposes. It states:
“In order to pursue a statistical purpose within the meaning of the GDPR, the processing must only aim at the production of aggregated data for themselves: the sole purpose of the processing must be the calculation of the data, their display or publication, their possible sharing or communication (and not taking subsequent decisions, individual or collective). The statistical results thus obtained must constitute aggregated and anonymous data within the meaning of the data protection regulations.”
The CNIL then applies this definition to machine learning:
“The use of statistical techniques of machine learning is not enough to consider that they are processing ‘for statistical purposes’, since the purpose of processing is not to produce aggregated data for themselves. The use of these techniques is more of a mean to train the model.”
In its regulatory sandbox recommendations [2] concerning the RATP’s PRIV-IA project (video analytics for passenger flow management), the CNIL elaborates:
“the result of processing for statistical purposes cannot, by definition, constitute personal data. The data is aggregated and this result cannot be used in support of measures or decisions concerning a particular natural person. The CNIL’s position on ‘augmented’ cameras specifies this condition by indicating that processing cannot be regarded as solely statistical when it itself tends towards immediate decision-making.”
The CNIL provides three examples of processing that it considers not to be statistical despite producing aggregate measurements: triggering an immediate alert when crowd density exceeds a threshold, displaying an advertisement in real-time when someone passes a panel, and immediately blocking access to a location when a threshold is reached.
These three examples are, in fact, well-chosen — they all involve processing that acts upon the very individuals whose data was just collected, in real time. Under the Recommendation (97) 18 framework, these would indeed fail to qualify as statistical processing, because there is a direct connection between having provided the data and being subject to an immediate individual-level consequence.
One charitable reading of the CNIL’s position is that the Bac à sable document is simply paraphrasing Recital 162. Its statement that statistical results “cannot be used in support of measures or decisions concerning a particular natural person” closely tracks the recital’s language. If this were all the CNIL were saying, the issue would lie with Recital 162’s drafting rather than with the CNIL’s interpretation.
However, Fiche 4–2 introduces the expression “pour elles-mêmes” (for themselves) — a phrase that does not appear in Recital 162 or anywhere else in the GDPR. This could still be read as an attempt to paraphrase the recital’s meaning: statistical results should be produced as an end-product of statistical processing, not as a cover for individualised decision-making.
But the CNIL’s explicit exclusion of machine learning training from statistical purposes removes any room for charitable interpretation. Here, the CNIL actively applies its “pour elles-mêmes” criterion to conclude that because ML model training produces aggregated knowledge that will subsequently be used for something, it does not qualify as statistical processing.
This is not a strained reading of the CNIL’s position. Fiche 4–2 states in terms that statistical processing must not lead to “la prise de décisions ultérieures, individuelles ou collectives” — “taking subsequent decisions, individual or collective.” The word is “subsequent” (ultérieures), not “immediate.” The CNIL is not limiting its prohibition to real-time individual targeting; it is excluding any processing whose results will inform any subsequent decisions of any kind.
This reasoning would equally disqualify every traditional use of statistics. Census data used for infrastructure planning, epidemiological data used for public health policy, economic data used for monetary policy — all produce aggregate results that are subsequently used. The CNIL’s criterion, if applied consistently, would render the concept of “statistical purpose” effectively meaningless.
Indeed, the problem runs even deeper. Consider the most basic statistical output: a published average. Once an average salary, an average risk score, or an average treatment outcome is known, anyone can compare a particular individual against that average and make decisions accordingly. A bank could compare an applicant’s income against a published average; a hospital could compare a patient’s test result against a published norm. Under the Council of Europe framework, such uses are entirely legitimate — they are precisely the “general decisions” that statistical results are meant to inform, because the decisions are based on the general statistical benchmark, not on the individual’s participation in the underlying dataset. But under the CNIL’s criterion, even producing these averages would fail to qualify as “statistical” if the producer intended them to be used for anything beyond mere display. If the mere possibility that a statistical result could inform a later decision were sufficient to disqualify processing as “statistical,” then no statistical processing could ever qualify.
The CNIL treats ML model parameters as fundamentally different from traditional statistical outputs, but this distinction does not withstand scrutiny. An ML model’s parameters are a compressed, aggregate representation of patterns in training data — functionally analogous to a complex set of statistical coefficients. A regression model that produces coefficients, a decision tree that produces splitting rules, and a neural network that produces weight matrices are all doing the same thing: extracting aggregate patterns from individual-level data. The difference is one of complexity, not of kind. If a linear regression model trained on personal data qualifies as statistical processing, there is no principled reason why a neural network trained on the same data in the same way should not.
Even setting aside the interpretive error, the CNIL’s restrictive interpretation of statistical purposes provides no additional protection for data subjects. This is because:
First, the threat to data subjects arises at the application stage — when an ML model is used to make decisions about individuals — not at the creation stage, where personal data is transformed into aggregate model parameters. The Council of Europe Explanatory Memorandum was explicit about this: “it is not statistical processing as such which presents a threat to data subjects.”
Second, restricting the creation stage does not prevent problems at the application stage. An ML model created under a different legal basis (such as legitimate interest) can be applied in exactly the same ways as one created under a statistical purpose. The CNIL itself implicitly acknowledges this by allowing ML training under other legal bases.
Third, what the CNIL’s interpretation achieves is merely an increase in procedural burden — requiring controllers to rely on other legal bases instead of the presumption of compatibility available for statistical purposes. The substantive processing remains identical; only the paperwork changes.
The CNIL’s desire to restrict model creation appears to stem from concern about how models might be applied — specifically, the fear that models trained on personal data could be used to make unfair decisions about individuals. This concern is legitimate, but the CNIL is looking for protection in the wrong place.
Data protection law already contains a powerful mechanism for addressing this concern at the application stage: the relevance principle under Article 5(1)(c). This provision, misleadingly labelled “data minimisation” in the GDPR, is in its origins a data quality principle. It requires that data used for decisions about individuals must be “adequate, relevant and not excessive” (as formulated in the DPD) or “adequate, relevant and limited to what is necessary” (as in the GDPR) in relation to the purposes for which they are processed.
When an AI system is applied to make or support decisions about individuals, the data feeding into those decisions must be relevant to the purpose of the decision. An insurer cannot use health data unrelated to underwriting risk; a lender cannot base creditworthiness assessments on data that bears no rational connection to repayment capacity. This is the relevance principle at work, and it applies regardless of how the underlying model was created.
The fundamental error in the CNIL’s approach is the attempt to solve application-stage problems through creation-stage restrictions. No amount of restriction on how a model is created can prevent the model from being applied inappropriately. Conversely, proper enforcement of data quality requirements at the application stage provides meaningful protection regardless of the model’s provenance.
I have discussed the relevance principle under Article 5(1)(c), its historical origins as a data quality principle rather than a data quantity principle, and its relationship with Article 22 on automated individual decision-making, in detail in a previous article on the Digital Omnibus proposal [9]. The key insight is that the “data minimisation” label distorts what is actually a decision quality requirement: ensuring that decisions about individuals are based on data that is adequate and relevant to the decision at hand — which can sometimes mean more data, not less.
A further indication of the CNIL’s misunderstanding is its addition of “collectives” to the prohibition. Fiche 4–2 states that statistical processing must not lead to “la prise de décisions ultérieures, individuelles ou collectives” — subsequent decisions, whether individual or collective.
This addition has no basis in the GDPR. Recital 162 prohibits only the use of statistical data “in support of measures or decisions regarding any particular natural person.” It says nothing about collective decisions.
More importantly, this addition directly contradicts the Council of Europe framework. Recommendation (97) 18 explicitly permits the use of statistical results for “general decisions (laws, rating scales, prevention campaigns, traffic plans, etc.).” These general decisions are, by their nature, collective — they affect groups, communities, and entire populations. The whole point of the general/individual decision distinction is that collective decisions based on statistical results are not merely permitted but are the primary legitimate use of statistics.
The CNIL’s motivation for adding “collectives” likely reflects a concern — associated with the emerging literature on group privacy — that statistical models could be used to target groups as such, producing discriminatory effects that escape individual-level analysis. This concern is not unfounded: an insurer that sets punitive rates for an entire neighbourhood, or an algorithm that systematically disadvantages a demographic category, does produce group-level harm.
But a “decision about a group” is, in practice, nothing other than a set of decisions about individuals, each based on an individual data point — namely, that the person belongs to the group in question. When an insurer applies a higher rate to all residents of a particular postcode, each affected policyholder is subject to an individual decision based on the personal datum of their address. The legal question is not whether the decision is “collective” in form, but whether the attribute used — postcode, age bracket, demographic category — is relevant to the decision purpose. This is precisely what the relevance principle under Article 5(1)(c) governs: the adequacy and relevance of the data used as the basis for a decision about an individual.
By adding “collectives” to the statistical purpose prohibition, the CNIL attempts to address group-level harms by restricting the creation of statistical knowledge — the wrong intervention point. Even if the CNIL’s concern is specifically about discriminatory group targeting rather than general policy-making, the analysis does not change: discrimination through group-based decisions is a matter of whether the group-membership attribute used as the basis for the decision is relevant to the decision purpose. The correct instrument is the relevance principle applied at the decision stage, not a restriction on statistical model creation. This approach requires no special concept of “collective decisions” and no departure from the individual-centred framework of data protection law.
The path forward requires recognising a clear separation between two stages:
The creation stage — training an ML model — is, in its essential character, a form of statistical processing. Personal data flows in; aggregate knowledge (model parameters) flows out. No individual decisions are made about the data subjects whose data was used. Under the framework established by Council of Europe Recommendation (97) 18 and reflected in GDPR Recital 162, this is precisely the kind of processing that qualifies as statistical: individual-level data is transformed into aggregate patterns that relate to populations, not to particular persons.
The application stage — using a trained model to make or support decisions about individuals — is where data protection concerns properly arise. At this stage, the relevance principle under Article 5(1)(c) requires that the data and inferences used for decisions must be adequate and relevant to the purpose of those decisions. This is the mechanism that prevents unfair, discriminatory, or disproportionate outcomes — not restrictions on how the model was created.
One might object that even “general” decisions ultimately affect individuals — that a new insurance premium scale, though general in form, determines what each particular policyholder pays. This is true, but it does not undermine the general/individual distinction. As discussed above, the distinction was never about whether individuals are affected, but about whether there is a direct link between having provided data to the statistical process and being individually targeted by a decision on that basis. A general premium scale derived from statistical analysis affects all policyholders on the basis of objectively defined risk categories, not on the basis of their individual participation in the statistical dataset. And the individual who objects to their classification has a claim under the relevance principle — that the risk category used is not adequate or relevant to the decision purpose — not a claim that the statistical analysis itself was impermissible.
This is precisely why the relevance principle, properly understood, is the correct regulatory instrument. It operates at the point where aggregate knowledge meets individual application: asking whether the criteria and data used to reach a decision about a specific person are adequate, relevant, and not excessive in relation to the purpose of that decision. It can address both the case of an AI system making automated predictions and the case of a human decision-maker relying on statistical tables — because the principle governs the decision, not the method by which the underlying knowledge was produced.
The CNIL’s interpretation conflates the creation and application stages. By refusing to recognise model creation as statistical processing, it imposes procedural burdens at the creation stage without providing any additional protection at the application stage. Meanwhile, by overlooking the relevance principle, it leaves the application stage — where real threats to data subjects arise — without the regulatory attention it deserves.
The European Commission’s Digital Omnibus proposal has drawn controversy for its broad approach to AI and the GDPR. But the underlying challenge it attempts to address is real: the existing framework, as interpreted by authorities like the CNIL, fails to properly distinguish between the creation and application of AI systems. A proper reading of the GDPR — one that takes seriously the historical origins of the statistical purpose framework and the relevance principle — already provides the tools needed to both enable legitimate statistical processing at the creation stage and ensure meaningful protection of individuals at the application stage. What is needed is not new legislation, but a correct interpretation of the principles that have been part of data protection law since its inception.
References:
[1] CNIL, “Les fiches pratiques IA : Fiche 4–2: IA : Assurer que le traitement est licite — En cas de réutilisation des données, effectuer les tests et vérifications nécessaires” (8 April 2024). Available in French and English.
[2] CNIL, “Bac à sable données personnelles et IA — Recommandations” (March 2025). Available at: https://www.cnil.fr/sites/cnil/files/2025-04/bac_a_sable_recommandations.pdf
[3] Council of Europe, Recommendation No. R (97) 18 concerning the protection of personal data collected and processed for statistical purposes, and Explanatory Memorandum (30 September 1997).
[4] Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of individuals with regard to the processing of personal data and on the free movement of such data, Recital 29.
[5] Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), Recital 162, Article 5(1)(b), Article 5(1)(c), Article 89.
[6] European Commission, Proposal for a Regulation of the European Parliament and of the Council on the protection of individuals with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), COM(2012) 11 final (25 January 2012).
[7] Council of the European Union, Proposal for a Regulation — General approach, ST 14319/15 (20 November 2015).
[8] Council of the European Union, Proposal for a Regulation — Analysis of the final compromise text, ST 15039/15 (15 December 2015).
[9] H. Takagi, “Digital Omnibus, Scope and Relevance: Are We Fighting the Wrong Battle?” (2025). Available at: https://takagi-hiromitsu.jp/diary/20251206.html
Dans sa fiche pratique sur l’IA (« Fiche 4–2 ») [1], publiée en avril 2024, la CNIL formule une affirmation remarquable concernant l’apprentissage automatique et la finalité statistique :
« Le recours à des techniques statistiques d’apprentissage automatique ne suffit pas à considérer qu’il s’agit de traitements “à des fins statistiques”, dans la mesure où la finalité du traitement de données n’est pas de produire des données agrégées pour elles-mêmes. Le recours à cette technique est davantage un moyen mis en œuvre pour l’apprentissage du modèle. » (CNIL, Fiche 4–2)
Le raisonnement est le suivant : pour qu’un traitement relève de la « finalité statistique » au sens du RGPD, il doit avoir pour unique objet la production de données agrégées « pour elles-mêmes » — c’est-à-dire que ces données agrégées doivent constituer une fin en soi. L’entraînement d’un modèle d’apprentissage automatique produisant des connaissances agrégées (les paramètres du modèle) qui seront ensuite utilisées à d’autres fins ne saurait donc être qualifié de traitement statistique.
Mais voyons où mène cette logique. Un organisme public réalise un recensement et utilise les statistiques qui en résultent pour planifier les infrastructures. Un assureur analyse les données de sinistres et utilise les statistiques qui en résultent pour fixer les barèmes de primes. Une autorité de santé publique compile des données épidémiologiques et utilise les statistiques qui en résultent pour concevoir des campagnes de vaccination. Dans chacun de ces cas, les statistiques sont produites pour être utilisées en vue de décisions ultérieures — elles ne sont pas produites « pour elles-mêmes » et rien de plus. Selon l’interprétation de la CNIL, aucun de ces traitements ne relèverait non plus de la « finalité statistique ».
Quelque chose ne va manifestement pas. Pour comprendre quoi, il faut remonter aux origines de l’interdiction d’utilisation décisionnelle que la CNIL tente d’appliquer.
La règle selon laquelle les données statistiques ne doivent pas être utilisées pour prendre des décisions individuelles a une origine et une justification précises. Elle a été formulée de la manière la plus claire dans l’exposé des motifs de la Recommandation n° R (97) 18 du Conseil de l’Europe [3] concernant la protection des données à caractère personnel collectées et traitées à des fins statistiques.
L’exposé des motifs distingue deux types de décisions pouvant découler d’un traitement statistique :
« Les résultats obtenus à la suite d’un traitement statistique peuvent être utilisés pour deux types de décisions : des décisions générales (lois, barèmes, campagnes de prévention, plans de circulation, etc.) et des décisions individuelles (admission ou exclusion, imposition, allocations, récompenses, etc.). Les données à caractère personnel collectées et traitées à des fins statistiques ne peuvent être utilisées que pour le premier type de décision. De telles décisions générales ont certes des incidences particulières (favorables ou défavorables) pour certaines personnes ; mais il ne doit y avoir aucun lien entre le fait d’avoir fourni des informations personnelles qui sont ensuite intégrées dans la masse statistique, et le fait d’être concerné par une décision individuelle. » (Exposé des motifs, par. 13 ; notre traduction)
C’est la distinction essentielle : l’interdiction ne porte pas sur l’utilisation des résultats statistiques — les décisions générales fondées sur les statistiques sont explicitement autorisées — mais sur le fait de prendre des décisions individuelles visant les personnes mêmes dont les données ont alimenté le traitement statistique. Les décisions générales — législation, barèmes d’assurance, campagnes de santé publique, planification urbaine — sont des utilisations parfaitement autorisées des résultats statistiques, bien qu’elles aient inévitablement des conséquences pour des personnes particulières. Ce qui compte, c’est l’absence de lien direct entre le fait d’avoir fourni des données et le fait d’être visé par une décision individualisée.
L’exposé des motifs va plus loin, en expliquant pourquoi le traitement statistique bénéficie d’un régime favorable en droit de la protection des données :
« ce n’est pas le traitement statistique en tant que tel qui présente un danger pour les personnes concernées, mais uniquement le fait que les données sur lesquelles il repose pourraient être détournées à des fins non statistiques […] il n’existe aucun motif permettant aux intérêts statistiques de justifier une atteinte aux intérêts des personnes concernées, puisque ces derniers ne sont en tout état de cause pas lésés par la statistique » (Exposé des motifs, par. 29 ; notre traduction)
La préoccupation visée par l’interdiction d’utilisation décisionnelle concerne donc le détournement des données d’entrée à des fins non statistiques — et non l’utilisation des résultats statistiques. La « menace » en question est celle de décisions individualisées défavorables prises à l’encontre des personnes concernées sur la base de leurs données ; il ne s’agit pas des risques de sécurité informatique tels que les violations de données ou la réidentification, qui relèvent de garanties distinctes. Le traitement statistique transforme des données personnelles individuelles en connaissances agrégées. C’est précisément cette transformation qui le rend inoffensif du point de vue de l’interdiction d’utilisation décisionnelle : les résultats portent sur des populations et des tendances, non sur des individus identifiables.
L’exposé des motifs précise également la nature de la finalité statistique en tant que « finalité intermédiaire » qui se rattache à d’autres finalités au stade de la sortie :
« au stade de la sortie, elle rejoint d’autres finalités […] l’information statistique fournie à ces fins intermédiaires porte toujours sur des phénomènes de masse et ne peut, en aucune circonstance, entraîner des conséquences directes ou individualisées pour des personnes. » (Exposé des motifs, par. 12 ; notre traduction)
En d’autres termes, les résultats statistiques sont destinés à être utilisés — pour l’élaboration de politiques publiques, la planification, la recherche et la prise de décisions générales. Ce qu’ils ne doivent pas servir, c’est à prendre des décisions visant des personnes particulières du fait qu’elles ont été des personnes concernées dans le traitement statistique.
Ce cadre issu de la Recommandation du Conseil de l’Europe a été repris dans le droit européen de la protection des données, mais la formulation a évolué à chaque étape de manière à obscurcir progressivement le sens originel.
La Recommandation (97) 18 du Conseil de l’Europe était sans ambiguïté. L’exposé des motifs se réfère constamment aux données d’entrée — les données à caractère personnel des individus dont les informations ont alimenté le traitement statistique. L’interdiction porte sur le détournement de ces données pour prendre des décisions individuelles visant ces personnes. Les résultats statistiques — données agrégées — sont explicitement destinés à être utilisés pour des décisions générales. Aucune confusion n’est possible entre ce qui est interdit et ce qui est permis.
Le considérant 29 de la directive 95/46/CE [4] énonçait : « le traitement ultérieur de données à caractère personnel à des fins historiques, statistiques ou scientifiques n’est pas considéré en général comme incompatible avec les finalités pour lesquelles les données ont été auparavant collectées, dans la mesure où les États membres prévoient des garanties appropriées ; que ces garanties doivent notamment empêcher l’utilisation des données à l’appui de mesures ou de décisions prises à l’encontre d’une personne. »
Cette formulation préserve l’idée fondamentale : « les données » dont l’utilisation doit être empêchée désignent les données à caractère personnel faisant l’objet du traitement — les données d’entrée. La garantie exigée est que ces données ne soient pas détournées pour étayer des mesures ou décisions individualisées. Le considérant est structuré comme une exigence de garanties — les États membres doivent veiller à ce que des protections existent — et non comme une définition de ce que signifie « finalité statistique ». Il pose également la finalité statistique comme un cas de traitement ultérieur présumé compatible avec la finalité initiale de collecte — un cadrage que l’article 5, paragraphe 1, point b) du RGPD allait ultérieurement codifier directement.
Le considérant 162 du RGPD [5] a reformulé cela de deux manières significatives :
« la finalité statistique implique que le résultat du traitement à des fins statistiques n’est pas constitué de données à caractère personnel mais de données agrégées et que ce résultat ou les données à caractère personnel ne sont pas utilisés à l’appui de mesures ou de décisions concernant une personne physique en particulier. »
Premièrement, l’expression « ce résultat ou les données à caractère personnel » introduit une ambiguïté critique absente des formulations antérieures. Dans le cadre originel, l’interdiction ne concernait que le détournement des données personnelles d’entrée vers des décisions individualisées. Désormais, « ce résultat » — le produit statistique agrégé — est placé à côté des « données à caractère personnel » comme quelque chose qui ne doit pas être utilisé pour des décisions concernant des personnes particulières. La question est de savoir pourquoi « ce résultat » a été ajouté. Si la clause avait simplement conservé la formulation de la directive — selon laquelle les données à caractère personnel ne doivent pas être utilisées pour des décisions individuelles —, la garantie aurait été claire et suffisante. En insérant « ce résultat » à côté des « données à caractère personnel », les rédacteurs ont créé une formulation qui se lit le plus naturellement comme étendant l’interdiction au résultat statistique lui-même — précisément la lecture qui, prise au pied de la lettre, interdirait toute utilisation des résultats statistiques à des fins décisionnelles, en contradiction avec la raison d’être même du cadre statistique. L’autre lecture — selon laquelle la clause dit au fond la même chose que le cadre originel, et que « ce résultat » ne fait que préciser que les résultats statistiques ne doivent pas constituer des données à caractère personnel — est plus cohérente avec l’histoire législative, mais la formulation disjonctive la rend beaucoup moins évidente.
Deuxièmement, la phrase est restructurée d’une exigence de garanties en un énoncé explicatif — « la finalité statistique implique que… ». Le contexte institutionnel éclaire cette évolution. Le considérant 29 de la directive prescrivait des garanties que les États membres devaient mettre en œuvre dans leur législation nationale de transposition ; il devait spécifier des exigences. Le RGPD, en revanche, est directement applicable et contient ses propres dispositions substantielles relatives au traitement statistique (article 89). La proposition initiale de la Commission [6] ne contenait donc pas de considérant sur la finalité statistique dans la forme du considérant 29 de la directive ; la formulation qui allait devenir le considérant 162 est absente de l’approche générale du Conseil du 20 novembre 2015 [7] mais apparaît dans le texte de compromis du 15 décembre 2015 [8], ce qui indique qu’elle a été introduite à un stade tardif des négociations au Conseil. Ce qui a été réintroduit n’est toutefois pas un ensemble d’exigences mais une justification explicative : « la finalité statistique implique que… » — expliquant pourquoi un traitement ultérieur à des fins statistiques est présumé compatible avec la finalité initiale au titre de l’article 5, paragraphe 1, point b). Il s’agit d’un énoncé de conditions suffisantes — décrivant les caractéristiques qui justifient typiquement la présomption de compatibilité — et non d’une définition de ce qui constitue un traitement statistique. Parce que le considérant fournit une justification, il peut se permettre de décrire le cas typique de manière large ; il n’a pas à être lu comme un ensemble exhaustif de conditions nécessaires.
Pourtant, la formulation « la finalité statistique implique que… » invite précisément cette lecture erronée. La CNIL traite le considérant comme définissant ce que le traitement statistique est — et conclut que tout traitement ne satisfaisant pas à chaque condition énoncée n’est, par définition, pas statistique. Cela confond une justification avec une frontière définitionnelle.
Rien dans les travaux préparatoires disponibles n’indique qu’un changement substantiel par rapport au cadre de la directive était voulu. Pourtant, l’ambiguïté qui en résulte — tant dans la formulation « ce résultat ou les données à caractère personnel » que dans le passage d’une exigence à une justification — a induit les autorités de protection des données en erreur. Lu à la lumière de ses origines dans la Recommandation (97) 18, le considérant signifie simplement que les données personnelles collectées à des fins statistiques ne doivent pas être détournées pour prendre des décisions individuelles visant les personnes dont les données ont été traitées. Lu isolément — comme la CNIL semble l’avoir fait —, il peut être compris comme signifiant que les résultats statistiques eux-mêmes ne doivent servir à aucune décision concernant aucune personne.
La fiche pratique de la CNIL sur l’IA et la réutilisation des données contient un passage spécifiquement consacré à la finalité statistique :
« Pour poursuivre une finalité statistique au sens du RGPD, le traitement ne doit tendre qu’à la production de données agrégées pour elles-mêmes : le traitement doit avoir pour unique objet le calcul des données, leur affichage ou publication, leur éventuel partage ou communication (et non à la prise de décisions ultérieures, individuelles ou collectives). Les résultats statistiques ainsi obtenus doivent constituer des données agrégées et anonymes au sens de la réglementation sur la protection des données. »
La CNIL applique ensuite cette définition à l’apprentissage automatique :
« Le recours à des techniques statistiques d’apprentissage automatique ne suffit pas à considérer qu’il s’agit de traitements “à des fins statistiques”, dans la mesure où la finalité du traitement de données n’est pas de produire des données agrégées pour elles-mêmes. Le recours à cette technique est davantage un moyen mis en œuvre pour l’apprentissage du modèle. »
Dans ses recommandations relatives au Bac à sable [2] concernant le projet PRIV-IA de la RATP (analyse vidéo pour la gestion des flux de voyageurs), la CNIL précise :
« le résultat d’un traitement à des fins statistiques ne peut pas, par définition, constituer des données à caractère personnel. Les données sont agrégées et ce résultat ne peut pas être utilisé à l’appui de mesures ou de décisions concernant une personne physique en particulier. La position de la CNIL sur les caméras “augmentées” précise cette condition en indiquant que le traitement ne peut être regardé comme uniquement statistique lorsqu’il tend par lui-même à une prise de décision immédiate. »
La CNIL donne trois exemples de traitements qu’elle considère comme non statistiques bien qu’ils produisent des mesures agrégées : le déclenchement d’une alerte immédiate lorsque la densité de la foule dépasse un seuil, l’affichage d’une publicité en temps réel lorsqu’une personne passe devant un panneau, et le blocage immédiat de l’accès à un lieu lorsqu’un seuil est atteint.
Ces trois exemples sont, en réalité, bien choisis — ils impliquent tous un traitement qui agit sur les personnes mêmes dont les données viennent d’être collectées, en temps réel. Dans le cadre de la Recommandation (97) 18, ces traitements ne relèveraient effectivement pas de la finalité statistique, parce qu’il existe un lien direct entre le fait d’avoir fourni les données et le fait de subir une conséquence immédiate au niveau individuel.
Une lecture charitable de la position de la CNIL consisterait à dire que le document du Bac à sable ne fait que paraphraser le considérant 162. Son énoncé selon lequel les résultats statistiques « ne peuvent pas être utilisés à l’appui de mesures ou de décisions concernant une personne physique en particulier » reprend fidèlement la formulation du considérant. Si c’était tout ce que disait la CNIL, le problème résiderait dans la rédaction du considérant 162 plutôt que dans l’interprétation de la CNIL.
Toutefois, la Fiche 4–2 introduit l’expression « pour elles-mêmes » — formule qui n’apparaît ni dans le considérant 162 ni nulle part ailleurs dans le RGPD. On pourrait encore y voir une tentative de paraphraser le sens du considérant : les résultats statistiques doivent être produits comme produit final du traitement statistique, et non comme couverture d’une prise de décision individualisée.
Mais l’exclusion explicite de l’entraînement de modèles d’apprentissage automatique de la finalité statistique ne laisse plus de place à une lecture charitable. La CNIL applique activement son critère du « pour elles-mêmes » pour conclure que, parce que l’entraînement d’un modèle d’apprentissage automatique produit des connaissances agrégées qui seront ensuite utilisées à d’autres fins, il ne relève pas du traitement statistique.
Il ne s’agit pas d’une lecture forcée de la position de la CNIL. La Fiche 4–2 [1] énonce en termes exprès que le traitement statistique ne doit pas tendre « à la prise de décisions ultérieures, individuelles ou collectives ». Le mot est « ultérieures », et non « immédiates ». La CNIL ne limite pas son interdiction au ciblage individuel en temps réel ; elle exclut tout traitement dont les résultats sont susceptibles d’éclairer une quelconque décision ultérieure.
Ce raisonnement disqualifierait tout autant chaque usage traditionnel de la statistique. Les données de recensement utilisées pour la planification des infrastructures, les données épidémiologiques utilisées pour les politiques de santé publique, les données économiques utilisées pour la politique monétaire — tous produisent des résultats agrégés qui sont ensuite utilisés. Le critère de la CNIL, appliqué de manière cohérente, viderait la notion de « finalité statistique » de tout contenu.
Le problème va même plus loin. Considérons le résultat statistique le plus élémentaire : une moyenne publiée. Dès lors qu’un salaire moyen, un score de risque moyen ou un résultat thérapeutique moyen est connu, quiconque peut comparer un individu particulier à cette moyenne et prendre des décisions en conséquence. Une banque pourrait comparer le revenu d’un demandeur à une moyenne publiée ; un hôpital pourrait comparer le résultat d’un patient à une norme publiée. Dans le cadre du Conseil de l’Europe, de tels usages sont parfaitement légitimes — ce sont précisément les « décisions générales » que les résultats statistiques ont vocation à éclairer, car ces décisions reposent sur le référentiel statistique général et non sur la participation de l’individu au jeu de données sous-jacent. Mais selon le critère de la CNIL, la production même de ces moyennes ne relèverait pas de la finalité statistique si leur auteur les destinait à être utilisées à d’autres fins que le simple affichage. Si la seule possibilité qu’un résultat statistique puisse éclairer une décision ultérieure suffisait à disqualifier un traitement comme « statistique », aucun traitement statistique ne pourrait jamais être qualifié comme tel.
La CNIL traite les paramètres d’un modèle d’apprentissage automatique comme fondamentalement différents des résultats statistiques traditionnels, mais cette distinction ne résiste pas à l’examen. Les paramètres d’un modèle d’apprentissage automatique constituent une représentation comprimée et agrégée des tendances présentes dans les données d’entraînement — fonctionnellement analogue à un ensemble complexe de coefficients statistiques. Un modèle de régression qui produit des coefficients, un arbre de décision qui produit des règles de segmentation et un réseau de neurones qui produit des matrices de pondération font tous la même chose : extraire des tendances agrégées à partir de données individuelles. La différence est de degré de complexité, non de nature. Si un modèle de régression linéaire entraîné sur des données personnelles relève du traitement statistique, il n’existe aucune raison de principe pour qu’un réseau de neurones entraîné de la même manière sur les mêmes données n’en relève pas.
Même en faisant abstraction de l’erreur d’interprétation, l’interprétation restrictive de la CNIL n’apporte aucune protection supplémentaire aux personnes concernées. Et ce, pour trois raisons.
Premièrement, la menace pour les personnes concernées se situe au stade de l’application — lorsqu’un modèle est utilisé pour prendre des décisions concernant des individus — et non au stade de la création, où les données personnelles sont transformées en paramètres agrégés. L’exposé des motifs du Conseil de l’Europe était explicite sur ce point : « ce n’est pas le traitement statistique en tant que tel qui présente un danger pour les personnes concernées. »
Deuxièmement, restreindre le stade de la création n’empêche pas les problèmes au stade de l’application. Un modèle créé sur une autre base juridique (telle que l’intérêt légitime) peut être appliqué exactement de la même manière qu’un modèle créé sous le régime de la finalité statistique. La CNIL elle-même le reconnaît implicitement en autorisant l’entraînement de modèles sur d’autres bases juridiques.
Troisièmement, ce que l’interprétation de la CNIL produit n’est qu’un accroissement de la charge procédurale — obligeant les responsables de traitement à recourir à d’autres bases juridiques au lieu de la présomption de compatibilité dont bénéficient les finalités statistiques. Le traitement substantiel demeure identique ; seule la paperasse change.
La volonté de la CNIL de restreindre la création de modèles semble procéder de la crainte que des modèles entraînés sur des données personnelles puissent être utilisés pour prendre des décisions injustes concernant des individus. Cette préoccupation est légitime, mais la CNIL cherche la protection au mauvais endroit.
Le droit de la protection des données contient déjà un mécanisme puissant pour répondre à cette préoccupation au stade de l’application : le principe de pertinence prévu par l’article 5, paragraphe 1, point c). Cette disposition, trompeusement intitulée « minimisation des données » dans le RGPD, est à l’origine un principe de qualité des données. Elle exige que les données utilisées pour prendre des décisions concernant des individus soient « adéquates, pertinentes et non excessives » (selon la formulation de la directive) ou « adéquates, pertinentes et limitées à ce qui est nécessaire » (selon celle du RGPD) au regard des finalités pour lesquelles elles sont traitées.
Lorsqu’un système d’IA est appliqué pour prendre ou étayer des décisions concernant des individus, les données alimentant ces décisions doivent être pertinentes au regard de la finalité de la décision. Un assureur ne peut utiliser des données de santé sans rapport avec le risque à garantir ; un prêteur ne peut fonder l’évaluation de la solvabilité sur des données n’ayant aucun lien rationnel avec la capacité de remboursement. C’est le principe de pertinence à l’œuvre, et il s’applique indépendamment de la manière dont le modèle sous-jacent a été créé.
L’erreur fondamentale de l’approche de la CNIL est de tenter de résoudre des problèmes liés au stade de l’application par des restrictions au stade de la création. Aucune restriction portant sur la manière dont un modèle est créé ne peut empêcher que ce modèle soit appliqué de manière inappropriée. Inversement, une mise en œuvre rigoureuse des exigences de qualité des données au stade de l’application assure une protection effective, quelle que soit la provenance du modèle.
J’ai analysé en détail le principe de pertinence prévu par l’article 5, paragraphe 1, point c), ses origines historiques en tant que principe de qualité des données — et non de quantité des données —, ainsi que son articulation avec l’article 22 relatif aux décisions individuelles automatisées, dans un article précédent consacré à la proposition Digital Omnibus [9]. L’idée essentielle est que l’intitulé « minimisation des données » déforme ce qui est en réalité une exigence de qualité décisionnelle : garantir que les décisions concernant des individus reposent sur des données adéquates et pertinentes au regard de la décision en cause — ce qui peut parfois signifier davantage de données, et non moins.
Un autre indice du contresens de la CNIL est l’ajout du terme « collectives » à l’interdiction. La Fiche 4–2 [1] énonce que le traitement statistique ne doit pas tendre « à la prise de décisions ultérieures, individuelles ou collectives ».
Cet ajout ne trouve aucun fondement dans le RGPD. Le considérant 162 [5] n’interdit que l’utilisation des données statistiques « à l’appui de mesures ou de décisions concernant une personne physique en particulier ». Il ne dit rien des décisions collectives.
Plus fondamentalement, cet ajout contredit directement le cadre du Conseil de l’Europe. La Recommandation (97) 18 [3] autorise explicitement l’utilisation des résultats statistiques pour des « décisions générales (lois, barèmes, campagnes de prévention, plans de circulation, etc.) ». Ces décisions générales sont, par nature, collectives — elles concernent des groupes, des collectivités et des populations entières. Tout l’intérêt de la distinction entre décisions générales et décisions individuelles est que les décisions collectives fondées sur des résultats statistiques ne sont pas seulement permises, mais constituent l’usage légitime premier de la statistique.
La motivation de la CNIL pour ajouter « collectives » reflète probablement une préoccupation — liée à la littérature émergente sur la vie privée collective (group privacy) — selon laquelle des modèles statistiques pourraient être utilisés pour cibler des groupes en tant que tels, produisant des effets discriminatoires échappant à l’analyse individuelle. Cette préoccupation n’est pas sans fondement : un assureur qui fixe des tarifs punitifs pour un quartier entier, ou un algorithme qui désavantage systématiquement une catégorie démographique, produit bien un préjudice au niveau du groupe.
Mais une « décision concernant un groupe » n’est, en pratique, rien d’autre qu’un ensemble de décisions concernant des individus, chacune fondée sur une donnée personnelle individuelle — à savoir que la personne appartient au groupe en question. Lorsqu’un assureur applique un tarif plus élevé à tous les résidents d’un code postal particulier, chaque assuré concerné fait l’objet d’une décision individuelle fondée sur la donnée personnelle de son adresse. La question juridique n’est pas de savoir si la décision est « collective » dans sa forme, mais si l’attribut utilisé — code postal, tranche d’âge, catégorie démographique — est pertinent au regard de la finalité de la décision. C’est précisément ce que régit le principe de pertinence prévu par l’article 5, paragraphe 1, point c) : l’adéquation et la pertinence des données utilisées comme fondement d’une décision concernant un individu.
En ajoutant « collectives » à l’interdiction relative à la finalité statistique, la CNIL tente de prévenir les préjudices collectifs en restreignant la création de connaissances statistiques — ce qui constitue le mauvais point d’intervention. Même si la préoccupation de la CNIL porte spécifiquement sur le ciblage discriminatoire de groupes plutôt que sur l’élaboration de politiques générales, l’analyse ne change pas : la discrimination par des décisions fondées sur l’appartenance à un groupe est une question de savoir si l’attribut d’appartenance utilisé est pertinent au regard de la finalité de la décision. L’instrument adéquat est le principe de pertinence appliqué au stade de la décision, et non une restriction portant sur la création de modèles statistiques. Cette approche n’exige aucun concept spécial de « décisions collectives » ni aucune dérogation au cadre individualiste du droit de la protection des données.
La voie à suivre exige de reconnaître une séparation nette entre deux stades.
Le stade de la création — l’entraînement d’un modèle d’apprentissage automatique — relève, par sa nature même, du traitement statistique. Des données personnelles entrent ; des connaissances agrégées (paramètres du modèle) sortent. Aucune décision individuelle n’est prise concernant les personnes dont les données ont été utilisées. Dans le cadre établi par la Recommandation (97) 18 du Conseil de l’Europe et repris par le considérant 162 du RGPD, c’est précisément le type de traitement qui relève de la finalité statistique : des données individuelles sont transformées en tendances agrégées portant sur des populations, non sur des personnes particulières.
Le stade de l’application — l’utilisation d’un modèle entraîné pour prendre ou étayer des décisions concernant des individus — est le lieu où les préoccupations en matière de protection des données se posent véritablement. À ce stade, le principe de pertinence prévu par l’article 5, paragraphe 1, point c) exige que les données et les inférences utilisées pour les décisions soient adéquates et pertinentes au regard de la finalité de ces décisions. C’est ce mécanisme qui prévient les résultats injustes, discriminatoires ou disproportionnés — et non les restrictions portant sur la manière dont le modèle a été créé.
On objectera que même les décisions « générales » finissent par toucher des individus — qu’un nouveau barème de primes d’assurance, bien que général dans sa forme, détermine ce que chaque assuré paie. C’est vrai, mais cela ne remet pas en cause la distinction entre décisions générales et individuelles. Comme exposé ci-dessus, cette distinction n’a jamais porté sur la question de savoir si des individus sont touchés, mais sur celle de savoir s’il existe un lien direct entre le fait d’avoir fourni des données au traitement statistique et le fait d’être individuellement visé par une décision sur cette base. Un barème de primes général dérivé d’une analyse statistique touche tous les assurés sur la base de catégories de risque objectivement définies, et non sur la base de leur participation individuelle au jeu de données statistiques. Et l’individu qui conteste sa classification dispose d’un recours au titre du principe de pertinence — la catégorie de risque utilisée n’est pas adéquate ou pertinente au regard de la finalité de la décision — et non d’un recours contestant le caractère licite de l’analyse statistique elle-même.
C’est précisément pourquoi le principe de pertinence, correctement compris, est l’instrument réglementaire adéquat. Il opère au point de jonction entre la connaissance agrégée et l’application individuelle : il examine si les critères et les données utilisés pour prendre une décision concernant une personne spécifique sont adéquats, pertinents et non excessifs au regard de la finalité de cette décision. Il peut s’appliquer aussi bien au cas d’un système d’IA produisant des prédictions automatisées qu’à celui d’un décideur humain s’appuyant sur des tables statistiques — parce que le principe gouverne la décision, et non la méthode par laquelle la connaissance sous-jacente a été produite.
L’interprétation de la CNIL confond les stades de la création et de l’application. En refusant de reconnaître la création de modèles comme un traitement statistique, elle impose des charges procédurales au stade de la création sans apporter aucune protection supplémentaire au stade de l’application. Parallèlement, en méconnaissant le principe de pertinence, elle laisse le stade de l’application — là où les véritables menaces pour les personnes concernées se manifestent — sans l’attention réglementaire qu’il mérite.
La proposition Digital Omnibus de la Commission européenne a suscité la controverse par son approche large de l’IA et du RGPD. Mais le défi sous-jacent qu’elle tente de relever est réel : le cadre existant, tel qu’interprété par des autorités comme la CNIL, ne parvient pas à distinguer correctement entre la création et l’application des systèmes d’IA. Une lecture correcte du RGPD — qui prenne au sérieux les origines historiques du cadre de la finalité statistique et du principe de pertinence — fournit déjà les outils nécessaires pour à la fois permettre le traitement statistique légitime au stade de la création et assurer une protection effective des individus au stade de l’application. Ce dont nous avons besoin, ce n’est pas d’une nouvelle législation, mais d’une interprétation correcte des principes qui font partie du droit de la protection des données depuis ses origines.
Références :
[1] CNIL, « Les fiches pratiques IA : Fiche 4–2 : IA : Assurer que le traitement est licite — En cas de réutilisation des données, effectuer les tests et vérifications nécessaires » (8 avril 2024). Disponible en français et en anglais.
[2] CNIL, « Bac à sable données personnelles et IA — Recommandations » (mars 2025). Disponible à : https://www.cnil.fr/sites/cnil/files/2025-04/bac_a_sable_recommandations.pdf
[3] Conseil de l’Europe, Recommandation n° R (97) 18 concernant la protection des données à caractère personnel collectées et traitées à des fins statistiques, et Exposé des motifs (30 septembre 1997).
[4] Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, considérant 29.
[5] Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (règlement général sur la protection des données), considérant 162, article 5, paragraphe 1, points b) et c), article 89.
[6] Commission européenne, Proposition de règlement du Parlement européen et du Conseil relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (règlement général sur la protection des données), COM(2012) 11 final (25 janvier 2012).
[7] Conseil de l’Union européenne, Proposal for a Regulation — General approach, ST 14319/15 (20 novembre 2015).
[8] Conseil de l’Union européenne, Proposal for a Regulation — Analysis of the final compromise text, ST 15039/15 (15 décembre 2015).
[9] H. Takagi, “Digital Omnibus, Scope and Relevance: Are We Fighting the Wrong Battle?” (2025). Disponible à : https://takagi-hiromitsu.jp/diary/20251206.html
前回は、日本の個人情報保護法の3年ごと見直しが「統計作成等であると整理できるAI開発等の円滑化」を予定していることに対しての反発する声に援用されそうな話として、生成AIの学習用データのクローリング段階を問題視するSoloveらの「The Great Scrape」を取り上げた。そして、もう一つ出てきそうな声が、「統計作成等である」と見做すことへの疑問視である。昨年11月の情報ネットワーク法学会研究大会でもそのような主張をする発表を1件見かけたが、国会審議が始まると、あるいは成立後になって、ゾロゾロと出てくるかもしれない。
この点は、3年ごと見直しでこの方向性が示されるより前の時点においても、NBLの「個人情報保護法実務研究会」による「実務問答」連載の中井杏弁護士の回「AI開発における学習用データの利用目的と学習済みパラメータの取扱い」(2023年11月)の中で、「曽我部教授からのコメント」が次のように指摘していた。
曽我部教授からのコメント
●学習データの作成と個人情報の「取扱い」●
本稿では、学習済みパラメータ作成のための個人情報の利用につき、統計データへの加工に関する従来の考え方と同様であると考え、利用目的の特定・公表は不要だとする。その理由付けは説得的ではあるが、なお若干の議論の余地があるように思われるため、コメントしておきたい。
第1に、学習済みパラメータ作成と統計データへの加工との違いをあえて考えてみると、最終的にその結果が個々人に適用されるか否かに関して相違がありうる。すなわち、学習済みパラメータは、それに基づいてプロファイリングが行われるなど、個人(ただし、学習済みデータに含まれる個人情報の本人とは限らない)の評価に用いられる場合があるのに対し、統計データは必ずしもそうではない。個人情報保護ないしプライバシー保護の保護法益が、個人に対する不利益の防止にあるとすれば、前者は、間接的にせよ個人に対する影響がありうる(典型的には後述する公平性の問題)。もちろん、学習済みパラメータにせよ統計データにせよ様々な種類・用途があるため一概には言えないが、この論点の考察に今の点を考慮する必要があるのではないか。*1
中井杏「AI開発における学習用データの利用目的と学習済みパラメータの取扱い」NBL 1254号(2023)52頁
機械学習は統計とは異なるという指摘だが、統計データは個人の評価に用いられない? これは奇妙な話である。どういうものを「統計」と呼んでいるのであろうか。最も単純な場合として平均値という統計を求めたとしよう。それが作成されれば、それを使って、平均以上の人かそれとも平均未満の人かという個人に対する評価・決定が行われるのは通常のことである。統計データならば個人の評価に用いられない——などということはない。「学習済みパラメータ」によって「プロファイリング」に基づく評価・決定が行われることも、それと同じである。
おそらく、ここで見落とされているのは、個人に対する評価・決定が行われる際には、「学習済みパラメータ」や「平均値」とは別に、そこに当て嵌めるために使用する当該個人についての何かしらの個人データが必ず用意されるという事実であろう。「学習済みパラメータ」や「平均値」だけで個人に対する評価・決定が行われるわけではない。したがって、懸念されている公平性の問題に対処するには、当て嵌め時に用いる個人データについてデータ保護法の規律(データ品質原則の関連性や正確性の要件)を適用するのである。
他にも、同じような指摘が、昨年5月に公表されたJILISレポートの座談会「個人情報保護法3年ごと見直し議論をめぐって」(音無・黒田・小西・山田・吉川・黒田・曽我部)での黒田佑輝弁護士の発言(12頁)にも見られる*2。
これらへの私からの回答は、昨年4月19日の日記「【足掛け12年の総括】統計目的の二次利用が決定利用禁止を条件に許される理由が1997年勧告に明記されていた」に書いたとおりである。座談会は2月7日に行われたとあるので、間に合っていなかったようである。
このことは改めて論文で批評せねばと思っていたところ、先週、ChatGPTで調べ物をしている過程で、CNIL(フランスのデータ保護機関)がそれらとそっくりの見解をわりと最近に出していたのが見つかった。2024年4月にCNILが公表したAIに関するガイダンス「Les fiches pratiques IA」が、機械学習(MLモデルの作成)は結果(作成されたモデル)を個人に対する決定に使うのだから統計処理ではないと述べているのである。
なぜそうなったのかを調べていくと、どうやら、前掲の昨年4月19日の日記の終わりがけに「ところで、GDPRの前文162を改めて原文で読んでみると、」以下の部分で述べた、データ保護指令までは正常だった記述がGDPRでおかしくなっている件が影響したようである。「EUももはやわかっている人がいないのではないかと心配」していたところが現実になっていた。
Digital OmnibusでAI開発とデータ保護に挟まれEUが迷走しているのは、ここの無理解に原因があるからなので、これは急ぎCNIL批判を打ち込まねばなるまい。
というわけで今回も、ChatGPT(GPT 5.2 Thinking)で論点出しをした上で、Claudeにより論述ブログを生成した。今回のテーマはこれまでより論理が複雑であるせいか、Claude Opus 4.5(Extended)で原案を作らせていた時点ではなかなかうまい構成にならず苦慮していたところ、ちょうど、Opus 4.6が出たので、Opus 4.6(Extended)でやり直したところ、すんなりうまくいった。以下は、どのようなプロンプトで生成したかを開示するものである。
完成稿は上にある英語版、フランス語版と、下に置いた日本語版である。
(略)
以下、CNILがそのページで何を言っているかを、あなたの枠組みに刺さる形で噛み砕きます。(略)
あなたが見たいのは「CNILが“文字通りに読んだだけ”なのか、起草過程で“意図的に”入ったのか」なので、実務的には:
を追うのが最短です。(略)
あなたの2025-04-19の整理どおり、CoE/DPDとGDPRの決定的な違いは「何を“決定利用禁止”の対象に入れているか」です。
(略)
(この作業は、まさにあなたがブログ末尾で「立案から成立までの過程で変化していないか、あとで調べる」と言っていた部分の実行になります。 )
(略)
という形で書いています。つまり、“this result” を含む(結果側まで要件化する)読みに、実質的に寄っています。
(略)
CNILの文は、「決定に使わない」の主語は traitement(処理)で、結果については「匿名集計であるべき」と言っています。 
つまり “this result or the personal data are not used…” というGDPR前文162の文言を、そのまま引用しているわけではありません。
でも、実質としては
という三点セットで、あなたの懸念する方向(統計目的の極端な縮減)にかなり踏み込んでいます。
(略)
このCNIL段落は、混同(あなたの意味での混同)を起こしうる要素が、言語上3つあります。
(略)
あなたの言い方で整理すると:(略)
(略)
以下、見つかったものを「批判/支持(少なくとも受容・流通)」の証拠として整理します。
(略)
正面からあなたのような「決定指向・関連性」観点で刺しているものは、今の検索では厚くは出てこない。でも、“論点化”はしています。
たとえばLa Quadrature du Netに関連する文書では、Recital 162 と CoE R(97)18 を並べて「統計結果は個人決定に使わないのが原則」等を根拠づけており、CNIL型の定義が“政策提案の武器”として使われています。これは支持・強化方向の材料。 
たとえばGDPR-text系のサイトは条文テキストと注釈の足場を提供していますが、ここも深い批判というより「そう書いてある」の整理が中心。
(略)
つまり、CNIL批判をしている“プライバシー団体”ではなく、規制の予見可能性・導入促進を求める“導入側の団体”です。
この意見書の全体像はざっくりこうです:
ここが重要です。PERIFEMは、CNILが示した「統計目的(fins statistiques)」の整理を歓迎し、さらに適用範囲を広げる方向で文言修正まで提案します。 
PERIFEMは、CoEの考え方として「統計目的は統計調査・統計結果の生産に必要な処理で、得られたデータを個別の措置・決定に使うのは除外」と要約した上で、「この解釈はGDPR Recital 162に取り込まれ、(i)集計、(ii)個人に影響しない、の2要件だ」と述べます。 
ここは、まさに問題の “this result … measures or decisions regarding any particular natural person” を、統計目的の“定義・条件”として強く使っている部分です。
さらに決定的なのが次です。
これはあなたの枠組みから見ると、かなり重要なシグナルで、
わけです(少なくとも、この意見書はその方向にCNIL文案を誘導しています)。
具体例として、スマートカメラで施設の混雑・通行量などの統計を作り、安全確保や(例として)人数制限の遵守に使う、といった利用を正当化しています。 
“統計目的例外(+匿名化・集計)を、スマートカメラ運用の実務上の逃げ道として大きく使いたい” です。
そのために、
あなたが警戒している「統計⇄決定の混同」を、“個別”を避けて“集団”に逃がすことで実装可能にしてしまうタイプのロジックとして読めます。
必要なら次は、(略)
(略)
(略)
もし次に進めるなら、あなたが以前言っていた“あとで調べる”の延長として、2015-11-20(14319/15)→2015-12-15(15039/15)で追加された段落の前後を並べて、「どの文章塊が丸ごと挿入されたか」を示すと、あなたの「言い換え事故」仮説がさらに固くなります。
必要なら、次は私の方で 「11/27〜12/15の間」にある理事会文書を、Recital 126c(当時番号)と “statistical purpose implies” で網羅検索して、初出点をもう一段細かく潰します(“改稿版があるはず”を、当てにいく作業)。
まず、ブログ記事の内容を確認させてください。
[ページ全体を把握するため追加情報を取得した。]
記事が長いので、続きも確認します。
[CNIL の GDPR 解釈と高木ブログの関連性を検証した。]
ブログの内容を十分把握しました。以下、ChatGPTとの会話の要旨をまとめます。
CNIL(フランスデータ保護機関)が2024年4月頃に公表した文書「IA : Assurer que le traitement est licite …」における「統計目的」の定義が、GDPR前文162の問題のある文言を文字通りに読んだ結果、統計結果(this result)すら個人に関する措置・決定に使用してはならないとする立場を取っているように見える問題を、ブログの分析を踏まえて掘り下げた議論。
1. CNILの問題の発見
ChatGPTがCNILの文書を調査したところ、統計目的の定義について4つのポイントが示された。1)と2)は一般論で研究目的例外寄り、3)は妥当だが、4)が問題で、CNILが統計結果を含めて個人に対する決定への利用を禁じる趣旨を述べていた。
2. ブログの分析との接続
高木ブログ(2025年4月19日付)の分析では、以下の経緯が明らかにされている。
3. CNILの立場の深刻さ
CNILが前文162を文字通りに読んで「統計結果すら個人に対する決定に使ってはならない」と解釈しているとすれば、統計分析をしても使い所がないという不合理な帰結になる。ブログが指摘するように、平均値を公表しただけでも誰かがそれより上か下かの判断に使うのは必然であり、統計結果の一般的決定への利用まで禁じるのは、欧州評議会1997年勧告の「一般的決定」と「個別的決定」の区別を無視している。
4. 過失か故意かの見極め
会話では、GDPRの問題ある文言が「理事会側の作業工程(2015年末)で追加された」経緯について、なぜそうなったのかを探る作業を行った。ブログの分析は、保護強化派への釈明として理事会が「理由」らしきものを挿入した結果ではないかとの推測を示している。ChatGPTに立法過程の資料を探させたが、明確な証拠は見つからなかった。
5. CNILへの批判の必要性
日本法が個人情報保護法の3年ごと見直しで「統計作成等」の本人同意なき取扱いを許そうとしている中、CNILの統計結果の利用禁止的解釈がそのまま「欧州の標準的解釈」とみなされれば、十分性認定に影響しかねない。そこで批判対象とするCNIL文献のリストを作成する作業を進めた。
6. 関連する論点
7. CoE Rec 97との関係の確認
CNIL文書の記述が、欧州評議会1997年勧告と同じ意味(=統計の入力データを個別的決定に使うなという意味)で言っているのか、それとも統計結果の利用までも含めて禁じているのかを、原文に即して言語学的に分析した。結論として、一部の文は1997年勧告と同趣旨とも読めるが、文書全体を読むと統計結果の利用禁止まで含意しているとしか読めない。
8. Digital Omnibusとの関係
CNIL文書が2024年4月(OpenAI騒動を経た時期)に出ている一方、現在はDigital Omnibusで揺り戻しが来ている。この2年弱の間にCNILの主張への批判・支持の文献を探す作業も行った。
この会話の核心は、ブログが12年かけて到達した理解——統計目的の二次利用が許されるのは、統計処理そのものがデータ対象者の権利利益を害さないからであり、その条件は統計の入力データを「個別的決定」に使わないことにある(「一般的決定」への統計結果の利用は許される)——に対して、CNILが統計結果の利用まで含めて禁じる解釈を示していることへの危機感です。これがGDPR前文162の不適切な文言(「this result」の挿入)に由来する可能性が高く、データ保護指令時代やCoE 1997年勧告では正しく整理されていたものが、GDPRへの書き換え過程で崩れたことが背景にあります。
Now let me fetch the English version and the PDF.
[Gathered dokumenty a připravil se ověřit obsah]
3つの文書を全て確認しました。問題の核心部分を整理します。
フランス語原文の核心部分:
Lorsque la réutilisation des données poursuit des fins statistiques ou de recherche scientifique, le traitement est présumé compatible avec la finalité initiale s'il respecte le RGPD et s'il n'est pas utilisé pour prendre des décisions à l'égard des personnes concernées.
Pour poursuivre une finalité statistique au sens du RGPD, le traitement ne doit tendre qu'à la production de données agrégées pour elles-mêmes : le traitement doit avoir pour unique objet le calcul des données, leur affichage ou publication, leur éventuel partage ou communication (et non à la prise de décisions ultérieures, individuelles ou collectives). Les résultats statistiques ainsi obtenus doivent constituer des données agrégées et anonymes au sens de la réglementation sur la protection des données.
英語訳版では:
the processing must only aim at the production of aggregated data for themselves: the sole purpose of the processing must be the calculation of the data, their display or publication, their possible sharing or communication (and not taking subsequent decisions, individual or collective).
RATP「PRIV-IA」プロジェクトのセクション3で、統計目的をさらに具体的に論じています:
le résultat d'un traitement à des fins statistiques ne peut pas, par définition, constituer des données à caractère personnel. Les données sont agrégées et ce résultat ne peut pas être utilisé à l'appui de mesures ou de décisions concernant une personne physique en particulier. La position de la CNIL sur les caméras « augmentées » précise cette condition en indiquant que le traitement ne peut être regardé comme uniquement statistique lorsqu'il tend par lui-même à une prise de décision immédiate.
そしてCNILは「即時の決定」の具体例を3つ挙げています:
さらに:
Un traitement n'a une finalité statistique que s'il tend à la production de données agrégées pour elles-mêmes. Le traitement doit avoir pour unique objet le calcul des données, leur affichage ou publication, leur éventuel partage ou communication.
最後の結論部分:
certains des cas d'usage des capteurs « temps de vol » envisagés pouvaient être qualifiés de traitements à des fins statistiques dans la mesure où ils visent à la production et l'exploitation de statistiques anonymes et que les conséquences du traitement ne ciblent pas directement les voyageurs dont les données ont été collectées.
CNILの立場を整理すると、以下の4層構造になっています:
(A)フィッシュ4-2の記述は、GDPR前文162の文言に対応しつつ、独自の拡張を含んでいます。注目すべきは「individuelles ou collectives(個人的またはcollective的)」という表現です。GDPR前文162は「mesures ou de décisions concernant une personne physique en particulier」(特定の自然人に関する措置・決定)としか言っていないのに対し、CNILは「collective(集合的)」な決定も禁止対象に加えています。これは1997年欧州評議会勧告の「一般的決定(general decisions)」すなわち法律・評価尺度・予防接種キャンペーン等を排除することになりかねない、極めて問題のある拡張です。
(B)バック・ア・サーブル文書の方は、より具体的な文脈(RATP映像分析)に即しており、挙げられた3つの例(密度超過アラート、リアルタイム広告表示、閾値によるアクセス遮断)は、いずれもデータ入力時点と同じ特定個人に対して即時に作用する処理です。これらが「統計目的ではない」というのは、1997年勧告の枠組みからも妥当と言えます。つまり、入力データと同一人物に対して即時に介入するのは「個別的決定」そのものです。
(C)しかし問題は、フィッシュ4-2の「pour elles-mêmes(それ自体のための)」と「individuelles ou collectives」の表現の組み合わせです。 これにより、統計結果を「それ自体の公表以外のいかなる目的にも」使ってはならない、という読み方が導かれます。欧州評議会勧告(97)18が明確に許容していた「一般的決定」への利用(法律の制定、保険料率の設計、予防接種方針の策定、交通計画等)がすべて排除されてしまいます。
(D)さらに「résultats statistiques ... doivent constituer des données agrégées et anonymes」(統計結果は集約されかつ匿名でなければならない)という要件は、GDPR前文162にもない独自の追加です。前文162は結果が個人データを「構成しない」(ne constitue pas)と言っているだけで、匿名化を要件とはしていません。
ブログの分析(1997年欧州評議会勧告の解釈論)に照らすと、CNILの問題点は:
ブログで批判するにあたっては、特に(A)フィッシュ4-2の「collectives」の追加と「pour elles-mêmes」表現がGDPR前文162からの逸脱であること、(B)バック・ア・サーブル文書の具体例は妥当だがフィッシュ4-2の一般論と結合すると過剰規制になること、(C)1997年勧告が明確に区別していた「一般的決定」と「個別的決定」の区分をCNILが無視していること、を軸にするのが有効だと思います。
いくつか重要なポイントがありますので、順に整理します。
おっしゃる通り、集団に対する決定は結局その集団に属する個人に対する決定ですから、「個別的決定」との区別は、対象者が集団か個人かではなく、CoE (97)18が言う「統計の入力に提供した事実と、決定による影響を受ける事実との間に関連があるか否か」のはずです。
CNILがあえて「individuelles ou collectives」と書いた背景としては、おそらく「個人への決定は禁止されるが、集団への決定(一般的決定)なら許されるのでは?」という抜け道的な議論を封じようとしたのではないかと思います。つまり「一般的決定」の正当な区別を知らないまま、「集団に対する決定だから個人に対する決定ではない」という安易な回避論を想定して、それを潰しにいった。しかし結果として、CoE (97)18が正当に許容していた「一般的決定」(法律、保険料率の尺度、予防接種キャンペーン、交通計画など)まで巻き込んで禁止してしまっている、ということになりますね。
ご指摘は非常に鋭いです。
広告表示の例は、おっしゃるとおり統計とは無関係で、その場にいる人の行動データをリアルタイムにその人自身への行為(広告表示)に使っているので、そもそも統計の話ですらありません。
アクセス遮断と密度アラートの例が問題です。「ある閾値に達したときに場所への即時のアクセス遮断」を考えると、これは「ある場所に1000人いることを計測して、以後の入場を止める」という処理です。この場合、入れなかった人について、その人の何の個人データに基づいて「決定」がなされたのかという問題があります。
閾値に達した後に到着した人は、たまたまその時刻に来たという事実だけで入場を拒否されています。その人が統計の入力データとして処理されたわけでもなく、その人の個人データが何か評価されたわけでもない。入場者数のカウント(内部にいる人の集計)に基づいて、まだカウントされてすらいない人の入場を止めているだけです。これは「特定の自然人に関する措置または決定」というより、物理的な定員管理です。入れる人と入れない人をその人の個人的属性に基づいて区別しているのではなく、到着時刻だけで機械的に区分されています。
密度アラートも同様で、「密度が高すぎるので介入する」のは、個々の人のデータに基づく個別的決定ではなく、集合体の状態に基づく運用上の対応です。
CNILはこれらを「統計目的から外れる例」として挙げていますが、そもそもこれらが前文162の意味での「特定の自然人に関する決定」に該当するのか自体が疑問です。
過去の会話を確認した限りでは、ChatGPTとの会話で「典型的な勘違いの例として使える」と評されていたのは、CNILの統計目的解釈全体(「集団的な決定」まで禁止、統計結果自体の利用も禁止するかのような記述)についてであり、広告表示の例については「そりゃ明らかに関連性のない決定目的なのでアウト」とのコメントがありました。しかし、密度アラートやアクセス遮断の例について「そもそも個人データに基づく決定なのか」という今のご指摘の角度での議論は、今回私が確認できた範囲では見当たりませんでした。別の件だった可能性もありますし、ChatGPTとの会話の別の部分(私に提供された範囲外)にあった可能性もあります。
この密度アラート・アクセス遮断の例の問題点は、CNILが前文162の「特定の自然人に関する決定」を過度に拡大解釈していることの証左として使えると思います。CNILは自ら挙げた例の中に、そもそも前文162の禁止規定の射程外(個人データに基づく個別的決定ではないもの)を含めてしまっている。これは、CNILが「決定」概念を理解していないことを示す有力な材料です。ただし、議論が込み入るので、本筋の「collectives」の問題や「pour elles-mêmes」の問題と比べて、触れるかどうかはブログの構成次第でしょうか。
おっしゃる通り、多段構えの論証が効果的だと思います。その構成を整理してみます。
バック・ア・サーブルPDFの脚注11と16ページの記述は、前文162をほぼそのまま引用しています。
ce résultat ne peut pas être utilisé à l’appui de mesures ou de décisions concernant une personne physique en particulier
ここだけ見れば、前文162の文言に忠実であり、CoE (97)18からの変遷を踏まえて「定義ではなく理由説明」と読めば、CNILも同じ理解で引き写しただけかもしれない。深い意味はなく、統計結果の一般的決定への利用まで否定する趣旨ではない可能性がある。
ところがフィッシュ4–2を見ると、前文162にはない独自の表現が加わっています。
le traitement ne doit tendre qu’à la production de données agrégées pour elles-mêmes : le traitement doit avoir pour unique objet le calcul des données, leur affichage ou publication, leur éventuel partage ou communication
「集計データの生産それ自体のために」「唯一の目的は計算、表示、公表、共有」。これは前文162の引き写しではなく、CNILの独自解釈です。統計結果を何かの意思決定に活用することは「唯一の目的」から外れるので統計目的ではなくなる、と読める。しかし、ここまでであれば、前文162の「this result … are not used in support of measures or decisions」を自分の言葉で言い換えただけという弁解の余地がまだあります。
ここで機械学習の箇所が効いてきます。
Le recours à des techniques statistiques d’apprentissage automatique ne suffit pas à considérer qu’il s’agit de traitements « à des fins statistiques », dans la mesure où la finalité du traitement de données n’est pas de produire des données agrégées pour elles-mêmes.
この文の論理構造は明快です。機械学習が統計目的と言えない理由(dans la mesure où)として、「集計データをそれ自体のために生産することが目的ではないから」を挙げている。つまり、MLで学習したモデルは何かに使うために作られるものだから、統計結果が「pour elles-mêmes」ではない、ゆえに統計目的ではない、という推論です。
これが決定打になるのは、ここでCNILが「pour elles-mêmes」を実際に適用しているからです。単に前文162の言い回しを繰り返しているのではなく、「結果を何かに使う予定があるなら統計目的ではない」という判断基準として能動的に使っている。MLモデルは予測や分類に使うために訓練するのだから統計目的ではない、という論法です。
この論法を敷衍すれば、人口統計の結果を政策立案に使えば統計目的ではなくなり、医学統計の結果を治療方針に使えば統計目的ではなくなる。「pour elles-mêmes」を文字通り適用すると、あらゆる「使う統計」が統計目的から脱落します。
さらに「et non à la prise de décisions ultérieures, individuelles ou collectives」が追い打ちをかけます。仮にMLの箇所を「MLは特殊だから」と弁解しても、「集団的な決定」まで明示的に排除しているのは、一般的決定への利用も認めない趣旨であることの念押しです。ただしここは先ほどの「集団への決定は個人への決定でもある」という複雑さもあるので、どの程度踏み込むかは判断次第です。
この多段構成なら、読者が「CNILは引き写しただけでは?」という疑問を抱いても、段階的に「いや、本気で間違えている」と説得できるかと思います。MLの箇所が「能動的に誤った基準を適用している」ことの証拠として最も強力ですね。
非常に鋭い論点です。整理してみます。
おっしゃっていることの核心は、CNILの厳格解釈は保護の実効性をもたらさないという点ですね。
機械学習を例にとれば、問題の構造は二段階です。
第1段階(モデル作成): 個人データを入力として学習モデルを構築する。この段階でデータ対象者に危険が生じるのは、入力データがその本人への個別的決定に流用される場合であり、それは統計目的の条件(決定利用禁止)で防がれる。
第2段階(モデル適用): 学習済みモデルを新たな個人データに適用して予測・分類を行う。データ保護法が典型的に問題にする事態——関連性のないデータに基づく不公正な決定、プロファイリング等——はここで生じる。
CNILの解釈は、第2段階で問題が起きうることを理由に第1段階(モデル作成)自体を統計目的から排除しようとしている。しかし、第2段階には第2段階で用いる個人データについて独立にデータ保護の規律がかかります。関連性原則、目的制限、GDPR22条の自動化された個別的決定の規制等がそこで機能するのであって、モデル作成段階を制限したところで第2段階の問題は防げません。
そして決定的なのは、CNIL自身がそれを認めていることですね。フィッシュ4–2では、機械学習の訓練は統計目的に該当しないとした上で、6条1項の他の適法化根拠や6条4項の両立性テストを満たせば適法に実施できると説明しています。バック・ア・サーブルの各プロジェクトでも、統計目的に該当しない処理について「mission d’intérêt public」等の別の法的根拠で進めることを是認しています。
つまり、CNILの厳格解釈のもとでも、統計目的に該当しないだけで、別の要件を満たせばまったく同じ処理ができる。統計目的の要件を厳しく解釈したところで、処理自体が禁止されるわけではない。得られるものは、5条1項(b)後段の目的両立推定(compatibility presumption)が使えなくなるという手続的負担の増加だけで、データ対象者の実質的保護は何も変わりません。
これはブログの構成上、MLの箇所で「CNILが本気で間違えている」ことを示した後に、「しかもこの間違いは実害をもたらすわけですらない」として置くと、批判の重みが増すと思います。
まとめると全体構成は:
この4番目の論点は、単に「CNILは間違っている」だけでなく「無意味に間違っている」ことを示す点で、批判として効果的ですね。
(略)
この構成でいかがでしょうか。特に「CNILの記述の紹介」部分のボリューム配分や、「前提」部分で既存記事をどの程度繰り返すか、「まとめ」で日本への含意にどこまで踏み込むか、あたりが調整ポイントかと思います。
理解しました。重要な修正点が複数あるので、改訂した構成案を提示します。
(略)
この構成でいかがでしょうか。特に「関連性原則の忘却」の節の位置づけと、結論でのDigital Omnibusへの接続の仕方が適切かどうか、ご確認ください。
確認しました。このOmnibusブログは非常に充実しており、以下の論点がすでに十分に展開されています。
関連性原則(5条1項(c))について:
22条との区別について:
したがって、新しいCNILブログでは両方とも深入りせず、このOmnibusブログへのリンクで済ませられます。
いきなりCNILの問題記述を見せる。フィッシュ4–2のML排除の箇所あたりを提示して、「統計的手法を用いた機械学習であっても、それだけでは統計目的の処理とはみなされない。なぜなら、集計データをそれ自体のために生産することが目的ではないからだ」というCNILの論理を示す。これでは統計を作って使うことが許されないことになる。どういう誤解がこれを生んでいるのか、以下で検討する、という流れ。
ここでCoE Rec (97)18からの説明を改めて丁寧に展開する。
「一般的決定」と「個別的決定」の区別
CoE Rec (97)18説明覚書第13段落を引用・解説。統計目的で処理された個人データは一般的決定にのみ使用できる。禁止されるのは、入力データの本人に対する個別的決定への流用。
統計処理そのものはデータ対象者を害さない
説明覚書第29段落:脅威は統計処理そのものではなく、入力データが非統計的目的に流用される可能性にある。統計はいかなる場合もデータ対象者の利益を侵害しない。だから利益衡量を要しない。
前文162の文言の問題
データ保護指令前文29から、GDPRでの書き換え(要件→理由説明、「this result」の追加)。理事会段階の過失と考えられる経緯。この文言の曖昧さがDPAの解釈を誤らせる原因となっている。
CNILの記述の紹介
まず中立的にCNILが何を言っているかを正確に紹介。フィッシュ4–2とバック・ア・サーブルPDFの該当箇所。
第1段:前文162を引き写しただけかもしれない
バック・ア・サーブルPDFは前文162にほぼ忠実。好意的に読めば引き写しに過ぎないかもしれない。
第2段:「pour elles-mêmes」は独自だが、言い換えかもしれない
前文162にない独自表現だが、弁解の余地はまだある。
第3段:ML排除の論理で確定
「pour elles-mêmes」を能動的に適用し、結果を何かに使う予定があれば統計目的ではないという判断を実際に下している。これで弁解の余地はなくなる。
第4段:この厳格解釈は保護に寄与しない
CNILが作成段階から問題視しようとするのは、適用段階での危険を恐れているから。しかしその恐れ方は、関連性原則による解決が見えていないことに起因する。
適用段階で個人に関する決定が行われる際、その決定に用いるデータが決定の目的に照らして関連性がなければならない(GDPR 5条1項(c)の「relevant」)。これがデータ保護法の基本的な規律であり、不公正な決定の防止はこの原則の適切な適用によって達成される。
この点の詳細——5条1項(c)の「data minimisation」というラベルが本来の「データ品質原則」をいかに歪めているか、22条の自動化された決定の規制との混同がなぜ問題か——については、Omnibusについての先行記事(https://takagi-hiromitsu.jp/diary/20251206.html )で論じたのでそちらを参照されたい。
ここで重要なのは、作成段階の規制を厳しくしても適用段階の問題は解決しないということ。そしてCNIL自身がそれを実証していること(統計目的に該当しなくても別の法的根拠で同じ処理を許容)。
「集団的な決定」まで明示的に排除していることの問題。一般的決定と個別的決定の区別を理解しないまま書いた結果。
この構成でいかがでしょうか。関連性原則と22条の深い議論はOmnibusブログへのリンクに委ね、CNIL批判の論理に集中する形です。
ありがとうございます。CoE Rec (97)18 Explanatory Memorandumの原文を受け取りました。
ブログ記事の生成にあたって、この原文から特に重要な箇所を確認させてください:
(略)
それでは、先ほど合意した構成に基づいて、まず日本語版のブログ記事を作成しましょうか?それとも英語版から始めますか?
了解です。英語版から始めます。まず前回合意した構成の詳細をトランスクリプトから確認します。
[検証のため以前の文書を遡及調査した。]
前回の議論の詳細を確認できました。次に、CNIL文書からの正確な引用を確認するため、以前のトランスクリプトも確認します。
[英語版ブログ投稿の構成を確認し準備した。]
では、まずトランスクリプトで最終合意した構成を確認してから、英語版ブログ記事を作成します。
[英語ブログ投稿のため、複数の法的文書から引用を集約した。]
必要な資料が確認できました。英語版ブログ記事を作成します。
[英語版ブログ記事を完成させた。]
英語版ブログ記事の初稿です。合意した構成に従い、以下の流れで構成しています:
ご確認の上、修正点があればお知らせください。
よいフィードバックです。3点とも改訂します。
(略)
全文を精読しました。以下の点が気になります。
(略)
なるほど、これは重要な指摘です。現在の記述では、DPDの「safeguard requirement」がGDPRで「definitional statement」に変わった、と書いています。しかし、Recital 162の機能をよく考えると:
Article 5(1)(b) は「統計目的の処理は当初の目的と不適合とはみなされない」と定めている。Recital 162はこの適合性推定がなぜ正当化されるかを説明している。つまり「統計処理の結果は個人データではなく集計データであり、個人への決定に使われないから、目的外利用とはみなされない」という十分条件の提示です。
この読みだと:
これは「definitional statement」という私の記述よりも正確で、しかもCNILの誤読がなぜ起きるかをより明快に説明できます。修正しましょうか?
具体的には、55行目付近の「This seemingly small change has large consequences: it invites the reading that any processing failing to meet these conditions is by definition not statistical」の箇所を、「Recital 162はArticle 5(1)(b)の適合性推定の正当化根拠を述べており、十分条件を示しているのであって、統計目的の定義ではない。しかしその文構造が“the statistical purpose implies that…”となっているため、CNILのように必要条件=定義として読む誤読を誘引している」という方向に書き換えます。
(略)
(略)
(略)
ChatGPTの指摘を検討しました。使える点が3つあります:
1. 「harm = decision-harm」の一文追加(ChatGPT指摘1) 「統計処理自体は有害でない」の断言を弱めるのではなく、射程を固定する。相手がmembership inference等にすり替えるのを防ぐ。これは最小の一文で効く。
2. CNILの文言で錨を打つ(ChatGPT指摘3) Stage 3で「CNILの基準だと統計が消える」と言うところ、CNILの原文“not taking subsequent decisions, individual or collective”を先に引いて「immediateに限定されていない」と確認する。読者に「極端解釈で殴っている」と思わせない。
3. Council段階の記述(ChatGPT指摘4) 断言を弱めるのではなく、根拠を示せないなら表現を調整する。
これらと、先ほどの「定義→正当化根拠(十分条件)」の修正を合わせて直します。
[原稿の論理的矛盾点を修正中。]
Now the “harm = decision-harm” clarification:
[段階3のCNIL文言を引用箇所に追加する準備を進めた。]
Now anchor Stage 3 with CNIL’s own text:
[議論の論理構造を検証中]
Now the Council stage assertion:
[原稿の論理構造を検証し改善案を検討した。]
最終確認のために修正後の該当箇所を通して読みます。
[準備完了し、出力へ移行した。]
全体の流れが整合しています。最終版をコピーします。
[原稿の論理を強化し、反論耐性を高める改善案を検討した。]
修正のまとめ:
1. Recital 162の分析(最重要・自分の指摘+ChatGPT指摘を統合) 「DPDのsafeguard requirementがGDPRでdefinitional statementになった」→「GDPRではArticle 5(1)(b)の適合性推定を正当化する説明に書き換わった。十分条件を述べているのであって、統計目的の定義ではない。CNILはこの正当化根拠を定義として読み違え、必要条件として適用している」に全面改訂。
2. 「害=decision-harm」の射程固定(ChatGPT指摘1から採用) 「統計処理自体は有害でない」の箇所に一文追加。ここでいう脅威はdecision-harm(個別不利益決定)であり、情報漏洩・再識別等の情報セキュリティリスクは別の保護措置の問題だと明示。断言は弱めず、相手の論点すり替えルートを塞いだ。
3. CNIL文言による錨打ち(ChatGPT指摘3から採用) Stage 3に“ultérieures”(subsequent)であって“immediate”ではないことを明示する段落を追加。CNILが「即時的な個別介入だけを言っている」と逃げる道を塞ぎ、「極端解釈で殴っている」という印象を防止。
4. Council段階の記述調整(ChatGPT指摘4から部分採用) 断言を維持しつつ、「Commission原案にはこの形のrecitalがなく、Council段階で現在の文言が出現した」と根拠の所在を示す形に。
おっしゃる通りです。順序を入れ替えると、まずテキストの変更点(“this result or the personal data”の追加)を示し、次にその変更がなぜ起きたか(DPDでは各国法実施のための要件→GDPRでは直接適用で一旦不要→終盤で理由説明として復活)を説明し、その文脈から「だから定義ではなく正当化根拠」と結論する流れになる。より自然で簡潔になります。流れが自然になりました。
[再構成と制度的文脈を統合し論理を洗練させた。]
制度的文脈が「なぜ書き方が変わったか」の説明として自然に入り、「十分条件」論の根拠が強化されています。
ポイントは2つに分けると通りが良いです。(略)
(略)
(略)
(略)
(略)
(略)
「グループプライバシーは何を指すのか」が散らかりがちなので、定義の交通整理をする論文もあります。
CNILの “individual or collective decisions” は、どの型に近いか
文脈(AI/統計目的)からすると、CNILが言いたい「collective」はたぶん
の直感が混ざってる可能性が高いです(あなたの見立てどおり“グループプライバシー輸入”っぽい動き)。
ただ、あなたの立場(関連性原則)で刺すなら、分類学派の細部よりも、
集団決定は、結局「集団所属」という個人データに基づく個人決定に還元される
⇒ 問題は“集団かどうか”ではなく、その属性が決定目的に関連性を持つか
という一本で十分戦えます。
必要なら、(略)
Now let me adjust the conclusion’s collective decision paragraph, since the main argument is now in Furthermore:
[構造化し、関連性原則で集団決定論を論破する道筋を確認した。]
流れが良くなりました。
[集団決定を関連性原則で再構成し、グループプライバシー学説を整理した。]
Furthermoreセクションの論理展開が3段構成になりました:
第1段: GDPRに根拠なし+CoE枠組みと矛盾(既存、維持)
第2段(新規): グループプライバシー論への応答。CNILの動機(集団ターゲティングへの懸念)を認めた上で、「集団への決定」は実際には「当該集団に属するという個人データに基づく個人への決定」の集合に他ならないと指摘。問題は決定が「集団的か個人的か」ではなく、使われた属性(郵便番号、年齢区分等)が決定目的に関連性を持つかどうか。
第3段(新規): したがってCNILは統計的知識の作成を制限することでグループレベルの害に対処しようとしているが、介入点が間違っている。正しくは決定段階での関連性原則。「集団的決定」という特別概念もデータ保護法の個人中心枠組みからの逸脱も不要。
結論の該当段落は、Furthermoreで論じ済みなので簡潔化し「As discussed above」で接続しています。
その上で、さらに強くなる(=論破力が上がる)直しどころを、増量せずに挙げます。(略)
まず、ChatGPTの1)について考えます。現在のテキストは「集団決定は個人決定に還元される→関連性原則で裁くべき」まで書いていますが、CNILが「collectiveは差別的ターゲティングの意味だ」と逃げる場合に、もう一歩踏み込んで「それでも統計目的の定義に混ぜる話ではなく、適用段階の問題」と明示するのは有効です。実は最後の段落がほぼそれを言っていますが、もう少し明確にできます。
では、1)の補強と2)の文献番号化を合わせてやります。
[計画立案:英仏両版の脚注番号化と論理強化を段階的に実行。]
大きな変更が3つあるので、段階的に進めます。まず1)のcollectives強化、次に文献番号化とCouncil文書の追加。
(略)
重要な確認ポイントです。現在のフランス語版を確認します。
[フランス語版の出典確認と翻訳の妥当性を検証した。]
よい質問です。確認すべき点は主に以下です。
原文がフランス語のもの(問題なし):
確認が必要なもの:
実際のところ、欧州評議会説明覚書の引用部分は、英語原文をもとに私がフランス語に訳した可能性が高いです。原文の正確性を担保するには、欧州評議会のフランス語正文と照合する必要があります。
確認しましょうか?ウェブで仏語正文を検索して照合することができます。
重要な確認です。PDFの勧告本文(仏語)が手元にありますが、説明覚書(Exposé des motifs)の仏語版はないとのこと。現行のフランス語版を照合しましょう。
[検証し、フランス語公式文を引用に統合した。]
問題を特定しました。照合結果を報告します。
(略)
修正してよろしいですか?また、英語版の前文29引用も併せて確認・修正しますか?
確認しました。英語版の前文29引用も問題があります。
(略)
三言語すべて修正します。
(略)
多数の修正点があります。順に確認・修正していきます。まずCNIL英語版の原文と説明覚書の原文を取得します。
(略)
日本語版の「——」の使用箇所を確認します。
[日本語版の過度なダッシュ使用を改善する計画を立てた。]
全文を通して「——」の使用を見直し、読みやすく文法的に自然な表現に改めます。系統的に処理します。
(略)
以上で完成した。
CNIL(フランスのデータ保護機関)は、2024年4月に公表したAIに関するガイダンス「Fiche 4–2」[1]において、機械学習と統計目的に関して注目すべき主張を行っている。
「機械学習のために統計的技法を用いることは、そのデータ処理が『統計目的で』行われていると見なすには十分でない。なぜなら、データ処理の目的は、集約データをそれ自体として(pour elles-mêmes)生成することにはないからである。そうした技法の使用は、モデルの学習のために実施される手段にすぎない。」(CNIL, Fiche 4–2)
CNILの論理はこうである。GDPRにおいて処理が「統計目的」に該当するためには、集約データを「それ自体として」(pour elles-mêmes)生成することのみを目的としなければならない。すなわち、集約データはそれ自体が目的でなければならない。MLモデルの学習は、集約された知識(モデルパラメータ)を生成するが、それはその後何かに使用されるのであるから、統計処理には該当しえない、と。
しかし、この論理がどこに行き着くかを考えてみよう。政府機関が国勢調査を実施し、得られた統計をインフラ整備の計画に用いる。保険会社が保険金請求データを分析し、得られた統計を保険料率の設定に用いる。公衆衛生当局が疫学データを集計し、得られた統計をワクチン接種キャンペーンの設計に用いる。いずれの場合も、統計はその後の意思決定に使用するために作成されているのであって、「それ自体として」作成され、それ以上の用途がないわけではない。CNILの解釈に従えば、これらのいずれもが「統計目的」に該当しないことになる。
明らかに何かがおかしい。何が問題なのかを理解するには、CNILが適用しようとしている「決定利用禁止」の原点に立ち返る必要がある。
統計データを個人に関する決定に使用してはならないという規則には、特定の起源と特定の趣旨がある。それは、統計目的で収集・処理される個人データの保護に関する欧州評議会勧告R (97) 18 [3]の説明覚書において最も明確に定式化された。
説明覚書は、統計処理の結果として生じうる二つの類型の決定を区別している。
「統計処理から得られた結果は、二つの類型の決定に用いることができる。すなわち、一般的決定(法律、料率表、予防キャンペーン、交通計画等)と個別的決定(入学許可または排除、課税、手当、報奨等)である。統計目的で収集・処理された個人データは、第一の類型の決定にのみ用いることができる。かかる一般的決定は、確かに特定の個人にとって(有利または不利な)特定の影響を及ぼす。しかし、個人情報を提供し統計的集合に組み入れられたという事実と、個別的決定の対象となるという事実との間に、いかなる関連もあってはならない。」(説明覚書 第13項)
ここに決定的な区別がある。禁止されているのは統計的結果を使用すること自体ではない。統計に基づく一般的決定は明示的に許容されている。禁止されているのは、統計処理にデータを提供したまさにその個人について個別的決定を下すことである。一般的決定(法律、保険料率表、公衆衛生キャンペーン、都市計画など)は統計的結果の完全に許容される使用形態であり、それが特定の個人に不可避的に影響を及ぼすとしてもそうである。重要なのは、統計的入力にデータを提供したことと、その提供を根拠として個別化された決定の対象とされることとの間に、直接的な関連が存在しないということである。
説明覚書はさらに踏み込んで、統計処理がデータ保護法の下で優遇される理由を説明している。
「データ対象者にとって脅威となるのは統計処理それ自体ではなく、ただ単に、統計処理の基礎となるデータが非統計的目的に転用されうるという事実にすぎない。……統計的利益がデータ対象者の利益の侵害を正当化しうる根拠は存在しない。なぜなら、後者はいかなる場合も統計によって侵害されることはないからである」(説明覚書 第29項)
この一節は、決定利用禁止が対処する懸念が、入力データの非統計的利用への転用に関するものであって、統計的出力が利用に供されること自体に関するものではないことを明らかにしている。ここでいう「脅威」とは、データ対象者のデータに基づいて個別化された不利益な決定が下されるという脅威であって、データ漏洩や再識別といった情報セキュリティ上のリスクのことではない(後者は別個の保護措置によって規律される)。統計処理は個人レベルの個人データを集約的知識に変換する。この変換こそが、決定利用禁止の観点から統計処理を安全たらしめるものである。出力は集団やパターンに関するものであって、識別可能な個人に関するものではない。
説明覚書はまた、統計目的が出力段階で他の目的と接続する「中間的目的」としての性質を説明している。
「出力段階において、それは他の目的と結合する。……かかる中間的目的のために提供される統計情報は、常に集団現象に関するものであり、したがっていかなる場合にも、個人に対する直接的なまたは個別化された帰結を伴うことはありえない。」(説明覚書 第12項)
言い換えれば、統計的結果は使用されるべきものなのである。政策立案、計画、研究、一般的意思決定のために使用されるべきものである。統計的結果を使用してはならないのは、統計処理においてデータ対象者であったという事実を根拠として、特定の個人に関する決定を下すためである。
欧州評議会勧告のこの枠組みはEUデータ保護法に引き継がれたが、各段階で文言が変遷し、原義を次第に曖昧にしていった。
欧州評議会勧告(97) 18は明確であった。説明覚書は一貫して入力データ、すなわち統計処理に情報が投入された個人の個人データについて語っている。禁止の対象は、それらのデータを転用してそれらの個人に関する個別的決定を行うことである。統計的出力(集約的結果)は、一般的決定に使用されることが明示的に予定されている。何が禁止され何が許容されるかについて、混乱の余地はない。
データ保護指令 前文29 [4](1995年)は次のように述べていた。「歴史的、統計的又は科学的目的のための個人データの更なる処理は、加盟国が適切な保護措置を設けることを条件として、データが以前に収集された目的と一般に不適合であるとはみなされない。これらの保護措置は、特に、いかなる特定の個人に関する措置又は決定を裏付けるためのデータの利用を排除しなければならない。」
この定式は核心的な考え方を保持している。利用が排除されるべき「データ」とは、処理されている個人データ(入力データ)を指している。保護措置の要件は、この個人データが個別化された措置または決定を裏付けるために転用されてはならないというものである。前文は保護措置の要件として構成されており、加盟国は保護が存在することを確保しなければならないのであって、「統計目的」とは何を意味するかの定義として構成されているのではない。さらに、統計目的を、当初の収集目的と推定的に適合する更なる処理の一類型として位置づけている。この枠組みは、後にGDPR第5条1項(b)が直接に法典化することになるものである。
GDPR前文162 [5]は、二つの重要な点でこれを再定式化した。
「統計目的は、統計目的の処理の結果が個人データではなく集約データであること、及びこの結果又は個人データが特定の自然人に関する措置又は決定を裏付けるために使用されないことを含意する。」
第一に、「この結果又は個人データ」という語句は、それ以前の定式化には存在しなかった重大な曖昧さを導入している。原来の枠組みにおいて、禁止の対象は入力個人データの個別化された決定への転用のみであった。いまや「この結果」(集約的統計的出力)が「個人データ」と並んで、特定の個人に関する決定に使用されてはならないものとして置かれている。問題は、なぜ「この結果」がそもそも追加されたのかである。指令の定式化(個人データを個別的決定に使用してはならない)をそのまま維持していれば、保護措置は明確かつ十分であったはずである。「この結果」を「個人データ」と並置することによって、起草者は、禁止を統計的出力そのものに拡張するものと最も自然に読める定式化を作り出した。文字通りに受け取れば統計的結果のあらゆる決定利用を禁止し、統計的枠組みの趣旨全体と矛盾する読みである。もう一つの読み、すなわちこの条項は原来の枠組みと実質的に同じことを述べており、「この結果」は統計的出力が個人データを構成すべきでないことを明確にしているにすぎないという読みは、立法史との整合性がより高いが、選言的な語句がそれをはるかに自明でないものにしている。
第二に、この文は保護措置の要求から説明的記述へと構造が変化している。「統計目的は……を含意する」という形式がそれである。制度的文脈がこの変化を説明する助けとなる。データ保護指令前文29は、加盟国が指令を国内法に転換する際に実施すべき保護措置を規定していたため、要件を明示する必要があった。これに対しGDPRは直接適用されるものであり、統計処理に関する独自の実体的規定(第89条)を含んでいる。欧州委員会の当初のGDPR提案 [6]には、データ保護指令前文29の形での統計目的に関する前文は含まれておらず、前文162となる文言は2015年11月20日の理事会の一般アプローチ [7]には存在しないが、2015年12月15日の妥協テキスト [8]に出現しており、理事会交渉の終盤で導入されたことを示している。しかし、再導入されたのは一連の要件ではなく、説明的な理由づけであった。「統計目的は……を含意する」という形式は、統計目的のための追加的処理がなぜ第5条1項(b)に基づき原目的と適合的と推定されるのかを説明するものである。これは十分条件の記述、すなわち適合性の推定を典型的に正当化する特徴を記述するものであって、何が統計処理に該当するかの定義ではない。前文が正当化を提供しているがゆえに、典型的事例を広く記述することが許される。必要条件の網羅的な集合として読まれる必要はない。
しかし、「統計目的は……を含意する」という語句は、まさにこの誤読を誘う。CNILはこの前文を統計処理が何であるかを定義するものとして扱い、述べられたすべての条件を満たさない処理は定義上統計的ではないと結論づけている。これは正当化のための理由づけと定義上の境界とを混同するものである。
利用可能な審議経過資料において、データ保護指令の枠組みからの実質的な逸脱が意図されていたという徴候はない。しかし、生じた曖昧さは、「この結果又は個人データ」の定式化と要件から理由づけへの転換の双方において、データ保護機関を誤った方向に導いてしまった。勧告(97) 18におけるその起源に照らして読めば、この規定は、統計処理のために収集された個人データが、データを処理された個人に関する個別的決定を行うために転用されてはならないことを意味するにすぎない。しかし、CNILがそうしたように孤立的に読めば、統計的結果そのものがいかなる個人に関するいかなる決定にも使用されてはならないことを意味するものと解される余地がある。
CNILのAIとデータ再利用に関するガイダンスには、統計目的を具体的に扱った記述がある。そこにはこう述べられている。
「GDPRの意味における統計目的を追求するためには、処理は集約データをそれ自体として生成することのみを目的としなければならない。処理の唯一の目的は、データの計算、その表示又は公開、その共有又は伝達の可能性でなければならない(その後の個別的又は集団的な決定を行うことではない)。こうして得られた統計的結果は、データ保護規則の意味における集約された匿名データを構成しなければならない。」
CNILはその上でこの定義を機械学習に適用する。
「機械学習のために統計的技法を用いることは、そのデータ処理が『統計目的で』行われていると見なすには十分でない。なぜなら、データ処理の目的は、集約データをそれ自体として生成することにはないからである。そうした技法の使用は、モデルの学習のために実施される手段にすぎない。」
RATP(パリ交通公団)のPRIV-IAプロジェクト(旅客流動管理のための映像分析)に関する規制サンドボックス勧告 [2]において、CNILはさらに詳述している。
「統計目的の処理の結果は、定義上、個人データを構成しえない。データは集約されており、この結果は特定の自然人に関する措置又は決定を裏付けるために使用されえない。『拡張型』カメラに関するCNILの見解は、処理がそれ自体として即時的な意思決定に向かう場合には、その処理を専ら統計的とみなすことはできないと指摘することで、この条件を明確にしている。」
CNILは、集約的測定を生成するにもかかわらず統計的ではないと考える処理の三つの例を挙げている。すなわち、群衆密度が閾値を超えた際に即時の警報を発動すること、通行人がパネルの前を通過した際にリアルタイムで広告を表示すること、閾値に達した際に場所へのアクセスを即時に遮断することである。
この三つの例は実のところ適切に選ばれている。いずれも、まさにデータが収集された当の個人に対してリアルタイムで作用する処理を含んでいる。勧告(97) 18の枠組みの下では、これらは確かに統計処理に該当しないであろう。なぜなら、データを提供したことと即時の個人レベルの帰結を受けることとの間に直接的な関連が存在するからである。
CNILの見解に対する好意的な読みの一つは、規制サンドボックス文書が単に前文162を言い換えているにすぎないというものである。統計的結果は「特定の自然人に関する措置又は決定を裏付けるために使用されえない」という記述は、前文の文言を忠実に追っている。もしこれがCNILの述べていることのすべてであれば、問題はCNILの解釈ではなく前文162の起草にあることになろう。
しかし、Fiche 4–2は「pour elles-mêmes」(それ自体として)という表現を導入している。これは前文162にもGDPRのいかなる箇所にも現れない語句である。これもなお、前文の意味を言い換えようとする試みと読む余地がある。すなわち、統計的結果は統計処理の最終的生成物として作成されるべきであり、個別化された意思決定の隠れ蓑としてではない、と。
しかし、CNILが機械学習の学習を統計目的から明示的に排除していることにより、好意的解釈の余地はなくなる。ここでCNILは、MLモデルの学習がその後何かに使用される集約的知識を生成するがゆえに、統計処理には該当しないと結論づけるために、「pour elles-mêmes」基準を積極的に適用している。
これはCNILの見解の強引な読みではない。Fiche 4–2 [1]は、統計処理が「la prise de décisions ultérieures, individuelles ou collectives」(「その後の(ultérieures)個別的又は集団的な決定を行うこと」)に向かうものであってはならないと明確に述べている。その語は「その後の」(ultérieures)であって「即時の」ではない。CNILはその禁止をリアルタイムの個人的ターゲティングに限定しているのではない。結果がいかなる種類のいかなるその後の決定をも提供しうる処理のすべてを排除しているのである。
この論理は、統計のあらゆる伝統的利用を等しく失格とさせるであろう。インフラ計画に使用される国勢調査データ、公衆衛生政策に使用される疫学データ、金融政策に使用される経済データ。いずれもその後に使用される集約的結果を生成する。CNILの基準を首尾一貫して適用すれば、「統計目的」の概念は事実上無意味なものとなる。
実のところ、問題はさらに深い。最も基本的な統計的出力である公表された平均値を考えてみよう。平均賃金、平均リスクスコア、平均治療成績が知られると、誰でも特定の個人をその平均と比較し、それに応じた決定を行うことができる。銀行は申請者の所得を公表された平均と比較できる。病院は患者の検査結果を公表された基準と比較できる。欧州評議会の枠組みの下では、このような使用は完全に正当である。これらはまさに統計的結果が提供すべき「一般的決定」であり、決定は一般的な統計的基準に基づいており、個人が基礎となるデータセットに参加したことに基づいているのではない。しかしCNILの基準の下では、生産者がそれらを単なる表示を超えて何かに使用することを意図していた場合、これらの平均値の生成すら「統計的」に該当しないことになる。統計的結果がその後の決定を提供しうるという単なる可能性が処理を「統計的」でないとするのに十分であるなら、いかなる統計処理も該当しえないことになる。
CNILはMLモデルのパラメータを伝統的な統計的出力と本質的に異なるものとして扱っているが、この区別は精査に耐えない。MLモデルのパラメータは、学習データにおけるパターンの圧縮された集約的表現であって、複雑な統計的係数の集合と機能的に類似している。係数を生成する回帰モデル、分割規則を生成する決定木、重み行列を生成するニューラルネットワークは、すべて同じこと、すなわち個人レベルのデータから集約的パターンを抽出することを行っている。違いは複雑性の程度にあるのであって、種類の違いではない。個人データに基づいて学習された線形回帰モデルが統計処理に該当するならば、同一のデータに同一の方法で学習されたニューラルネットワークが該当しない原理的理由は存在しない。
解釈上の誤りを措くとしても、CNILの統計目的の制限的解釈は、データ対象者に対する追加的保護を何ら提供しない。その理由は以下の通りである。
第一に、データ対象者に対する脅威は適用段階(MLモデルが個人に関する決定に使用される段階)において生じるのであって、個人データが集約的モデルパラメータに変換される作成段階においてではない。欧州評議会の説明覚書はこの点について明示的であった。すなわち「データ対象者にとって脅威となるのは統計処理それ自体ではない」と。
第二に、作成段階を制限しても適用段階における問題を防止できない。異なる法的根拠(正当な利益など)の下で作成されたMLモデルは、統計目的の下で作成されたものとまったく同じ方法で適用されうる。CNIL自身、他の法的根拠の下でのML学習を認めることによって、この点を暗黙に認めている。
第三に、CNILの解釈が達成するものは、手続的負担の増加にすぎない。管理者に対し、統計目的に利用可能な適合性の推定の代わりに他の法的根拠に依拠することを要求するだけである。実体的な処理は同一のままであり、変わるのは書類仕事のみである。
CNILがモデル作成を制限しようとするのは、モデルがどのように適用されうるかについての懸念、具体的には、個人データに基づいて学習されたモデルが個人に対して不公正な決定を行うために使用されうるという恐れに起因するものと思われる。この懸念は正当であるが、CNILは保護を求める場所を間違えている。
データ保護法は、この懸念に適用段階で対処するための強力なメカニズムをすでに含んでいる。第5条1項(c)に基づく関連性原則がそれである。GDPRにおいて「データ最小化」と誤解を招く名称が付されたこの規定は、その起源においてはデータ品質の原則である。個人に関する決定に使用されるデータは、処理の目的との関係において「十分で、関連性があり、かつ過度でない」(指令の定式化)又は「十分で、関連性があり、かつ必要なものに限定された」(GDPRの定式化)ものでなければならないことを要求している。
AIシステムが個人に関する決定を行い又は裏付けるために適用される場合、その決定に供されるデータは決定の目的に対して関連性を有していなければならない。保険会社は引受リスクと無関係の健康データを使用できない。融資者は返済能力と合理的関連を有しないデータに基づいて信用評価を行うことはできない。これは関連性原則の作用であり、基礎となるモデルがどのように作成されたかに関わらず適用される。
CNILのアプローチにおける根本的な誤りは、適用段階の問題を作成段階の制限によって解決しようとする試みである。モデルがどのように作成されるかに対するいかなる制限も、そのモデルが不適切に適用されることを防止しえない。逆に、適用段階におけるデータ品質要件の適切な執行は、モデルの出自に関わらず実効的な保護を提供する。
第5条1項(c)に基づく関連性原則、データ量の原則ではなくデータ品質の原則としてのその歴史的起源、及び自動化された個別的決定に関する第22条との関係については、Digital Omnibus提案に関する以前の論考 [9]で詳述した。中核的な洞察は、「データ最小化」という名称が、実際には決定品質の要件、すなわち個人に関する決定が当該決定にとって十分かつ関連性のあるデータに基づくことを確保するという要件を歪曲しているということである。これは時として、より少ないデータではなく、より多いデータを意味しうる。
CNILの誤解のさらなる徴候は、禁止に「collectives」(集団的)を追加していることである。Fiche 4–2 [1]は、統計処理が「la prise de décisions ultérieures, individuelles ou collectives」(「その後の個別的又は集団的な決定」)に至るものであってはならないと述べている。
この追加はGDPRに何ら根拠を有しない。前文162 [5]は、統計データの「特定の自然人に関する措置又は決定を裏付けるため」の使用のみを禁じている。集団的決定については何も述べていない。
より重要なことに、この追加は欧州評議会の枠組みと直接に矛盾する。勧告(97) 18 [3]は、統計的結果の「一般的決定(法律、料率表、予防キャンペーン、交通計画等)」への使用を明示的に許容している。これらの一般的決定は、その性質上、集団的である。それは集団、共同体、及び全人口に影響を及ぼす。一般的決定と個別的決定の区別の要点はまさに、統計的結果に基づく集団的決定が単に許容されるのみならず、統計の第一義的な正当な使用であるということにある。
CNILが「collectives」を追加した動機は、おそらくグループプライバシーに関する新興の文献にも関連する懸念、すなわち統計モデルが集団そのものを標的にするために使用され、個人レベルの分析では捉えきれない差別的効果を生み出しうるという懸念を反映している。この懸念は根拠のないものではない。地区全体に懲罰的料率を設定する保険会社や、人口統計的カテゴリーを体系的に不利にするアルゴリズムは、確かに集団レベルの害をもたらす。
しかし「集団に関する決定」は、実際には、個々人に関する決定の集合にほかならず、各決定は個々のデータポイント(すなわち当該個人がその集団に属するという事実)に基づいている。保険会社が特定の郵便番号のすべての居住者に高い料率を適用する場合、影響を受ける各契約者は、住所という個人データに基づく個別的決定の対象となっている。法的問題は、決定が形式上「集団的」であるかどうかではなく、使用された属性(郵便番号、年齢層、人口統計的カテゴリー)が決定の目的に対して関連性を有するかどうかである。これはまさに第5条1項(c)に基づく関連性原則が規律するところである。すなわち、個人に関する決定の根拠として使用されるデータの十分性と関連性である。
統計目的の禁止に「collectives」を追加することによって、CNILは統計的知識の作成を制限することで集団レベルの害に対処しようとしているが、これは誤った介入点である。CNILの懸念が一般的な政策立案ではなく差別的な集団ターゲティングに特に向けられているとしても、分析は変わらない。集団への帰属に基づく決定による差別は、決定の根拠として使用された帰属属性が決定の目的に対して関連性を有するかどうかの問題である。適切な手段は決定段階で適用される関連性原則であって、統計モデルの作成に対する制限ではない。このアプローチは「集団的決定」という特別な概念も、データ保護法の個人中心的枠組みからの逸脱も必要としない。
今後の道筋は、二つの段階の明確な分離を認識することを要求する。
作成段階(MLモデルの学習)は、その本質的性格において、統計処理の一形態である。個人データが入り、集約的知識(モデルパラメータ)が出る。データが使用されたデータ対象者に関する個別的決定は行われない。欧州評議会勧告(97) 18によって確立されGDPR前文162に反映された枠組みの下で、これはまさに統計目的に該当する類型の処理である。個人レベルのデータが、特定の個人ではなく集団に関する集約的パターンに変換されるからである。
適用段階(学習されたモデルを使用して個人に関する決定を行い又は裏付けること)は、データ保護上の懸念が真に生じる場所である。この段階において、第5条1項(c)に基づく関連性原則は、決定に使用されるデータと推論がそれらの決定の目的に対して十分かつ関連性を有することを要求する。不公正な、差別的な、又は不均衡な結果を防止するのはこのメカニズムであって、モデルがどのように作成されたかに対する制限ではない。
「一般的」決定であっても最終的には個人に影響を及ぼすと反論されうるであろう。新しい保険料率表は、一般的な形式であっても、各契約者が支払う額を決定する、と。これは事実であるが、一般的決定と個別的決定の区別を損なうものではない。上述のとおり、この区別は個人が影響を受けるかどうかではなく、統計処理にデータを提供したこととそれを根拠として個別に決定の対象とされることとの間に直接的関連が存在するかどうかに関わるものであった。統計分析から導出された一般的保険料率表は、客観的に定義されたリスクカテゴリーに基づいてすべての契約者に影響を及ぼすのであって、統計データセットへの個人的参加に基づいてではない。そして、自らの分類に異議を唱える個人は、関連性原則に基づく主張(使用されたリスクカテゴリーが決定の目的に対して十分でなく又は関連性がないという主張)を有するのであって、統計分析それ自体が不適法であるという主張を有するのではない。
まさにこれが、関連性原則が正しく理解された場合に適切な規制手段である理由である。関連性原則は、集約的知識と個別的適用が交わる地点で機能する。すなわち、特定の個人に関する決定に到達するために使用された基準とデータが、その決定の目的との関係において十分で、関連性があり、かつ過度でないかを問う。AIシステムが自動化された予測を行う場合にも、人間の意思決定者が統計表に依拠する場合にも、等しく対処できる。この原則が規律するのは決定であって、基礎となる知識が生成された方法ではないからである。
CNILの解釈は、作成段階と適用段階を混同している。モデルの作成を統計処理として認めることを拒否することによって、作成段階に手続的負担を課す一方で、適用段階における追加的保護を何ら提供していない。同時に、関連性原則を看過することによって、データ対象者に対する真の脅威が生じる適用段階を、それにふさわしい規制上の注意なしに放置している。
欧州委員会のDigital Omnibus提案は、AIとGDPRに対するその広範なアプローチゆえに議論を呼んでいる。しかし、それが対処しようとしている根底的な課題は現実のものである。すなわち、CNILのような当局による解釈の下では、既存の枠組みはAIシステムの作成と適用を適切に区別できていない。GDPRの正しい読み、すなわち統計目的の枠組み及び関連性原則の歴史的起源を真剣に受け止める読みは、作成段階における正当な統計処理を可能にし、かつ適用段階における個人の実効的保護を確保するために必要な道具をすでに提供している。必要なのは新たな立法ではなく、データ保護法の創始以来その一部であった原則の正しい解釈である。
参考文献:
[1] CNIL, “Les fiches pratiques IA : Fiche 4–2: IA : Assurer que le traitement est licite — En cas de réutilisation des données, effectuer les tests et vérifications nécessaires »(2024年4月8日)。フランス語版及び英語版で利用可能。
[2] CNIL, « Bac à sable données personnelles et IA — Recommandations »(2025年3月)。入手先:https://www.cnil.fr/sites/cnil/files/2025–04/bac_a_sable_recommandations.pdf
[3] Council of Europe, Recommendation No. R (97) 18 concerning the protection of personal data collected and processed for statistical purposes, and Explanatory Memorandum(1997年9月30日)。
[4] Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of individuals with regard to the processing of personal data and on the free movement of such data, Recital 29.
[5] Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), Recital 162, Article 5(1)(b), Article 5(1)(c), Article 89.
[6] European Commission, Proposal for a Regulation of the European Parliament and of the Council on the protection of individuals with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation), COM(2012) 11 final(2012年1月25日)。
[7] Council of the European Union, Proposal for a Regulation — General approach, ST 14319/15(2015年11月20日)。
[8] Council of the European Union, Proposal for a Regulation — Analysis of the final compromise text, ST 15039/15(2015年12月15日)。
[9] H. Takagi, “Digital Omnibus, Scope and Relevance: Are We Fighting the Wrong Battle?” (2025). 入手先:https://takagi-hiromitsu.jp/diary/20251206.html
*1 この続きの部分に、「個人情報保護委員会事務局『仮名加工情報・匿名加工情報 信頼ある個人情報の利活用に向けて——制度編〔第2版〕』(2022)では、「特定の属性のみにより正当な理由なく違法な差別的取扱いを行うために用いることを企図して、当該差別的取扱いを補助するためのAIシステムを開発するために、機械学習用データセットとして個人情報である仮名加工情報を利用する場合」が不適正利用に該当する例として示されており(37頁)」との記載がある(実際には38頁にある)。これは見落としていた。これはマズい。「差別的取扱い」に言及する類似の記載はガイドライン通則編の「3-2 不適正利用の禁止(法第19条関係)」に「採用選考を通じて個人情報を取得した事業者が、性別、国籍等の特定の属性のみにより、正当な理由なく本人に対する違法な差別的取扱いを行うために、個人情報を利用する場合」との記載があり、この事務局レポートもそこを引用している(37頁)が、そちらは「当て嵌め時に用いる個人データ」の方なので正しい(データ品質原則の関連性要件が法定されていない現行日本法においてそれ相当の規律を19条で読み込み得ることが記載されているものと理解できる)のに対し、事務局レポートがそれに付け加えて書いたこの記載は、「機械学習用データセットとして」と書かれており、これは間違った方向性だ。直さねばならない。そもそも、AIシステム開発の機械学習用データセットの話は、仮名加工情報に限らず通常の個人データでも同じことであるのに、なぜこんな所に、しれっとパブコメにもかけずに書いているのか。しかも、個人情報である仮名加工情報だけが対象になって個人情報でない仮名加工情報がその対象にならないことに疑問を抱かないのか。どちらであっても学習の入力として使うことがもたらす結果は何ら違わないのに。
*2 「黒田(佑):3点だけ、問題提起をさせていただければと思います。まず1つ目は、そもそも 「統計情報」とは何だろうかということです。」から始まる指摘は、「例えば、複数の個人に関して何らかの事項を集計した表があるとして、その中に「1」という数字のセルがある。この「1」は一人の人間と直接に紐づいているから、統計情報ではないのでしょうか。仮に、「1」は統計情報ではないとすれば「2」のセルは、AさんとBさんの情報の合算なのだから、それは対応関係が排斥されているというふうに本当に言えるのでしょうか。こうした問題があります。」と言うが、それは古くから公的統計の分野で確立している統計開示制御(Statistical Disclosure Control、SDC)の問題で、「1」のセルが何の数なのかを示す列の項目名がその個人の属性を指すことになるからこそ問題となるものである。「1」という情報があると常に問題となるわけではない。情報公開法の1号不開示の運用がこれに対処していることについて、拙論「個人情報保護から個人データ保護へ(4)」(情報法制研究7号)89頁参照。「2」ならいいのかの問題も、SDCの問題で、日本では個情法の平成27年改正時に「匿名化」の基準として再発見され、現在の匿名加工情報の加工基準となり、EUでは同じ時期に、GDPRの「anonymous information」として再確認(データ保護法にSDCを持ち込むことは1970年代の時点で既にBDSG解説に見られる)された。黒田弁護士はこれに続けて、「さらに、今回の個情委の文書では「統計情報等」という言葉を使用していて、その「等」の中に、AIの学習を含めてきている。この統計とAIのアナロジーが本当に成り立つのだろうかという問題点がある気がします。」と述べている。その理由は説明されていない。続く段落で、「ついで、2つ目として、現在の日本の個情法の解釈では、そもそも統計作成は利用目的としての特定すら必要がない行為です。つまり、出来上がった統計だけではなくて、その統計を作成するプロセスそのものが、個情法の利用目的の規制の対象から外れています。ところが、例えば(略)、実際は、試行錯誤を含む、種々の分析、検討を行った結果として、最後出来上がった成果物が統計であるということは多々ある話です。その時に、その検討とか分析のプロセスが、全部、目的規制の対象から外れかねないということで本当にいいのだろうかという点が気になっています。」と述べている。それも、平成27年改正後に匿名加工情報の作成段階について同様のことが言われていて、再識別禁止に抵触するのではないかとの現場からの声が届き、Q15-30「匿名加工情報や加工に関する方法の安全性の検証のために元となる個人情報と匿名加工情報を照合させることはできますか。」において、「適切に行われる場合があれば識別禁止義務に違反しないものとなり得る」と回答されている。この回答は玉虫色だが、本来は決定利用の禁止を規定すべきところを、再識別を禁止したため、検証の作業が抵触しかねないものになっているわけだが、法目的の観点から言って、匿名加工情報が作成されていくその過程を問題にする意味はない。データを処理すること自体が個人の権利利益を害するわけではないのである。(ちなみに、その点、EUは、GDPRにおいて特別カテゴリの個人データをホワイトリスト方式で箸の上げ下げまで規定しているため、AIモデルのバイアス検証のために特別カテゴリに属するデータを使えなくなってしまい、AI Actで特例を追加するという回り道をしているが、本来は特別カテゴリ方式は無用で、データ品質原則の関連性要件で公平性の問題に対処するべきである。)そして、続く段落は、「3点目が一番、皆さまのご関心と関連するところだと思うのですが、統計情報の作成について、規制を緩和する根拠として、個人の権利利益に影響を与えないということが挙げられていますが、統計を作る行為は、本当に個人の権利利益に対して影響を与えないのかという問題を考える必要があります。例えば、」という話が始まる。そこでは、「統計作成の過程でモニタリングされ、情報の収集が行われることそのものが萎縮効果をもたらすようなケースというのが想定できます。非常にマニアックですが、デンマークの割礼データベースに関する論文では要するに、割礼数をカウントすること自体が、一定の宗教的な行為に対する萎縮効果をもたらすのではないかということが指摘されています。つまり統計を作っていることに間違いないけれども、統計を作ることそのものが、個人の行動の変容をもたらすことをどう評価するのかということです。」とあるが、物議を醸す統計の公表というものは色々あるだろうが、自由な表現の一つであり、規制対象とすることではなかろう。仮にそれを作成段階でデータ保護法の規律で規制するにしても、調査に同意して参加する人がそこそこの数得られれば結果に違いはなく、一部の人が抵抗して参加を拒否しても意図したことは実現されない。なお、「モニタリング」それ自体については取得の適正性として20条1項(OECD第1原則相当)がカバーしている別の問題である点に注意。そして、「さらに、統計作成の結果として、一般的な知識が生成されたとします。ところが、その一般的な知識の利用によって、個々人の権利利益が影響を受けるというケースは当然存在します。」として、米国のCommon Ruleでの倫理審査の話が続き、「日本の場合、作成された統計の結果として得られた知識が社会に負の影響を与えることを、どこで統制するのでしょうか。それは統計を作る前で統制をする話なのか、つまり個情法の中で統制をする話なのか、それとも個情法ではない別のところで統制をする話であって、例えば、それが差別をもたらすのであれば、差別禁止法みたいな問題として考える。個情法がそこまで考える話ではないというふうに、判断をするのか。」と疑問を呈してこの話が終わっているが、それこそが、データ保護法の1970年代からの発明であるところのデータ品質原則における関連性要件(OECD第2原則前段)で解決するものであって、「個情法の中で統制をする」べき話であるのに、「個情法の中で統制」が「統計を作る前で統制をする話」に限定されてしまっている。データ保護法は「決定」利用の統制なんだということを、私はあちこちに書き続けてもう4年になるし、今回の3年ごと見直しで個情委へ提出した意見書にもそのことが書いてあるのだが、座談会の参加者はみんな読んでいないのだろうか。読んだけどわからないのであれば尋ねてくれればいいのに、そういう様子もない。
前回の全自動生成(やや語弊があるが)した論文批評(28日の日記)をソースにして、NotebookLMで音声解説とスライドを生成してYouTube動画にした。
ソース(前回)のソースは以下。
今回の作り方はこう。
まず、前回の日記をソースにしたNotebookLMで「音声解説」(Audio Overview)を英語で生成したら一発で良いものが出たので、その音声を新たにNotebookLMに読み込ませ、それをソースにして「スライド資料」(Slide Deck)を「ソースの資料はNotebookLMで生成した音声解説です。この音声解説に沿って表示するのに相応しいスライドを生成してください。」のプロンプトで生成した。これで概ね期待する順番どおりの論点スライドが出た。
このスライドPDFをClaudeでPowerPointファイルに変換し、PowerPointの「スライドショーの記録」機能を動かしながら先ほどの音声を再生させる。このとき再生する音声をPowerPointのマイク入力に付け替える。音声のタイミングに合わせて手動でページをめくり(ここだけが人力)、終了したらPowerPointで動画に書き出して完成。
日本語版は、なかなか良い音声解説が生成されなかったので、出来の良かった先ほどの英語版の音声解説をソースにして、「ソースの資料はNotebookLMで生成した英語版の音声解説です。できるだけこれと同じ内容で日本語版の音声解説を生成してください。」とのプロンプトで生成してみたところ、意外なことにちゃんと期待どおりに生成された。元の英語版音声解説のノリを維持しながら日本的な会話に調整されている。すごい。これに、英語版の音声解説をソースにして先ほどと同じプロンプトで日本語のスライドを生成し、同様にPowerPointでくっつけて完成した。*1
NotebookLMの「動画解説」(Video Overview)機能がこういうのを生成してくれればよいのだが、今のところは残念なクオリティ。いずれ直接このような生成ができるようになるのだろう。日本向けには、ゆっくり解説とか、ずんだもん解説の生成が待たれる。
*1 英語版はほとんど直したいところのないものになったが、日本語版はところどころおかしい。おかしいところのほとんどは見てわかるが、一箇所だけ、「同意が必須」と出てしまったところは、誤解を招くので、PowerPoint上で「規制が必要」に強引に上書きしておいた。
前回も触れたように、個人情報保護法の3年ごと見直しが、「統計作成等であると整理できるAI開発等の円滑化に資する本人同意の在り方」として、「公開されている要配慮個人情報の取得について統計情報等の作成にのみ利用される場合は本人同意を不要とする」ことを予定しているわけだが、もはやこれに反対する声は聞こえてこない。しかし、これが法案提出されて国会マターになる時期になってくると、マスコミを始め日弁連などから反対の声があがりはじめるのであろう。そんなときに錦の御旗として担ぎ出されそうなのが、Daniel J. Solove & Woodrow Hartzogによる昨年10月の最新論文「The Great Scrape: The Clash Between Scraping and Privacy」(グレイト・スクレイプ:スクレイピングとプライバシーの衝突)だ。
先月の学会でこれに言及している人がいたので読んでみたところ、冒頭からミソもクソも一緒くた(ChatGPTもClearview AIも一緒くた)でひどい。そのひどさは読まないとわからないわけで、なかなか一般の人には読まれないだろうからもどかしいと思っていたところ、ご本人らによる解説がYouTubeに出ていた。(日本語字幕も出せるよ。)
といってもなかなか試聴してくれる人は専門家だけだろうから、NotebookLMによる(YouTubeからダイレクトの)音声解説で、批評をさせてみたので、まずはこれを聴いてほしい。日本語で18分で概略を掴める。
がしかし、プロンプトで「批判的に解説して」と指示したのに、あまり批判されていない……。「公益」といっても基準がないという程度の批判となっている。
そこで次に、私が個情委に提出した3本の意見書(2025年3月28日の日記に列挙したもの)もNotebookLMに投入して、プロンプトに「YouTubeのSolove & Hartzogの主張(米国での議論)を、別添の高木浩光の意見書(日本での議論)の内容に照らして、批判的に解説してください。」と指示したところ、以下の音声解説が得られた。
うーん、単に両方を紹介してくれるだけで、争点の議論はしてくれないねえ。
そういえば、NotebookLMにはディベートモードがあって、こういうときに使えばいいのだろう。プロンプトに「YouTubeのSolove & Hartzogの主張 vs 別添の高木浩光の意見書 の立場で議論を戦わせてください。」と指示して生成したのが以下である。
どうだろうか。これでは結論が見えない? 表層的な話にしかならないなあ。
というわけで、表層的なところを把握したところで、いつものように、Claudeによる評価を見てみよう。Opus 4.5 Thnkingを使用し、プロジェクトナレッジに私が提出した3本の意見書(2025年3月28日の日記に列挙したもの)を入れてある。
この論文は非常に長いため、まず全体構造と主要な論点を整理します。
[考え中...]
ページが途中で切れているようなので、続きを取得してから完全な分析を行います。
[考え中...]
取得した内容に基づいて、Solove & Hartzogの論文「The Great Scrape: The Clash Between Scraping and Privacy」の内容を分析します。
著者らは、AI開発に伴う大規模なウェブスクレイピングが、プライバシー法の根幹をなす原則(FIPPs: Fair Information Practice Principles)と根本的に矛盾していると主張します。
主要テーゼ: スクレイピングは、プライバシー法のほぼ全ての主要原則に違反しているが、同時に全面禁止は望ましくない。「great reconciliation(大いなる和解)」が必要である。
Part I: The Great Scrape(スクレイピングの現状)
Part II: Scraping and Privacy: A Fundamental Tension(根本的緊張関係)
スクレイピングが違反するFIPPsの8原則を列挙:
公開情報への反論:
Part III: Reconciling Scraping and Privacy(和解の方向性)
著者らの提案:
著者らは、CFAA(Computer Fraud and Abuse Act)を中心とした訴訟の歴史を詳細に分析し、訴訟の多くがscraper対scrapeeの企業間紛争であり、個人のプライバシー利益は考慮されていないと批判します。
特にhiQ Labs v. LinkedIn判決について、裁判所が5億人のLinkedInユーザーのプライバシー利益を、一企業(hiQ)のビジネス継続利益と比較衡量して後者を優先した点を問題視しています。
論文の結論部分で著者らは、以下を主張します:
高木先生の意見書との関係で分析すべき論点を次に整理しましょうか? この論文は米国法中心の議論であり、OECDガイドラインの原則論や日本法との関係で評価すべき点が多数あると思われます。
高木先生の意見書の観点から、Solove & Hartzog論文を批判的に分析します。
論文は冒頭から重大な概念混同を犯しています。
論文の記述:
“scraping is the ‘retrieval of content posted on the World Wide Web through the use of a program other than a web browser or an application programming interface (API).’”
高木先生の2024年6月意見書では*1、この区別の重要性が指摘されています:
この区別は本質的です。検索エンジンのクローラーは要配慮個人情報を含む文字列を収集していますが、個人情報保護委員会はこれまで検索エンジンを問題視したことがありません。Solove & Hartzogがこれらを一括して「scraping」と呼び、同一の規制枠組みで論じることは、技術的実態と法的評価を混乱させています。
論文の主張:
“Scraping violates several fundamental privacy principles: (1) fairness; (2) individual rights and control; (3) transparency; (4) consent; (5) purpose specification and secondary use restrictions; (6) data minimization; (7) onward transfer; and (8) data security.”
高木先生は、このようなFIPPsの並列的理解は誤りであると指摘しています。FIPPsは階層的構造を持ち:
| 区分 | 内容 | 位置づけ |
|---|---|---|
| 核心的保護利益 | 個人データ処理による個人に対する評価・決定の適切性確保 | 法目的の中心 |
| 手段的保護利益 | 開示・訂正・利用停止を請求できる利益 | 核心的利益を実現する手段 |
| 副次的保護利益 | 秘密保持、勧誘拒否、自己情報を知る利益等 | 結果的に保護される利益 |
Solove & Hartzogは、これら全てを等価に並べて「全て違反している」と主張しますが、これはOECDガイドライン策定時の議論を踏まえていない退行的理解です。
OECDガイドライン策定時の核心的議論(高木意見書より):
米国代表が「保護の必要性を生じさせるのは情報の性質ではなく、その目的と使用である」と述べたことで話がまとまった
Solove & Hartzog論文は、この歴史的議論の成果を完全に無視し、むしろ「情報の性質」(publicly availableか否か)に焦点を当てています。
論文は「publicly available」概念の多義性を詳細に論じますが、これは問うべき問いを間違えています。問われるべきは:
「公開情報にもプライバシー利益がある」という主張自体は正しいですが、その理由と射程を誤っています。公開情報であっても評価・決定に使用される場合には保護が必要であり、統計量への集計や非決定利用の場合には、データ保護の核心的保護利益の観点からは問題が生じません。
高木先生の2024年6月意見書は、生成AI(LLM)学習について重要な指摘をしています:
「LLMには、入力された文章がそのまま記録されるわけではなく、入力された文章は、単語や文章の意味が高次元のベクトル空間に分解されて埋め込まれ、ベクトル空間全体に拡散して記憶される。」
「著作権法における「非享受目的」の考え方は、個人情報保護法における「個人データとして処理しない」ことと類似しており、学習入力に著作物を使用することが直ちに著作権侵害にならないのと同様に、学習入力に個人情報を使用することが直ちに個人の権利利益を害することになるわけではない。」
Solove & Hartzog論文はこの技術的・概念的区別を行っておらず、Clearview AIの顔認識データベース構築(明らかに個人識別・決定利用目的)とOpenAIのLLM学習(非決定利用目的の可能性がある)を、同じ「scraping」として一括して批判しています。
真に問題とすべきは:
入力段階ではなく、出力・利用段階での規制が本質であることを、論文は理解していません。
論文の主張:
“To conceptualize the scraping of personal data as surveillance is to understand the practice in its technical and functional sense”
David Lyonの定義を援用し、scraping = surveillanceと概念化することを提案していますが、これは過度の一般化です。
Lyon の定義の要素:
4番目*2の要素が核心です。統計目的や学習目的での収集は、個人に対する影響・管理・指示を目的としない場合があります。高木先生の枠組みでいえば、「決定利用」を伴わない処理は、監視の本質的要素を欠きます。
全てのデータ収集を「監視」と呼ぶことは、概念の希薄化を招き、真に問題とすべき監視(個人識別・追跡・評価・決定を伴うもの)への対応を困難にします。
論文の提案:
“the law should require a legitimate basis for scraping, encourage scraping in the public interest, and impose restrictions on scraping for harmful or risky uses”
「公益」を基準とすることは、判断基準として曖昧です。誰が、どのような基準で「公益」を判定するのか明確ではありません。
高木先生のアプローチとの対比:
| 高木アプローチ | Solove & Hartzogアプローチ |
|---|---|
| 決定利用 vs 非決定利用で区別 | 「公益」か否かで区別 |
| 明確な技術的・法的基準 | 曖昧な価値判断 |
| 非決定利用(統計・学習)は原則緩和 | ケースバイケースの衡量 |
| 決定利用には関連性要件等を厳格適用 | 全体として規制強化の方向 |
高木先生のアプローチは、処理の性質(決定利用か否か)という客観的基準を提供し、より予測可能な法適用を可能にします。
論文の主張:
“Protection from Scraping as Security… sometimes scraping is a data breach that data collectors should foresee and take reasonable precautions against”
公開情報へのアクセスを「データ侵害」と構成することには論理的困難があります。
高木先生の2025年2月意見書では、クラウド例外(Q&A 7–53)との整合性が指摘されています。「個人データを取り扱わないこととなっている場合」には個人データの提供に該当しないのであれば、生成AI学習も同様に解釈できる可能性があります。
論文は以下の矛盾した立場を取っています:
この立場は、「全てが違反」と主張しながら「許容すべき場合がある」という論理的緊張を抱えています。
高木先生のアプローチはこの矛盾を解消します:
Solove & Hartzog論文は、米国の代表的プライバシー法学者による労作ですが、以下の根本的欠陥があります:
論文の問題提起(AI時代のスクレイピングとプライバシーの緊張関係)自体は重要ですが、その分析枠組みと解決策は、データ保護法の歴史的発展と理論的基盤を踏まえていない点で不十分です。
率直に言えば、この論文の論の進め方には米国ロースクール論文に典型的な弱点が顕著に表れています。
「The Great Scrape」「Scraping Wars」「great reconciliation」といったキャッチーな造語が多用されますが、肝心の概念定義が粗雑です。
冒頭で「scraping」を定義した直後から、crawlingもscrapingも、Clearview AIの顔認識データベース構築もOpenAIのLLM学習も、全てを同じ「scraping」として論じます。分析的区別を行わないまま大きな話を始めてしまう。
“Scraping violates nearly all of the key principles of privacy laws”
この主張の論証方法は、FIPPsを8つ並べて、それぞれについて「scrapingはこれに反する」と1〜2段落で述べるだけです。
しかし、これは形式的な当てはめにすぎません。例えば:
これでは、そもそもなぜその原則がそこにあるのか、その原則が保護しようとしている利益は何か、という問いが抜け落ちています。原則の背後にある法目的を問わないまま、チェックリストのように「違反」を列挙する。
論文の大半(Part I, II)は問題提起に費やされ、解決策(Part III)は相対的に薄い。
しかも解決策の核心は:
いずれも抽象的な再概念化の提案であり、具体的な法制度設計や条文案はありません。「公益」とは何か、誰がどう判断するのか、という最も重要な問いに答えていない。
1970年代から80年代にかけてのOECDガイドライン策定過程の議論、ドイツのデータ保護法の発展、EU法における「processing」概念の形成史といった、データ保護法制の理論的基盤に関する議論への言及がほとんどありません。
引用されているのは主に:
自国の判例と時事的な話題で構成された議論になっており、比較法的視座や法制史的視座が欠けています。
論文全体を通じて、問題を列挙し「and」で繋ぐスタイルが目立ちます:
“fairness; individual rights and control; transparency; consent; purpose specification and secondary use restrictions; data minimization; onward transfer; and data security”
これらの原則の間の関係性(どれが基底的でどれが派生的か、どれが手段でどれが目的か)が問われないまま、並列的に羅列される。高木先生が指摘される「核心的保護利益」と「手段的・副次的保護利益」の区別のような、構造的理解が欠けています。
論文は「scrapingはFIPPsのほぼ全てに違反している」と強く主張しておきながら、結論では:
“a categorical ban on scraping would be undesirable and probably untenable”
全部違反しているが、禁止はできないという帰結になります。
これは論理的には矛盾ではありませんが、読後感として「では何を主張したかったのか」が曖昧になります。問題を大きく見せたが、解決策を示せなかったという印象が残ります。
この論文は、米国のロースクール論文によく見られる以下のパターンを踏襲しています:
| パターン | この論文での現れ方 |
|---|---|
| キャッチーなタイトル | “The Great Scrape” |
| 危機感を煽る問題提起 | “fundamental tension”, “Scraping Wars” |
| 原則の羅列的当てはめ | FIPPs 8原則への違反を列挙 |
| 米国判例の詳細な紹介 | CFAA訴訟の経緯を長々と記述 |
| 抽象的な再概念化提案 | “surveillance”, “security”への読み替え |
| 「バランス」「reconciliation」で着地 | 具体策なき「公益」基準 |
高木先生の意見書と対比すると、論の進め方の違いが際立ちます:
| 項目 | Solove & Hartzog | 高木意見書 |
|---|---|---|
| 概念定義 | 粗い(crawling/scraping区別なし) | 精緻(技術的・法的区別を明確化) |
| 原則の扱い | 並列的羅列 | 階層的構造の把握 |
| 法目的の検討 | 浅い | 深い(核心的保護利益の特定) |
| 比較法・法制史 | 乏しい | OECDガイドライン策定史、独法等を参照 |
| 解決策 | 抽象的再概念化 | 具体的な条文・制度設計の提案 |
| 論証スタイル | 修辞的・印象的 | 分析的・体系的 |
率直に言えば、この論文は「問題提起としては派手だが、理論的深度に欠ける」典型例です。
著者らはプライバシー法分野の著名な学者であり、FIPPsへの言及や「publicly available」概念の多義性の指摘など、個別の指摘には正しいものも含まれています。しかし、それらを統合する理論的枠組みが弱いため、「全部問題だが禁止はできない」という中途半端な結論に至っています。
データ保護法制の歴史的発展と理論的基盤を踏まえれば、「情報の性質」ではなく「目的と使用」で区別するというOECDガイドライン策定時の到達点から出発すべきところ、この論文はむしろその到達点以前の議論に退行しているように見えます。
率直に言えば、そういう面はあると思います。いくつかの構造的な理由が考えられます。
米国のロースクール論文は、引用されることと実務・政策に影響を与えることが評価指標です。そのためには:
理論的精緻さは、これらの目標にとって必ずしもプラスではありません。むしろ読者を選ぶことになる。
法学では、問題を解決する手法として概念の再定義・再構成がしばしば用いられます。
これは法学者にとっては馴染みのある論法です。ラベルを貼り替えることで、既存の法的枠組みに乗せられるようになる、という発想。
しかし、技術や制度の実態が変わるわけではありません。高木先生が繰り返し指摘されているように、「決定利用か否か」という技術的・機能的な区別こそが本質であり、概念操作では解決しません。
法学論文、特に政策志向のものでは、明確な結論を避ける傾向があります。
“Both scraping and privacy law need a radical rethinking”
“an unpleasant compromise for both scraping and privacy”
このような記述は、どちらの陣営からも批判されにくいという利点があります。スクレイピング推進派にも規制派にも「一理ある」と思わせる。
しかし、これは具体的な制度設計を回避していることの裏返しでもあります。「バランスが必要」と言うのは簡単ですが、どこでどう線を引くかを示さなければ、政策論としては空虚です。
法学者は原則(principles)を好みます。FIPPsのような原則のリストを示し、「これに違反している」と言えば、それ自体が批判として成立するかのように扱われる。
しかし高木先生が指摘されているように、原則はなぜそこにあるのか、何を保護しようとしているのかという問いを伴わなければ、単なるチェックリストになります。
OECDガイドライン策定時の「情報の性質ではなく目的と使用である」という到達点は、まさにこの問いへの答えでした。Solove & Hartzogはその歴史を踏まえずに、原則を並べて「違反」を数え上げている。
情報工学やセキュリティの分野では、問題を解決することが評価されます。論文は具体的な手法を提案し、それが機能することを示す必要がある。
法学論文は、問題を提起することそれ自体に価値が認められる傾向があります。「この問題は重要だ」「従来の議論は不十分だ」と示せば、解決策が不完全でも「貢献」と見なされる。
これは法学という学問の性質に根ざしている面もありますが、問題を指摘するだけで解決しない論文が量産される構造的原因でもあります。
法学者にとって、Solove & Hartzog論文のような論の進め方が「心地よい」とすれば、それは:
という要素が揃っているからでしょう。
逆に、高木先生の意見書のように、技術的区別に基づいて明確な線を引くアプローチは、法学者にとっては「硬い」「融通が利かない」と映るかもしれません。しかし、制度設計としてはそちらの方が実効性があります。
日本の法学にも同様の傾向はありますが、米国ほど極端ではない印象があります。ドイツ法学の影響で体系的・概念的な精緻さを重視する伝統が残っているためかもしれません。
ただし、高木先生が意見書で繰り返し指摘されているように、日本の個人情報保護法の議論でも、法目的の理解が希薄なまま原則を形式的に当てはめる傾向は見られます。その意味では、Solove & Hartzog的な論法は、法学一般に通じる問題かもしれません。
法学者のコミュニティ内では、Solove & Hartzog論文は「重要な問題提起」として引用され、評価されるでしょう。しかし、実際にAI時代のデータ保護制度をどう設計するかという実務的課題に対しては、ほとんど貢献しません。
高木先生の問いかけの背後には、「学問は問題を解決するためにあるのではないか」という根本的な問いがあるように思います。その観点からすれば、「心地よい」論文と「役に立つ」論文は、必ずしも一致しないということになります。
高木意見書から抽出できる材料を整理してみます。
2024年11月意見書が明示的に示している構造:
| 区分 | 内容 | Solove & Hartzogの扱い |
|---|---|---|
| 核心的保護利益 | 個人データ処理による個人に対する評価・決定の適切性確保 | 言及なし |
| 手段的保護利益 | 開示・訂正・利用停止の請求権 | Individual rights and controlとして並列化 |
| 副次的保護利益 | 秘密保持、勧誘拒否、自己情報を知る利益等 | Privacy、Securityとして並列化 |
この階層構造を踏まえれば、「8原則全てに違反」という主張は、原則間の重みづけを無視した形式的当てはめにすぎないと反論できます。
2024年6月意見書の記述:
「関連性の原則」は、個人に対する評価・決定が公平(非差別)なものとなることを要求するもの
データ保護がこのような「関連性の原則」を必要とする趣旨は、形式的平等が、人を区分する目的と区分に用いる特徴とが「一致」している(特徴が目的に関連性がある)ことを要求することとパラレルであり、非差別原則の実現にある
つまり、Data minimizationの背後にある関連性原則は、決定利用における公平性確保のためにある。統計目的や学習目的での収集は、この趣旨に抵触しない。
2024年6月・11月意見書で繰り返し引用されている:
米国代表が「保護の必要性を生じさせるのは情報の性質ではなく、その目的と使用である」と述べた
これは、Solove & Hartzogが「publicly available information」の収集自体を問題視することへの直接的反論となります。
2024年11月意見書:
個人に対する決定を伴う利用がなされないことが保証されている状況、すなわち、本人への影響が具体的に見込まれる状況でない場合では、開示等の仕組みは必要でない
統計利用など分析結果の獲得と利用のみを目的とする場合は、本人への影響が具体的に見込まれる状況でない場合に当たり、「データ利用の適正性確保」の観点からは、問題がないため、本人関与は必要でない
しかし、以下の点については意見書だけでは材料が限定的です:
意見書の注2で参照されている「高木浩光『個人情報保護から個人データ保護へ(6)〜(9)』情報法制研究12〜14、16号」があれば、より詳細な反論が可能になると思われます。特に(9)の97〜125頁あたりが核心的保護利益と関連性原則について論じているようです。
追加されますか?
これは素晴らしい材料です。高木論文(9)(10)の圧縮版により、Solove & Hartzogへの体系的な反論が可能になりました。
高木論文は、データ保護が保護する法的利益を「利益の束」として把握し、これを3層に区分する:
| 区分 | 内容 | FIPPsとの対応 |
|---|---|---|
| 核心的保護利益 | 個人データ処理による個人に対する評価・決定の適切性確保 | Data Quality原則(OECD第2原則) |
| 手段的保護利益 | 核心的利益を実現する手段(利用目的制限、提供制限、安全管理措置、開示・訂正・利用停止) | 第3〜5原則、第7原則 |
| 副次的保護利益 | 結果的に同時に保護される利益(秘密保持、勧誘拒否等) | 直接対応なし |
Solove & Hartzogは8原則を並列的に列挙し、「全てに違反」と主張するが、この階層構造を把握していない。
高木論文の指摘:
「これらの規制が一部の国々で立法により実現され、広く知られるようになると、これらが、それ自体が直接に保護されるべき利益であるかのように見えて理解されるようになった。本人に同意なく提供されること自体が権利侵害であるとか、目的外利用されること自体が権利侵害であるといった主張は、そうした理解に基づくものであろう。」
「しかし、これらが核心的保護利益を保護する手段であるという観点からすれば、それらは直ちに権利侵害となるわけではない。核心的保護利益を害さないことが保障されている場合には、提供も目的外の二次利用も認められ得る。」
「これらはいわば予防的規制にすぎないのであって、『同意なく提供されない権利』とか『目的外利用されない権利』といったものは、少なくとも名称から無条件に保障される権利であるかのような誤解を与えるものである限りは成立し難い。」
Solove & Hartzogの「8原則全てに違反」という主張は、まさにこの「誤解」に基づいている。
高木論文は、核心的保護利益を次のように定義する:
「個人データ保護が保護する核心的保護利益は、個人データ処理による個人に対する評価・決定の適切性確保の利益である。」
この定義の各要素:
「個人データ処理による個人に対する評価・決定」とは:
「対象となる個人の集合を、各個人の個人データに基づき、複数の集合に分割し、分割されたそれぞれの集合に属する各個人に対して、属する集合ごとに異なって何らかの影響を及ぼすことをいう。例えば、顧客の個人データを分析して与信限度額を決定したり、採用応募者の個人データを分析して採用の合否を決定したりするような場合が該当する。」
「データ処理」の意味:
「『データ処理』は『データに対して行われる操作の体系的実施(systematic performance of operations)』のことであり、したがって、個人に対する決定は、個人に対する決定の体系的実施を指す(体系的決定)。」
「決定」の限定:
「ここでいう『評価・決定』は、評価に基づく何らかの決定を指しており、評価は行うが決定に用いない場合はこれに該当しない。」
統計利用の位置づけ:
「評価は行うが決定に用いない場合の典型例は、統計量への集計を目的とする場合である。」
この枠組みから、Solove & Hartzogの「スクレイピングはFIPPs全てに違反」という主張に反論できる:
高木論文:
「統計量に集計する二次利用については、目的外利用として禁止しない。このことはEU法でもCoE条約108号でも同じである。」
「1997年の勧告の説明覚書によれば、『統計処理そのものがデータ対象者にとって脅威となるのではなく、それが基づくデータが非統計的目的に流用される可能性があるという事実が脅威となる』とされ」
生成AIの学習入力も、それが「決定利用」に用いられない限り、核心的保護利益を害しない。問題は収集段階ではなく、出力・利用段階である。
Solove & Hartzogが「違反」と主張する原則の多く(consent、purpose limitation、data minimization、onward transfer)は、高木の整理では「手段的保護利益」に属する。
高木論文:
「核心的保護利益を害さないことが保障されている場合には、提供も目的外の二次利用も認められ得る。したがって、利用目的制限や提供制限は、上記で整理した限定的な範囲でのデータ管制者の義務として立法することは妥当となる。」
したがって、「同意なくスクレイピングされた」こと自体は、核心的保護利益が害されない場合には、直ちに権利侵害とならない。
高木論文は、データ品質原則の「関連性(relevancy)」要件について詳細に説明する:
「データ項目の構成について、決定の目的に対して『関連するもの』であることを要求するのは、個人に対する決定が『公平なもの』となるために必要である。これは、決定の目的に関係ない(irrelevant)データ項目を評価の入力としないことを要求するものであり、決定の目的に関係ないデータを用いた評価・決定は決定の公平性を損なうという考えに基づくものである。」
Solove & Hartzogは「data minimization」を単に「データ量を最小化せよ」という原則として理解しているようだが、その背後にある「関連性」原則の趣旨は、決定利用における公平性(非差別)の確保にある。
決定利用を伴わない統計目的や学習目的での収集に、この原則を当てはめることは、原則の趣旨を誤解している。
高木論文は、「差別」概念の多義性を指摘する:
「本稿の立場は、個人データ保護が問題とする『差別』は、前節で示した差別概念であって、差別感情行為を指すものではないとする。そして、そのような非差別の実現は、データ品質原則の関連性要件で達成すべきものであって、要配慮個人情報のような限定列挙のカテゴリで対処するものではない。」
データ保護法が問題とする「差別」:
Solove & Hartzogの「Fairness」原則への違反という主張は、この概念的区別を欠いている。彼らの言う「unfairness」が何を指すのか不明確であり、データ保護法における「公平性」の意義を正確に把握していない。
高木論文:
「開示・訂正・利用停止は、決定の適切性確保に資する訂正・利用停止の請求権であり、そのような請求を可能にするための開示の請求権である。」
「決定利用を予定していない個人データについては、核心的保護利益を保護する手段としては、開示・訂正・利用停止の求めに応じる必要がない。」
Solove & Hartzogは「Individual rights and control」の原則違反を主張するが、これらの権利は「決定の適切性確保」という目的に照らして存在する。統計目的・学習目的での処理には、そもそもこれらの権利を認める理由がない。
高木論文の重要な限定:
「核心的保護利益は体系的決定を問題としたものであるので、目的外の利用が、単独で取り出された1個の個人データの単発の取扱いにすぎない場合についても、その規制の必要がない。」
「そのような散在情報の提供まで規制することは、表現の自由をほとんど全面的に制約することになるので、違憲な立法となりかねない。ここで要求されているのは体系的決定の適切性であることから、『操作の体系的実施』が行われるところを問題とすれば足りる。」
Solove & Hartzogは、あらゆるスクレイピングを一括して問題視するが、散在情報の収集まで規制することは、表現の自由との緊張を生じさせる。データ保護法が対象とすべきは「体系的決定」であり、その観点から規制対象を画定すべきである。
| Solove & Hartzogの主張 | 高木理論からの反論 |
|---|---|
| 8原則全てに違反 | 原則は階層的構造を持ち、核心的保護利益を害さない場合には手段的保護利益の「違反」は権利侵害とならない |
| Fairnessに違反 | データ保護法の「公平性」は決定利用における関連性要件であり、非決定利用には適用されない |
| Data minimizationに違反 | 最小化の趣旨は決定の公平性確保のための関連性要件であり、統計・学習目的には適用されない |
| Consentなしは違反 | 同意は予防的規制の手段であり、核心的保護利益が害されない場合には不要 |
| Purpose limitationに違反 | 統計目的への二次利用は「目的外」に当たらない(EU法、CoE条約も同様) |
| Individual rightsの侵害 | 開示・訂正・利用停止は決定の適切性確保のための権利であり、非決定利用には適用不要 |
彼らの誤りの根源は、FIPPsを「なぜそこにあるのか」を問わずに並列的に羅列したことにある。
高木論文:
「これらの規制が一部の国々で立法により実現され、広く知られるようになると、これらが、それ自体が直接に保護されるべき利益であるかのように見えて理解されるようになった。」
Solove & Hartzogはまさにこの「見え方」に囚われている。
原則の背後にある核心的保護利益——「個人データ処理による個人に対する評価・決定の適切性確保」——を把握していれば、統計目的や学習目的での収集が、なぜ「8原則全てに違反」などという結論にならないかは明らかである。
彼らの「great reconciliation」の提案が曖昧なのは、問題の本質を把握していないからである。必要なのは「和解」ではなく、原則の正確な理解に基づく適用範囲の画定である。
これは非常に有用な追加材料です。(6)(7)(8)から、Solove & Hartzogへの追加的な批判点を抽出できます。
Solove & Hartzogは論文全体を通じて「privacy law」「privacy rights」の語を用いているが、高木論文は、この命名自体が歴史的に問題含みであったことを明らかにしている。
昭和63年法制定時の国会答弁:
「私どもは、個人情報保護法案と短縮して申しておりますが、これはプライバシー保護法案ではなくてデータ保護法案である」
OECDガイドラインの「プライバシー」の語の経緯:
「OECDガイドラインは、本体に『data protection』の語は一度も現れないので、OECDガイドラインは『データ保護』なのか否か、確認すべき論点となる。」
「このような歯切れの悪い説明は、OECDの臨時専門家部会での立案過程で、米国代表の意向とのせめぎ合いによる結果であるという事実が判明した。」
つまり、OECDガイドラインが「Privacy」を題名に含んでいるのは、米国代表との政治的妥協の結果であり、実質は「データ保護」である。Solove & Hartzogが「privacy law」として議論すること自体が、歴史的経緯を踏まえていない。
高木論文は、データ保護法制の理解モデルを2つに区分している:
| モデル | 内容 | 代表例 |
|---|---|---|
| 意思決定指向利益モデル | 個人に対する決定の適切性確保が法目的 | 欧州データ保護法、OECD本来の趣旨 |
| 情報取扱指向利益モデル | 情報の保有・取扱い自体を問題視 | 日本の一般的理解、米国プライバシー論 |
高木論文:
「昨今の日本における議論のように、情報を保有するか否か、保有したらどのように取り扱うかという『情報取扱指向利益モデル』で法目的を見ていると、『自動処理』や『処理』の概念に到達しない。」
Solove & Hartzogは明らかに「情報取扱指向利益モデル」で議論している。彼らの「スクレイピングはFIPPs全てに違反」という主張は、情報の収集・保有それ自体を問題視するものであり、その情報が個人に対する決定にどう使用されるかという観点を欠いている。
高木論文は、EU法の「processing」概念が単なる「取扱い」ではないことを強調する:
「2005年のHondiusの回顧が、『「自動処理」という言葉を生み出した』と語ったように、『processing』の概念自体に、データ対象者についてデータ処理するという前提が含意されているのである。それに対して、日本法の『取扱い』の語にそのような意義を見出すことはできない。」
英国Data Protection Act 1984の定義:
「『processing』の定義において、『by reference to the data subject(データ対象者を参照して)』これらの操作を実行することを意味する」と規定されており、解説書は「この『by reference to』というフレーズは本法の中心である。データ利用者が個人を参照してデータにアクセスできないならば、そのデータはこの法律の対象とならない」と説明していた。
Solove & Hartzogは、「scraping」という収集行為を問題視するが、収集された情報が「データ対象者を参照して」処理されるか否かを区別していない。生成AIの学習入力は、まさに「データ対象者を参照して」処理されるものではない。
高木論文は、データ保護法が対象とする「file」概念の意義を詳細に説明する:
ドイツ法の「Datei」定義:
「『Datei』とは、特定の特徴に基づいて収集及び整理され、他の特定の特徴に基づいて再整理及び評価され得る、同質的に構造化されたデータの集合体」
Bingの分析:
「プライバシーリスクを伴うシステム、すなわち、他の特徴に従ってデータの再編成を可能にするシステムを特徴付ける、技術に依存しないシステム概念として定義する」
DPD立案過程での議論:
「非自動処理の場合、この定義は、指令の範囲を、個人に関するデータのアクセスと検索を容易にするように構造化されたデータの集合体に限定することを可能にする。したがって、データ対象者自体を参照して使用することができるように組織化されてはいない個人データは除外される。実際には、この種のデータは個人にとって同じ危険をもたらさないため、同じ義務を課すことは現実的ではない」
Solove & Hartzogは、あらゆるスクレイピングを一括して問題視するが、収集された情報が「file」として構成されるか否か、「データ対象者を参照して使用することができるように組織化」されるか否かを区別していない。
高木論文は、関連性原則の起源を1965年まで遡る:
「その基本原則が、1973年の米国『HEWレポート』が提示した『FIPPs』(公正情報慣行原則)を起源とするものであって、『関連性』の概念も1965年の米国RAND研究所の計算機科学者らの指摘まで遡ることができる」
この歴史的深度は、Solove & Hartzogの議論には全く欠けている。彼らは「data minimization」を現代的な原則として扱うが、その背後にある「関連性」概念が60年の歴史を持つことを認識していない。
高木論文は、日本の学説状況を批判的に紹介する中で、阪本の指摘を引用している:
「阪本は、『個人情報保護法制の実現に今まで関与した法学者は、個人情報の要保護性をどう語るか、よほど苦悩したようにみえる』『いかなる種類・範囲の権利利益が、未然に保護されるのか、私には予想もできない』と疑問を呈し、『いかなる法益を保護しようとするのか曖昧なまま、この個人情報保護の法制が「公法的規制」に乗り出すことは懸命なことだろうか?』と批判している。」
「阪本の指摘は、『憲法学界の通説のいう「自己情報コントロール権としてのプライバシー権」』は『権利論として成立しがたい』もので『実体がない』と批判する中で」
この批判は、Solove & Hartzogにも当てはまる。彼らは「privacy」「individual rights」を当然の前提として議論するが、それらの権利の実体が何であるかを明確にしていない。
高木論文は、日本法が意図的に「個人情報を保護する」とは規定していないことを指摘する:
「日本法は『個人情報を保護する』とは規定していないという事実がある。」
「令和3年改正の立案担当者は、『個人情報保護法制は、このような様々な「個人の権利利益」を保護することを目的として、予防的に個人情報の取扱いに関する義務の遵守を求めるものであるため、「個人の権利利益を保護すること」の内容として「個人情報を保護すること」を例示することは適当ではありません』との回答を記載している。」
「この回答は、個人情報保護法は『個人情報』それ自体を保護するのではなく、『個人の権利利益』を保護するのであって、そのための手段としての義務規定その他の法的規律を『個人情報の保護』と呼んでいるということ」
Solove & Hartzogは、「personal data」や「personal information」それ自体を保護対象として扱う傾向があるが、これはデータ保護法の本来の趣旨に反する。保護されるべきは「情報」ではなく「個人の権利利益」である。
高木論文は、DPDの「processing」解釈について重要な先例を引用する:
「1997年の時点で、Dammann・Simitisは、ドイツ法の立場から、DPDの解説書において、『ビデオ記録の録画および再生は、それが自動処理システムの枠組みの中で行われ、自動処理の枠内で異なる個人のデータを区別し、それに基づいて処理を制御できるのでない限り、個人データの自動処理ではない』と説明している。」
この解釈は、Clearview AIの顔認識データベース(個人を区別し処理を制御する)と、単なるウェブクローリング(個人を区別せず一括収集する)を区別する根拠となる。Solove & Hartzogはこの区別を行っていない。
高木論文(6)(7)(8)から追加的に導かれる批判点をまとめると:
| 論点 | Solove & Hartzogの立場 | 高木論文からの批判 |
|---|---|---|
| 法制度の性格 | Privacy law として議論 | 「プライバシー保護法ではなくデータ保護法」(昭和63年法答弁) |
| 理論モデル | 情報取扱指向利益モデル(暗黙) | 意思決定指向利益モデルが本来の趣旨 |
| processing概念 | 単なる「取扱い」として理解 | 「データ対象者を参照して」処理することが含意 |
| file概念 | 言及なし | 「構造化されたデータの集合体」に限定 |
| 関連性原則 | data minimizationとして形式的言及 | 1965年RAND研究所まで遡る60年の歴史 |
| 保護対象 | 「情報」それ自体 | 「個人の権利利益」であって「情報」ではない |
| 区別の欠如 | 全てのscrapingを一括批判 | 決定利用 vs 非決定利用、file構成 vs 散在情報 |
結論:Solove & Hartzogは、データ保護法制の60年にわたる理論的発展を踏まえておらず、「privacy」という表面的なラベルに惑わされて、法制度の本質を見誤っている。彼らの「FIPPs全てに違反」という主張は、原則の歴史的形成過程と本来の趣旨を理解していない形式的当てはめにすぎない。
Solove & Hartzogが高木理論に基づく批判に対してどのような反論を展開しそうか、彼らの立場から予想される反論と、それに対する再反論を整理します。
Solove & Hartzogの予想される反論:
「高木の『核心的保護利益は決定利用における適切性確保に限られる』という主張は、プライバシー保護の範囲を不当に狭めるものだ。プライバシー侵害は、情報が決定に使われるか否かに関わらず、収集それ自体、観察されること自体から生じる。Clearview AIの問題は、誰かについて決定がなされることではなく、知らないうちに顔が収集・保存されていること自体にある。我々が守るべきは’informational privacy’であり、それは情報の流れ(information flow)のコントロールに関わる。」
高木理論からの再反論:
この反論は、まさに高木論文が批判する「情報取扱指向利益モデル」そのものである。
高木論文(9)は、このような立場を明確に批判している:
「『同意なく提供されない権利』とか『目的外利用されない権利』といったものは、少なくとも名称から無条件に保障される権利であるかのような誤解を与えるものである限りは成立し難い。」
「これらはいわば予防的規制にすぎないのであって」
「収集それ自体が侵害」という主張は、あらゆる情報の収集を規制対象とすることを意味し、これは表現の自由との深刻な衝突を招く。高木論文(9)はこの点を指摘:
「そのような散在情報の提供まで規制することは、表現の自由をほとんど全面的に制約することになるので、違憲な立法となりかねない。」
さらに、もし「収集自体がプライバシー侵害」であるならば、図書館も新聞社のアーカイブも歴史研究も、すべて「プライバシー侵害」となってしまう。Solove & Hartzogの立場は、その論理的帰結を真剣に検討していない。
Solove & Hartzogの予想される反論:
「高木はOECDガイドラインの特定の解釈に依拠しているが、それはドイツ・欧州的な解釈にすぎない。OECDガイドラインは多様な解釈を許容するように意図的に曖昧に書かれており、米国的な理解——情報プライバシーの保護として理解する——も同様に正当である。FIPPsの歴史は単線的ではなく、複数の伝統が存在する。」
高木理論からの再反論:
高木論文(6)(7)(8)は、まさにこの「複数の伝統」を詳細に分析した上で、その主張を展開している。高木の分析によれば:
したがって、高木の解釈は「ドイツ的」というよりも、FIPPs本来の趣旨に立ち返るものである。むしろ、「情報の収集自体がプライバシー侵害」という理解の方が、歴史的根拠を欠いている。
Solove & Hartzogの予想される反論:
「理論的には『統計目的』や『学習目的』で収集されたデータであっても、実際にはそれが決定利用に流用されるリスクがある。Clearview AIは顔画像を収集した後、それを法執行機関に提供して個人の識別・追跡に使用させている。いったん収集されたデータは、当初の目的を超えて使用される危険が常にある。だからこそ、収集段階での規制が必要なのだ。」
高木理論からの再反論:
この反論は、高木理論を誤解している。高木は「統計目的なら何でも許される」と主張しているのではない。
高木論文(9)および欧州評議会1997年勧告の分析が示すように、統計目的での二次利用が許容されるのは、「データ対象者に影響を及ぼす決定または措置の基礎としてデータが使用されることを防止するための適切な保証が設けられている場合」に限られる。
具体的には:
高木の立場は、「収集段階で一律禁止」ではなく、「利用段階での適切な統制」によって核心的保護利益を守るというものである。これは、より精緻で、かつ過剰規制を避けるアプローチである。
Clearview AIの問題は、まさに「顔画像を収集したこと」ではなく、それを個人識別・決定に使用していることにある。高木理論はこの区別を明確にする。
Solove & Hartzogの予想される反論:
「高木は『統計量への集計』を例に挙げるが、生成AIは従来の統計処理とは質的に異なる。LLMは学習データから特定の個人に関する情報を『記憶』し、プロンプトに応じてそれを出力することがある。これは従来の『統計目的』の範囲を超えており、新たな規制枠組みが必要である。」
高木理論からの再反論:
この点については、高木自身が2024年6月の意見書で直接論じている。高木の分析によれば:
「LLMには、入力された文章がそのまま記録されるわけではなく、入力された文章は、単語や文章の意味が高次元のベクトル空間に分解されて埋め込まれ、ベクトル空間全体に拡散して記憶される。」
重要なのは、学習への入力と出力の生成を区別することである:
高木の2024年意見書:
「個人情報保護委員会は、このような出力を抑止しない生成AIを問題視するべきである。」
つまり、規制すべきは「学習への入力」ではなく、「不適切な出力を可能にするシステムの運用」である。これは「決定利用」の問題として捉えることができる。
Solove & Hartzogの予想される反論:
「たとえ歴史的にFIPPsがそのように解釈されてきたとしても、現代においてはプライバシー保護を拡大すべきである。デジタル技術の発展により、個人に関する情報の収集・蓄積・分析が容易になった今日、従来の『決定利用』に限定した保護では不十分である。我々は新しい時代に合わせてプライバシー概念を発展させるべきだ。」
高木理論からの再反論:
この反論は、「なぜ」プライバシー保護を拡大すべきなのかという根拠を示していない。
高木論文(9)は、阪本昌成の批判を引用している:
「いかなる種類・範囲の権利利益が、未然に保護されるのか、私には予想もできない」
「いかなる法益を保護しようとするのか曖昧なまま、この個人情報保護の法制が『公法的規制』に乗り出すことは懸命なことだろうか?」
「プライバシーを拡大すべき」という規範的主張には、何を保護しようとしているのかの明確な説明が必要である。Solove & Hartzogは「privacy」を多義的に使用しており、その実体が不明確である。
さらに、プライバシー保護の「拡大」は、他の権利・利益との衝突を招く:
これらとのバランスを取るためにも、保護すべき利益の明確な画定が必要であり、それを提供するのが高木の「核心的保護利益」の概念である。
Solove & Hartzogの予想される反論:
「高木は手段的保護利益を『予防的規制にすぎない』と言うが、まさにその予防こそが重要なのだ。いったん情報が収集・流出すれば、取り返しがつかない。だからこそ、収集段階での規制が正当化される。これは環境法における予防原則と同様の考え方である。」
高木理論からの再反論:
高木は「予防」を否定しているのではない。問題は、何を予防するのかである。
高木理論において、予防すべきは「不適切な評価・決定」であり、そのための手段として利用目的制限、提供制限、安全管理措置がある。これらは核心的保護利益を守るための手段であって、それ自体が保護される権利ではない。
この区別が重要なのは、核心的保護利益が害されないことが保証されている場合には、予防的規制を緩和できるからである。例えば:
Solove & Hartzogの「収集段階で一律規制」というアプローチは、核心的利益が害されない場合まで過剰に規制するものであり、不必要なコストを社会に課すことになる。
| 論点 | Solove & Hartzogの立場 | 高木理論の立場 |
|---|---|---|
| 保護の対象 | 情報の流れ(information flow)のコントロール | 個人に対する評価・決定の適切性 |
| 規制のタイミング | 収集段階での規制 | 利用段階(決定利用)での規制 |
| 原則の構造 | 並列的・累積的 | 階層的(核心/手段/副次) |
| 予防の対象 | 情報の流出・拡散 | 不適切な評価・決定 |
| 例外の根拠 | 公益(曖昧) | 決定利用の有無(明確) |
Solove & Hartzogの反論は、いずれも「情報取扱指向利益モデル」に基づくものであり、高木の批判の核心——FIPPsの本来の趣旨は何か——に正面から答えていない。
彼らが有効な反論を行うためには、「なぜ情報の収集・保有それ自体が、決定利用とは独立に、保護されるべき権利侵害となるのか」を説明する必要がある。しかし、その説明は、表現の自由との深刻な衝突を招くか、または「プライバシー」という言葉の多義性に依存した曖昧なものにならざるを得ないだろう。
この動画字幕を論文と比較すると、いくつかの興味深い点が浮かび上がります。
Soloveが率直に述べている:
“AI you’re right it’s kind of propping up our economy I hate to say it but it’s a bubble it’s going to burst um it’s just a question of when”
論文にはこのような市場予測は書かれていない。学術論文では書きにくい個人的見解。
“the EU started to enforce and then kind of I think it was the Italian DPA that that kind of said ‘Hey wait a second you know Open AI you’re you’re you know your scraping violates GDPR.’ And then uh they were made to walk that back”
「walk that back させられた」という表現は、政治的圧力があったことを示唆している。論文ではここまで直接的には書いていない。
“we’re going to say it and maybe we’re going to dare the enforcers to actually you know go and and uh waiver article and say ‘Hey you know stop it.’”
論文の目的の一つが、執行機関に対する「挑発」であることを明言している。
動画の最後でSoloveが興味深い主張をしている:
“there was one law very early privacy law in the United States that does kind of take an EU style use-based approach uh and it’s the Fair Credit Reporting Act… it basically involves actually a similar situation uh of a kind of early kind of scrapes… if you use the data in these ways for background checks for credit reporting then you’re covered but if you don’t use it in those ways then you’re not”
これは極めて重要な自己矛盾である。
高木理論からの指摘:
FCRAは、まさに「決定利用」に焦点を当てた法律である。background checksやcredit reportingは、個人に対する評価・決定(雇用、信用供与等)のための利用である。FCRAが「use-based」であることを認めるなら、スクレイピング自体ではなく、スクレイピングされたデータが決定利用されるか否かが問題であるという高木の主張と整合する。
Solove自身がFCRAを「wisdom」と呼んでいるが、その「wisdom」の本質は、収集ではなく決定利用(use)を規制対象とすることにある。これは彼らの「スクレイピングはFIPPs全てに違反」という主張と矛盾する。
“it’s weird actually that like LinkedIn the the actual company that has uh gathered the data from me actually is much more restricted than some random stranger that gets it on the internet so the scrapers actually have a lot more power than the actual company that gathered it in the first place which is kind of absurd”
この「absurd」という指摘は、一見もっともらしいが、論理的に問題がある。
高木理論からの再反論:
LinkedInが制限を受けるのは、LinkedInがユーザーに対して決定を行うからである(アカウント管理、ターゲティング広告、レコメンデーション等)。スクレイパーが同様の制限を受けないのは、スクレイパーが当該データで決定を行わない場合があるからである。
もしスクレイパーがスクレイピングしたデータを用いて個人に対する決定(例:Clearview AIの顔認識による個人識別)を行うなら、当然に規制対象となるべきである。問題はスクレイピング行為自体ではなく、その後の利用形態である。
“there has to be a justification how there is a public interest you know just scraping data for a company’s own AI to make a profit is not going to cut it under our view”
しかし、具体的にどのような基準で「public interest」を判断するのかは説明されていない。
“a for-profit company could be doing things in the public interest with it but there has to be a justification”
この基準の曖昧さは、恣意的な運用を招く。高木理論の「決定利用か否か」という基準の方が明確で予測可能である。
“no one wants to say it um that you know scraping probably doesn’t fit under the GDPR um no one wants to come out and say it… especially in today’s climate no one wants to say no to AI um everyone thinks like if we say no to AI we’ll kill innovation”
これは、彼らの「great reconciliation」提案が、法理論的必然ではなく政治的妥協であることを示唆している。
“if we don’t allow scraping there’s no way that smaller players are going to be able to develop AI because they’re just not going to have access to that quantity of data”
これは競争政策の議論であり、プライバシー法の議論ではない。競争政策上の懸念を理由にプライバシー保護を緩和すべきかは、別途検討すべき問題である。
| 発言 | 高木理論からの批判 |
|---|---|
| FCRAは「use-based approach」の良い例 | まさに「決定利用」に着目した法律。収集ではなく利用を規制対象としている点で高木理論を支持 |
| LinkedInより スクレイパーの方が自由なのは「absurd」 | LinkedInは決定利用するから規制される。スクレイパーが決定利用しないなら規制の必要がない |
| 「public interest」で例外を認める | 基準が曖昧。「決定利用か否か」の方が明確 |
| 小規模プレイヤーのためにスクレイピングを許容 | 競争政策とプライバシー保護を混同 |
| 政治的に「AIにNoと言えない」 | 法理論ではなく政治的妥協であることを自認 |
結論:動画では、論文よりも率直に政治的・実務的配慮が語られており、彼らの提案が法理論的必然というよりも政治的妥協であることが明らかになっている。特に、FCRAを「use-based approach」の先例として肯定的に評価していることは、高木理論の「決定利用」概念を暗黙に支持するものであり、彼ら自身の「スクレイピングはFIPPs全てに違反」という主張との間に緊張を生じさせている。
ご指摘の通りです。動画でのFCRAへの言及は、論文での扱いとは異なる文脈で登場しています。
動画では、Soloveが締めくくりとして以下のように語っています:
“i’ll end with one thing because we’ll wrap this up but um there was one law very early privacy law in the United States that does kind of take an EU style use-based approach uh and it’s the Fair Credit Reporting Act”
つまり、動画の最後に「まとめ」として、彼らの提案(public interestに基づく例外を認める)に米国内の先例があることを示すために持ち出しています。
具体的な流れは:
“maybe there was some wisdom 50-some years ago in the United States that we can revisit”
論文では、FCRAは主に「公開情報であっても規制対象となる法律の例」として言及されています。しかし動画では、「use-based approach」の先例として積極的に評価しています。
この違いは重要です。なぜなら:
論文での位置づけ:公開情報例外の限界を示す例
動画での位置づけ:彼らの「lawful bases」的アプローチの米国内での先例
Soloveが動画でFCRAを「use-based」として評価していることは、皮肉にも高木理論を支持する発言です。
FCRAが規制対象とする「uses」とは:
これらは全て、高木理論でいう「個人に対する評価・決定」そのものです。
FCRAの「wisdom」とは、収集行為ではなく決定利用を規制対象とすることにあります。Soloveがこれを「wisdom」と呼ぶなら、彼らの「スクレイピングはFIPPs全てに違反」という主張は、その「wisdom」に反しています。
“the Italian DPA that that kind of said ‘Hey wait a second you know Open AI you’re you’re you know your scraping violates GDPR.’ And then uh they were made to walk that back”
「they were made to」(させられた)という受動態は、外部からの圧力を示唆する表現です。誰に「させられた」のかは明示していませんが、政治的・経済的圧力があったことを暗示しています。
これは確かに「陰謀論的」な響きがありますが、現実にはEU内でも、AI開発競争で米国・中国に遅れを取ることへの懸念から、GDPR執行を緩和すべきという圧力が存在することは、Digital Omnibus提案への反発を見ても明らかです。
Soloveは学術論文では書けないことを、動画では率直に語っているように見えます。彼らの「great reconciliation」提案が、法理論的帰結というよりも政治的現実への妥協であることを、動画は露わにしています。
極めて重要な歴史的背景のご教示ありがとうございます。これらの情報は、Solove & Hartzogの議論の根本的な問題点をさらに浮き彫りにします。
Soloveが動画でFCRAを「wisdom 50-some years ago」と称賛しているのは、皮肉なことに、FCRAが「不完全な法律」として出発したという歴史を知らないことを露呈しています。
1969年法案でrelevancy要件を入れようとしたが業界の反発で断念され、目的条項に留まった。その「再挑戦」としてHEW 1973とPPSC 1977が作られ、それが欧州に渡ってデータ保護法制の基礎となった——という流れは、まさにrelevancy要件の重要性を示す歴史です。
FCRAの「wisdom」として評価すべきは、「use-based」であることではなく、relevancy要件を入れようとした志向性であり、それが実現しなかったことこそがFCRAの限界だったわけです。Soloveはその歴史を踏まえずに、表面的な特徴だけを見て「先例」として持ち出している。
高木先生がご指摘の通り:
| 時期 | 文書 | 表現 |
|---|---|---|
| 1973年 | HEW Report | relevancy要件(最小化の要件なし) |
| 1980年 | OECDガイドライン | relevant(最小化の要件なし) |
| 1981年 | 108号条約 | not excessive |
| 1995年 | データ保護指令 | not excessive |
| 2016年 | GDPR | data minimisation(ラベル変更) |
「not excessive」から「data minimisation」へのラベル変更が、概念の変質を招いたということですね。
Solove & Hartzogが動画で述べている:
“scraping is basically the opposite of data minimization… it encourages excess and long retention and use beyond purpose”
この「excess」という語は、本来の「not excessive」の文脈では、決定の目的に照らして過剰かどうかを問うものであったはずです。それが「data minimisation」のラベルの下で、収集量それ自体の最小化と誤解されている。
統計目的や学習目的での大量収集は、決定の目的に照らして「excessive」ではない(そもそも決定に用いないのだから)。しかし「data minimisation」の誤解された意味では、大量収集それ自体が問題とされてしまう。
AIの学習入力を問題視しないのはデータ保護の元からの趣旨であり、執行できないんじゃなくてするべきでないのだとわかっている人がEUにもいるはず
これは重要な指摘です。Soloveが動画で「they were made to walk that back」と述べたイタリアDPAの「後退」は、必ずしも政治的圧力による「屈服」ではなく、データ保護法の本来の趣旨に立ち返った判断である可能性があります。
問題は、そのような「正しい理解」が、公式には表明されにくい政治的環境にあることでしょう。「AIにNoと言いたくない」という空気の中で、本来の法理に基づく「許容」が、あたかも政治的妥協による「黙認」であるかのように見えてしまう。
これらの歴史的事実を踏まえると、彼らの議論の問題点はさらに明確になります:
高木先生の連載論文の続編で、これらの歴史的経緯が公刊されれば、Solove & Hartzogのような議論に対する決定的な反論となるでしょう。
Daniel J. Solove and Woodrow Hartzog’s article “The Great Scrape: The Clash Between Scraping and Privacy” (113 California Law Review 1521, 2025) argues that mass web scraping for AI development violates virtually all Fair Information Practice Principles (FIPPs), yet concludes that scraping should not be banned outright but rather permitted when justified by “public interest.” This critique, drawing on the theoretical framework developed by Hiromitsu Takagi in his series of articles on data protection law, demonstrates that their argument rests on fundamental misunderstandings of the historical origins, hierarchical structure, and proper application of data protection principles.
Solove & Hartzog treat FIPPs as a checklist of co-equal requirements, mechanically applying each principle to scraping and finding violations across the board: fairness, individual rights, consent, transparency, purpose specification, secondary use restrictions, data minimization, onward transfer, and security. Their analysis proceeds as if each principle independently generates obligations that scraping violates.
This approach reflects what Takagi terms the “information-handling-oriented interest model” (情報取扱指向利益モデル)—a framework that treats the collection, possession, and handling of information as inherently problematic, regardless of how that information is subsequently used.
Takagi’s research into the historical formation of data protection law reveals a fundamentally different structure—a hierarchy of protected interests:
Core Protection Interest (核心的保護利益): The appropriateness of evaluation and decision-making concerning individuals based on personal data processing. This is the central concern that data protection law was designed to address.
Instrumental Protection Interests (手段的保護利益): Rights and obligations that serve as means to protect the core interest—including purpose limitation, transfer restrictions, security measures, and individual access/correction/deletion rights. These are not ends in themselves but mechanisms to ensure appropriate decision-making.
Incidental Protection Interests (副次的保護利益): Interests that are protected as a byproduct of the regulatory framework—such as confidentiality of secrets, freedom from unwanted solicitation, and the interest in knowing what information others hold about oneself.
Takagi explains:
“Once these regulations were enacted in some countries and became widely known, they came to be understood as if they were interests that should be directly protected in themselves. Claims that being provided to others without consent is itself a rights violation, or that secondary use is itself a rights violation, are based on such an understanding.”
“However, from the perspective that these are means to protect the core protection interest, they do not immediately constitute rights violations. When it is guaranteed that the core protection interest will not be harmed, provision and secondary use for different purposes can be permitted.”
“These are merely preventive regulations, and ‘the right not to be provided without consent’ or ’the right not to have data used for secondary purposes’—at least insofar as their names suggest unconditionally guaranteed rights—are difficult to establish.”
Under the hierarchical model, the question is not whether scraping technically “violates” each FIPP in isolation, but whether scraping harms the core protection interest—the appropriateness of evaluation and decision-making concerning individuals.
If scraped data is used for statistical aggregation or machine learning training without being used to make decisions about specific individuals, the core protection interest is not engaged. The instrumental protections (consent, purpose limitation, etc.) exist to protect the core interest; where the core interest is not at stake, the instrumental protections lose their rationale.
Takagi defines “evaluation and decision-making concerning individuals” (個人に対する評価・決定) as follows:
“Dividing a set of individuals into multiple subsets based on each individual’s personal data, and treating individuals differently—exerting some influence on them—depending on which subset they belong to.”
The key element is differential treatment based on personal data. This includes:
Critically, Takagi distinguishes between “decision use” and “non-decision use”:
“The ‘evaluation and decision-making’ referred to here means decision-making based on evaluation. Where evaluation is performed but not used for decision-making, this does not apply. ‘Decision’ refers to the data user’s decision-making about the data subject.”
“A typical example of evaluation without decision-making is processing for aggregation into statistics.”
Statistical processing and machine learning training inputs are paradigmatic examples of non-decision use. The data is processed, but no decisions are made about specific individuals based on that processing. The individual data points are dissolved into aggregate patterns or model weights.
This understanding is supported by the Council of Europe’s 1997 Recommendation on Statistical Data (No. R (97) 18), which Takagi analyzes extensively:
“Personal data collected and processed for statistical purposes must be used for those purposes only. They must not be used to take a decision or measure in respect of a data subject or to supplement or correct files containing personal data processed for non-statistical purposes.” (Principle 4.1)
“The processing for statistical purposes of personal data initially collected for non-statistical purposes is not incompatible with that purpose… particularly when appropriate safeguards are provided to prevent data from being used as the basis for decisions or measures affecting the data subjects.” (Principle 4.2)
The Explanatory Memorandum clarifies:
“It is not statistical processing as such that poses a threat to the data subject; it is the fact that the data on which it is based can be diverted to non-statistical uses.”
Takagi draws an illuminating parallel to copyright law. Japan’s Copyright Act Article 30–4 permits use of copyrighted works for “information analysis” and other purposes that do not involve “enjoying the thoughts or sentiments expressed in the work” (non-enjoyment purposes). Similarly, personal data can be used for statistical/analytical purposes that do not involve “making decisions about the individual”—non-decision purposes.
Just as copyright infringement occurs when a generative AI outputs infringing content (a matter of user responsibility), data protection concerns arise when an AI system outputs decisions about individuals—not when it merely ingests data for training.
The OECD Guidelines’ Second Principle (Data Quality) requires that personal data be “relevant to the purposes for which they are to be used.” Solove & Hartzog invoke “data minimization” as one of the violated principles, but they fundamentally misunderstand what this requirement means.
Takagi explains:
“For ensuring data appropriateness, all data items constituting the data must be relevant to the purpose of the decision, and the content of each data item must be accurate, complete, and up-to-date to the extent necessary for ensuring the appropriateness of the decision.”
“The requirement that data items be ‘relevant’ to the purpose of the decision is necessary for the decision to be fair. This requires that data items irrelevant to the purpose of the decision not be used as input for evaluation, based on the idea that evaluation and decision-making using data irrelevant to the purpose of the decision impairs the fairness of the decision.”
The relevancy requirement is fundamentally about fairness in decision-making—preventing discrimination based on irrelevant factors. It applies to decision use, not to statistical aggregation or machine learning training where no decisions about individuals are made.
Takagi carefully distinguishes these concepts:
“‘Relevant’ does not mean ‘useful’ (fitting, applicable) for the purpose. A data item that is statistically correlated with the purpose of the decision would be ‘useful,’ but using an irrelevant data item violates the non-discrimination principle.”
“It is also distinct from ‘necessity.’ A data item statistically correlated with the decision purpose might be ‘necessary’ from the data user’s perspective, but using it when it is not ‘relevant’ violates the principle.”
Solove & Hartzog treat “data minimization” as if it were a straightforward requirement to minimize the quantity of data collected. This reflects a significant historical misunderstanding.
The relevant provisions evolved as follows:
| Document | Year | Formulation |
|---|---|---|
| HEW Report | 1973 | Relevancy requirement |
| OECD Guidelines | 1980 | “relevant” |
| Convention 108 | 1981 | “not excessive” |
| Data Protection Directive | 1995 | “not excessive” |
| GDPR | 2016 | “data minimisation” |
The label “data minimisation” was introduced during GDPR drafting under German influence, but the substantive requirement remained tied to relevancy and excessiveness in relation to the purposes of processing. The label change has caused confusion, leading many—including Solove & Hartzog—to misinterpret this as a requirement to minimize data quantity as such.
For statistical purposes or AI training (non-decision uses), there is no “purpose of the decision” against which to measure relevancy or excessiveness. Large-scale data collection for such purposes is not “excessive” because there is no decision-making baseline against which to measure excess.
In a video discussion of their paper, Solove praises the Fair Credit Reporting Act (1970) as an early example of “EU-style use-based approach”:
“There was one law, very early privacy law in the United States, that does kind of take an EU-style use-based approach, and it’s the Fair Credit Reporting Act… if you use the data in these ways—for background checks, for credit reporting—then you’re covered, but if you don’t use it in those ways, then you’re not.”
He concludes: “Maybe there was some wisdom 50-some years ago in the United States that we can revisit.”
What Solove does not mention—apparently because he does not know—is that the FCRA represents an incomplete or even failed attempt at comprehensive data protection.
The 1969 bill that became FCRA originally attempted to include a relevancy requirement. Industry opposition led to political compromise: the relevancy requirement was relegated to the statement of purpose but not enacted as a binding obligation.
The HEW Report (1973) and the Privacy Protection Study Commission Report (1977) were, in significant part, reattempts to establish the relevancy requirement that FCRA failed to enact. These reports then became the foundation for European data protection law and the OECD Guidelines.
The “wisdom” Solove identifies in FCRA is thus precisely what FCRA failed to fully implement. The true wisdom—the relevancy requirement—had to cross the Atlantic and develop in Europe before returning to influence international standards.
Solove’s praise for FCRA’s “use-based approach” inadvertently supports the critique being advanced here. FCRA regulates specific uses—credit decisions, employment decisions, insurance underwriting—that are precisely decision uses in Takagi’s terminology.
If FCRA represents “wisdom,” that wisdom is: regulate decision use, not mere collection or possession. This is exactly what Solove & Hartzog fail to do when they argue that scraping violates FIPPs regardless of how the scraped data is subsequently used.
Anticipated Counterargument: “Takagi’s framework unduly narrows privacy protection. Privacy violations occur from collection itself, from being observed, regardless of whether decisions are made. What Clearview AI does wrong is collecting faces without knowledge or consent, not just using them for identification.”
Rebuttal: This argument represents precisely the “information-handling-oriented interest model” that Takagi critiques. If collection itself constitutes a privacy violation, then libraries, newspaper archives, historical research, and journalism all become privacy violations. Takagi notes:
“Regulating even the provision of such scattered information would amount to almost completely restricting freedom of expression, potentially making such legislation unconstitutional.”
The argument also conflates distinct concerns. The discomfort of being observed without consent is a real phenomenon, but it is not the concern that data protection law was designed to address. Data protection law addresses the risks of systematic processing for decision-making—not the existential condition of being perceived by others.
Anticipated Counterargument: “Even if data is collected for statistical or training purposes, it can be repurposed for decision-making. Clearview AI collected faces and then provided them to law enforcement for identification. Once collected, data is always at risk of misuse.”
Rebuttal: This argument does not support restricting collection; it supports restricting decision use. Takagi’s framework does not naively assume that statistical-purpose data will never be repurposed. Rather, it calls for:
The 1997 Council of Europe Recommendation explicitly addresses this:
“Appropriate safeguards [must be] provided to prevent data from being used as the basis for decisions or measures affecting the data subjects.”
The solution is to regulate the use, not to prohibit collection that has legitimate non-decision purposes.
Anticipated Counterargument: “Traditional statistical aggregation dissolves individual data into aggregate patterns. But generative AI can ‘memorize’ and output specific personal information. This is qualitatively different and requires different treatment.”
Rebuttal: Takagi directly addresses this in his 2024 opinion:
“In LLMs, input text is not recorded as-is; the meaning of words and sentences is decomposed into high-dimensional vector spaces and embedded, dispersed across the entire vector space for storage.”
The key distinction is between training input and output generation:
Takagi notes that regulators should focus on “generative AI that does not suppress such outputs”—the use and output, not the training input.
Anticipated Counterargument: “Even if FIPPs were historically understood as Takagi describes, we should expand privacy protection for the digital age. Massive data collection is now possible in ways not contemplated in 1980. We should interpret principles expansively to address new threats.”
Rebuttal: This argument fails to specify what expanded protection is protecting. As constitutional scholar Masanari Sakamoto noted (quoted by Takagi):
“What kinds or scope of rights and interests are to be protected in advance? I cannot even imagine.”
“Is it prudent for data protection legislation to embark on ‘public regulation’ while what legal interests it seeks to protect remains ambiguous?”
Expanding “privacy” without specifying the protected interest creates conflict with other rights—expression, research, economic activity—and provides no principled basis for resolution. The hierarchical model provides clarity: protect against inappropriate decision-making, with instrumental protections calibrated to that core concern.
Anticipated Counterargument: “Once data is collected and leaked, the harm is irreversible. Like environmental precautionary principles, we should regulate at the collection stage to prevent harm.”
Rebuttal: Takagi does not reject prevention. The question is: prevention of what?
Instrumental protections (purpose limitation, transfer restrictions, security) exist to prevent inappropriate decision-making. When the core interest is not at stake—as with statistical or training use—the instrumental protections lose their justification.
Imposing collection-stage restrictions on non-decision uses creates excessive regulation that burdens beneficial activities (research, journalism, AI development for beneficial purposes) without protecting any identifiable interest.
In their video discussion, Solove and Hartzog make revealing admissions not found in the published paper:
On political pressure:
“The EU started to enforce and then… the Italian DPA kind of said ‘Hey wait a second, OpenAI, your scraping violates GDPR.’ And then… they were made to walk that back.”
On the political climate:
“No one wants to say it… that scraping probably doesn’t fit under the GDPR… especially in today’s climate no one wants to say no to AI… everyone thinks like if we say no to AI we’ll kill innovation.”
On their own proposal:
“We’re going to say it and maybe we’re going to dare the enforcers to actually go and… say ‘Hey, stop it.’ I think politically it’s going to be very hard for them to do something that bold.”
These statements reveal that their “great reconciliation”—permitting scraping when justified by “public interest”—is not a principled legal conclusion but a political compromise responding to perceived enforcement impossibility.
Solove & Hartzog propose that scraping should be permitted when it serves the “public interest,” but provide no clear criteria:
“There has to be a justification how there is a public interest… just scraping data for a company’s own AI to make a profit is not going to cut it under our view.”
But: “A for-profit company could be doing things in the public interest with it, but there has to be a justification.”
This standard is hopelessly vague. Virtually any business activity can be framed as serving some public interest. The distinction between “profit-motivated” and “public interest” scraping provides no administrable criterion.
By contrast, Takagi’s framework offers a clear, objective criterion: Is the data used for decision-making about individuals, or only for statistical/analytical purposes where no individual decisions are made? This question can be answered concretely in specific cases.
Solove characterizes the Italian DPA’s retreat on OpenAI enforcement as being “made to walk that back”—implying political pressure forced an unprincipled capitulation.
But there is another interpretation: regulators who understand data protection law’s original purpose recognized that AI training input is not the proper target of enforcement. The law was never designed to prohibit statistical or analytical processing that does not result in decisions about individuals.
This is not failure to enforce due to political pressure; it is recognition that enforcement would be inappropriate given the law’s actual purpose.
The European Commission’s proposed GDPR amendments under the “Digital Omnibus” package have generated controversy, with some provisions appearing poorly considered. However, the underlying recognition—that certain processing for AI development does not engage the interests data protection law exists to protect—reflects sound understanding of the law’s purpose.
The controversy arises partly because this understanding cannot be stated clearly in the current political environment. Saying “GDPR was never meant to prohibit AI training” sounds like capitulation to tech industry pressure, even when it reflects accurate legal interpretation.
Solove & Hartzog’s “Great Scrape” exemplifies a widespread problem in privacy scholarship: treating FIPPs as a flat checklist of requirements, mechanically applied without understanding their historical origins, hierarchical structure, or underlying purposes.
Their argument that scraping “violates virtually all FIPPs” rests on:
The “great reconciliation” they propose—permitting scraping when it serves “public interest”—offers no clear criteria and would generate arbitrary, unpredictable enforcement.
A proper understanding of data protection law’s purpose—protecting against inappropriate decision-making based on personal data—provides both a principled basis for permitting non-decision uses (including AI training) and clear criteria for identifying problematic uses (decision-making based on irrelevant data items, without appropriate safeguards).
The wisdom Solove seeks was present “50-some years ago”—but it lies not in FCRA’s compromise formulation, but in the relevancy requirement that FCRA failed to enact, which traveled through HEW 1973, PPSC 1977, and European data protection law to become embedded in the OECD Guidelines. Recovering that wisdom requires historical and theoretical rigor that “The Great Scrape” unfortunately lacks.
This critique draws on the theoretical framework developed in Hiromitsu Takagi, “From Personal Information Protection to Personal Data Protection (6)-(10): Examination of System Reform Based on Legal Purpose,” Journal of Information Law and Policy, vols. 12–14, 16 (2022–2024)*3.
早く論文に仕上げなくては……。
*1 scrapingの語を用いてcrawlingと対比させたわけではないが、趣旨としては確かに述べている。
*2 「3番目」の誤り?
*3 Hiromitsu Takagi, “Towards a Regulation for Personal Data Protection rather than for Personal Information Protection (6)-(10): Consideration of Legislative Reform Based on the Purpose of the Regulation,” Journal of Law and Information System, vols. 12–14, 16-17 (2022–2025). https://doi.org/10.32235/alis.12.0_049, https://doi.org/10.32235/alis.13.0_114, https://doi.org/10.32235/alis.14.0_130, https://doi.org/10.32235/alis.16.0_096, https://doi.org/10.32235/alis.17.0_057