高木浩光＠自宅の日記

2012年06月30日

■ 追跡されない自由を奪う技術を肯定的に捉えた珍しい学術論文の例

行動ターゲティング広告がオプトアウト方式で概ね許容されてきたのにはいくつかの理由がある*1が、その一つは、cookieはいつでも消去することができ、閲覧者側で追跡から逃れることができるからというものであった。実際、行動ターゲティング広告を展開している事業者は、そのようなエクスキューズ*2をしていることが多い。

しかし、cookieを消しても、ブラウザの特徴的な挙動、たとえば、User-Agentが特殊なものであったり、利用しているプラグインのリストなどから、ある程度の確率で閲覧者を追跡できてしまうことが、研究成果として発表された例がある。

Peter Eckersley (Electronic Frontier Foundation), How Unique Is Your Web Browser?, Proceedings of the Privacy Enhancing Technologies Symposium (PETS 2010), LNCS 6205. (2010)

We discuss what privacy threat browser fingerprinting poses in practice, and what countermeasures may be appropriate to prevent it. There is a tradeoff between protection against fingerprintability and certain kinds of debuggability, which in current browsers is weighted heavily against privacy. Paradoxically, anti-fingerprinting privacy technologies can be self-defeating if they are not used by a sufficient number of people; we show that some privacy measures currently fall victim to this paradox, but others do not.

これがElectronic Frontier Foundation (EFF)における研究であることからわかるように、これは、閲覧者を追跡できてしまうことを実証することによって、リスクを社会に知らしめ、自衛策をとることを促したり、技術的な対策あるいは法的な対処の必要性を訴えることを意図した論文であろう。アブストラクトにも上に引用したように書かれている。

同様のことは、セキュリティの攻撃手法を研究する場合にも見られる。攻撃手法を研究して発表することは、防衛のために必要であり、防衛のために研究するのが当然であろう。仮にいくら、研究実施者の真の動機が「技術的に面白いから」にすぎないことがあったとしても、論文ではあくまでも防衛の必要性を説く体裁をとるものだ。

ところが、情報処理学会論文誌に、追跡されない自由を奪う技術を肯定的に捉えた珍しい論文が掲載されているという話を、知人の弁護士さんのつぶやきでこの5月に知った。

上原（略）, 水谷（略）, 武田圭史, 村井純, ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2, pp.461-473. (2012) （受付日 2011年5月23日，採録日 2011年11月7日）

近年，インターネットを介した各種サービスにおいて，ユーザごとの行動履歴や趣味趣向に応じた最適化されたサービスを適時に提供することで，新たな付加価値を生み出すための取組みが行われている．実際にこのようなサービスを利用するためには利用者が専用のアカウントを登録するといった特別な操作が必要である．また，従来ホストの識別にIPアドレスやMACアドレスが利用されているが，IPアドレスはネットワーク環境によって変化し，MACアドレスは詐称可能であるため，継続的にホストや所有者を特定できない．そこで本研究では，特定のユーザが利用するデバイスごとに，ユーザの利用形態によって特徴的なトラフィックパターンが現れるかを事前に調査した．そして，その結果を用いてネットワーク上に発信されているパケットのヘッダ情報を収集，解析することでホストおよびユーザを特定する手法を提案した．本提案手法において，ユーザが発信するパケットのペイロード情報はプライバシ侵害の懸念があるため，パケットヘッダ情報のみを収集することでホストおよびユーザを特定することを目的とする．そして，200人ほどが参加するカンファレンスや学術ネットワークにおいてユーザの許諾を得たうえで実験を行い，ホストやユーザを本手法によって特定可能であることを示した．これよって，サービス提供者はユーザに特別な操作や設定などを求めることやデバイスの制約などを受けることなく，ユーザごとに特化したサービスを提供できる可能性を示した．

このアブストラクトからは、肯定的に捉えているとしか読めない。「MACアドレスは詐称可能であるため」という理由を挙げていることから、本人がどんなに追跡から逃れようとしても逃れることのできない技術を求めていることが窺われるし、「プライバシ」という言葉は出てくるものの、「パケットのペイロード情報はプライバシ侵害の懸念があるため，パケットヘッダ情報のみを収集する」と書かれており、ヘッダ情報ならプライバシー侵害に当たらないと考えている様子が窺える。

本文はどうなっているのか、情報処理学会論文誌Vol.53, No.2を読んで確認してみた。

まず、「1.はじめに」は、ほぼアブストラクトの繰り返しだが、最後の部分に以下の記述がある。

1. はじめに

（略）

本提案手法ではネットワーク管理者などネットワーク上のトラフィックを取得できるユーザが，法的観点やネットワークの制約上ペイロードを見ることができない状況での情報収集を想定する．本提案手法によって，個人情報を直接取り扱うことなくまた通信内容を直接的に取得せずにユーザが使用する機器やユーザを特定することが可能となる.

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

「通信内容を直接的に取得せずに」とのことだが、いったいどういう方法で実現するのだろうか。

この「1. はじめに」に続くのは「2. 関連研究」の節であり、既存研究から「ユーザ特定手法」と「ホスト識別」に関する文献を挙げて比較検討がなされている。そこに挙げられている文献は、追跡をプライバシー侵害と捉えて対策を促す趣旨のものなのだが、この論文はその点に触れながらもそれを意に介さず、「この手法は汎用性に欠ける」とか「制約がある」と主張する。

2.2 Web上の情報とホストを結びつけるユーザ特定手法

ソーシャルネットワークサービス (SNS) を利用したプライバシの脅威を調査した研究にKrishnamurthyらによる研究[4]があげられる。この研究はユーザがSNSに登録する情報とSNSから発行されるThird-party Cookieを解析することで、個人とIPアドレスを結びつける手法とそのリスクを提唱している．他にも，松尾らによるWeb検索エンジンを利用したユーザプロファイル手法[5]や、本村らによるネットワーク上の情報を利用して，プライバシを侵害や対策についた手法【原文ママ】*3[6]が提案されている．しかし，これらの研究は対象ユーザがWeb上に情報を公開していない場合はこの手法は利用できず，汎用性に欠ける．

2.3 ブラウザ情報を利用したホスト識別

ブラウザの情報を利用することでユーザの識別が可能か検証する研究にElectronic Frontier Foundationによる研究[7]があげられる．この研究ではHTTPにおけるUser Agent string，プラグインのバージョンやフォントの設定などのデータを総合して，ホストを識別する．そして，ユーザのブラウザ情報を収集したデータベースをもとに，識別するプログラムを公開することで，ユーザにWeb閲覧などの情報を利用したトラッキングや広告に対する脅威を周知することを目的としている．ブラウザ情報といった普段意識されない情報を利用してホストを識別する方法は，本研究と類似するものがあるが，特定のブラウザしか情報を取得できないことや，HTTPを利用しないホストの識別ができないという制約がある.

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

一般に、情報システムにおけるプライバシーに配慮した設計というのは、利用者が自分で、自分の情報がどう扱われるかをコントロールできるようにするというものであろう。たとえば、OAuthやOpenIDを用いて認可やID連携の制御をするときに、利用者にボタンを押させて本人に選択させるのはそのためであるし、ユーザ登録してログイン/ログアウトさせることが結果的に利用者選択をもたらしているとも言える。しかし、この論文は、「ユーザに特別な操作が必要となる」ことを負の面と位置付け、それを排除することを試みている。

このことについて、次の「3. デジタル情報の収集によるホスト，ホスト利用者の特定とその課題」の節は、次のように主張している。

3. デジタル情報の収集によるホスト，ホスト利用者の特定とその課題

（略）

そして，ユーザがデバイスを持ち歩くようになり，ユーザに特化した情報を提供するサービスの需要が高まっている．たとえば，情報のレコメンデーションやユーザのライフログなどがあげられる．

しかし，これらのサービスを利用するためにはユーザアカウント登録や，専用デバイスの利用などの制約が存在する．そのため，サービス提供者はユーザに特別な操作や設定などを求めることなくサービスを提供することが求められている．従来，機器の識別にはIPアドレス，MACアドレスやCookieなどの識別子が利用されている．しかし，IPアドレスは可変であり，Cookieなどを利用したホストの識別においても，ホストがCookieを受け入れない場合や，ユーザがCookieを削除することができるため，継続的にホストを追跡することが難しい．また，機器の識別子として利用されているMACアドレスは詐称が容易に可能である．さらに，近年普及しているノートPCなどは有線や無線といった1つの機器に複数のMACアドレスが付与されている場合が多い．そのため，有線と無線のインタフェースを持つ1台の機器を複数の機器として判断してしまう問題がある．これらの問題に対応するためには，IPアドレスやMACアドレス，Cookieなどの識別子以外で機器を特定できる方法が必要である．

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

それにしても、パケットのヘッダからどうやって利用者を識別するというのだろうか。その実現手法は「4. パケットヘッダ情報によるプロファイル手法」の節に書かれている。

4. パケットヘッダ情報によるプロファイル手法

ネットワーク管理者は，管理しているネットワークにおけるユーザの発信するパケットの情報を容易に取得できる．一般的なネットワークでは，セキュリティ対策やネットワークの運用の関係上，管理ネットワークと外部のネットワークとの中継点でトラフィックを監視できる場合が多い．しかし，ペイロードを取得する場合は電気通信事業者法などの観点からユーザ全員の同意を得なければならない．そこで，ペイロードを除いたパケットのヘッダ情報からホストを特定する手法を提案する．

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

電気通信事業法の通信の秘密侵害のことは意識にあるようだが、「ペイロードを除いたパケットのヘッダ情報からホストを特定する」というのはどういう方法なのか。これは、次のように書かれている。

4.1 事前実験

特定のユーザが情報を利用するデバイスにはユーザの利用形態によって発信する情報に特徴的なトラフィックパターンが現れる可能性が高い．そのトラフィックパターンを取得，解析することによって，デバイスの追跡が可能かどうかの事前実験を行った．

（略）

まず，発生頻度の高い識別要素にメールサーバの接続先情報があげられる．メールサービスは多くのユーザが利用し，複数メールサーバに接続しているホストは容易に絞り込みが可能であることが分かった．ホスト候補B, Cは複数のメールサーバにアクセスしており，メールサービスの利用および接続先サーバを識別要素とすることで，ホストBは2台まで，ホストCは32台まで絞り込むことができた．そのため，取得が容易かつ判別能力は高いといえる．次に，リモートログインもコミュニティによっては比較的使われやすいサービスである．取得の容易さはメールサーバ接続情報と比較した場合には劣るが，容易に取得でき，ホストごとに差異が出やすいことが分かった．ホストA, CはSSHを利用しており，メールと同じく接続先サーバを識別要素とすることで，ホストAは13台，ホストCは16台まで絞ることができた．このことから，メールよりも発生頻度は低いが，ホストの分類は容易にできるため，識別要素として利用できることが判明した．そして，OS情報はWindows，MacOSX，Ubuntuであれば取得可能であるが，OS情報はホストの絞り込みを十分にできなかった．そのため，メールやリモートログインと組み合わせて利用することでホスト判別基準の1つとして利用することが望ましいことが分かった．

（略）

4.2 判別手法

4.1節おいて，各ホストは利用状況に応じて，それぞれ特徴的なパケットを送受信していることが分かった．そこで，パケットのヘッダ情報からは，送信先，発信元IPアドレス，ポート番号，発信タイミング，利用サービスなどの情報を取得，組み合わせることで，プロファイルを作成しホストを識別する手法を提案する．

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

「特徴的なトラフィックパターン」というのが何だろうかと思ったら、なんのことはない。どこと通信しているかを調べているというわけだ。具体的には以下の記述がある。

利用サービス，アプリケーション利用時の接続先サーバも識別要素として利用できる．企業や大学に所属するユーザは，その組織が提供するサーバを利用するため，ユーザが利用したリモートログインサーバやメールサーバを基準とすることで，ホスト利用者の所属する組織，団体ごとにホスト群が作成できる．本論文では接続先サーバごとに分類したホスト群をホストの所属するコミュニティと定義する．それらの情報を取得し，ホストのコミュニティを識別要素とすることでホストを判別する．

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

続く「4.3」節には、公共の場で検証実験を行ったとの記述がある。

4.3 検証

パケットヘッダ情報によるホストを識別手法の検証を2つの環境で実施した．表2に検証環境を示す．まず，1つ目の検証は，200人以上の様々な企業や大学といった組織のユーザが参加するカンファレンスで行った．カンファレンスでユーザへのネットワークはすべて無線で提供されており，ユーザが保持するホストが発信したパケットヘッダ情報を収集して，特定を試みた．本手法の有効性を確認する実験をした期間は2009年9月7日17時44分から9月9日16時8分までである．次に，（略）

4.3.1 カンファレンスにおける検証

200人以上が参加するカンファレンスにおいてパケットヘッダ情報のみを利用した手法で，筆者の所属する研究会のメンバー6人が利用しているホストを特定できるか検証をした．対象のユーザのホスト情報は事前に収集し，カンファレンスで観測した246台のホストから，該当ホストを発見できたかどうかで検証する．（略）

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

カンファレンス会場で3日間にわたって無線LANの傍受を行ったようだ。

ところで、「200人以上が参加するカンファレンス」で無線LAN傍受をするに当たり、カンファレンス参加者の同意を得たのだろうかという疑問が湧いてくるが、この点について本文中には説明がない。この点については、アブストラクトに「200人ほどが参加するカンファレンスや学術ネットワークにおいてユーザの許諾を得たうえで実験を行い」と書かれているのみとなっている。*4

次の「5. ホストとユーザを結びつける手法」の節では、パケット傍受で特定したホストをその利用者個人と紐付けるために、次のことなどが提案されている。

本手法は，パケットヘッダ情報による識別でホストを一意に特定できた場合を想定し，特定できたホストとユーザを結びつける．具体的な方法として，ターゲットとするホスト所有者が特定の時間，ネットワークを利用している情報，もしくは利用していない情報をホストの情報と組み合わせてホスト所有者を特定する．ターゲットとするホスト所有者の在席情報を確認する方法は複数存在する．たとえば，情報収集者が，直接ターゲットのホスト利用者がネットワークを利用しているかを視認や，会議の出欠名簿などのリストから判断する，同じ場所でターゲットのホスト利用者と一緒にいたユーザがその情報を伝達，もしくは監視カメラなどにターゲットが映っている情報などを利用することがあげられる．（略）

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

法的な検討はされていないのかと、もう一度よく読むと、「3. デジタル情報の収集によるホスト，ホスト利用者の特定とその課題」の節に以下のように書かれていた。

本論文ではユーザが普段インターネット上に発信しているパケット情報を，ネットワーク管理者が観測し，組み合わせることでホストやユーザを特定する手法を提案する．本提案手法で利用する情報は，普段ホストが送信しているパケットヘッダ情報である．2010年度総務省においてDeep Packet Inspectionによるターゲッティグ広告の技術が取り上げられた際[9]に，ペイロードを取得することについて議論が巻き起こっている．そのため，ペイロードは取得せずにパケットヘッダ情報のみ取得することで，この制約を外すことや，ペイロードの取得に比べてユーザの同意が得ることが容易となる．本論文で述べるパケットヘッダ情報とは，IP，TCP，UDP，ICMPヘッダのことを指す．

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

ペイロードを見なければ合法と考えている様子が窺える。ヘッダだけと言うが、無線LANのIEEE802.11フレームのことならまだしも、TCPやUDPのヘッダを見ているというのだから、それは当然、通信の中身であり、総務省諸問題研の第二次提言にあったDPI広告の違法性検討に対して「この制約を外す」などということにはならない。*5

最後の節「6. 考察と今後の課題」で何か検討していないかと読み進めて行くと、そこに書かれていることは、「実際に事前にプロファイルを作成した3台のホストに関して，本人拒否率は100%であり，他人受入率は0%という検証結果が出た」とした後、「しかし，重要な識別要素となったSSHやIRCは，メールやWebブラウジングのみのユーザも存在するため，SSHサーバを利用しないようなユーザの特定も必要である」だとか、「本手法が対象とするアプリケーションの追加や，特徴の抽出をさらに細かく検討する必要がある」という課題が出てくるばかりだった。法的、倫理的、道義的課題についての記述は、この節の最後にあり、以下の取って付けたような段落のみであった。

本手法によって，サービス提供者はユーザに意識させることなくサービスを提供できる反面，ユーザプライバシに配慮する必要がある．本手法により，パケットヘッダ情報のみでホストの追跡が可能であるため，トラフィックデータの収集や譲渡の際にはユーザの同意を得る，オプトイン形式にするなどサービス提供者はユーザプライバシの配慮が求められる．

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

収集したデータの譲渡まで想定したようだが、これは「プライバシーの配慮が求められる」などというレベルではなく、通信の秘密侵害の違法行為かの問題である。無線LANを傍受して窃用するなら電波法59条違反であるし、構内LANのルータなどで収集するなら有線電気通信法違反に当たる場合が多いだろうし、電気通信事業者の取扱中に係る通信に対して行うのなら電気通信事業法違反である。

合法に実施するため、利用者の個別かつ明確な同意を得てするつもりであるなら、その手間を惜しまないはずであるから、そうならば、利用者にログインさせたりID連携させればよいわけで、この提案の必要性が崩れる。

そして、まとめの「7. 結論」には、お決まりの台詞が出てくる。

7. 結論

本論文の目的は，個人情報と定義されていない情報を効果的に活用することによって，ホストやホスト利用者を特定し，利用者を追跡することである．これによって，サービス提供者はユーザに合わせたサービスの提供ができ，ユーザも意識せずにサービスを利用することができる．

パケットのヘッダ情報を利用する手法では，MACアドレスを除くパケットのヘッダ情報から各ホストのプロファイルをもとに，該当するホストを特定した．（略）

ネットワーク通信情報の収集によるユーザ追跡, 情報処理学会論文誌, Vol.53, No.2

個人情報保護法の「個人情報」でなければ何をやってもいいという汚染は、とうとう（日本では）学術界にまで及んでしまった。これが極めて例外的な事案にすぎないことを信じたい。

*1 第三者cookieで与えられるトラッキング用IDの値は、仮にサーバから流出したとしても流出先では他の情報を紐付けることができないという意味で匿名IDであるし、唯一他の情報と紐付けられるのはその第三者cookieの発行元サーバ上においてだが、DoubleClick訴訟における和解条件の一つにもあったように、アドネットワーク事業者はそのような紐付け（実名との紐付け）を行わないことを約束することによって、オプトアウト方式が許容されてきた。

*2 プライバシーポリシーのcookieに関する説明で「cookieはいつでも消去することができます」と書かれているのをよく目にする。

*3 「プライバシを侵害や対策についた手法」は誤字があって意味がわからないが、文献[6]（この論文は1998年発表）を確認してみると、その内容は「民間を対象とするプライバシー保護法が存在しない我が国では，学校・企業・学会等の名簿を販売する業者が公然と存在し，情報統合によるプライバシー侵害の恐れは，より拡大する．本論文では，具体的を用いて侵害の可能性を示し，併せて，対策について考察する．」といったものであることがわかる。

*4 「許諾を得て」というが、拒否することはできたのだろうか？実験されるのを拒否した人がいたとしても、それを区別して傍受するしないを分けることはできないのだから、実験用SSIDと通常用SSIDの2つを用意してチャンネルを分けるなどする必要があると思われるが、そのようなことは行われたのだろうか。

*5 ISPのルータがIPヘッダをみてルーティングするのさえも、一旦は通信の秘密侵害とされ、正当業務行為として違法性が阻却されて、適法行為となっているにすぎない。

高木浩光＠自宅の日記

2012年06月30日

■ 追跡されない自由を奪う技術を肯定的に捉えた珍しい学術論文の例

最近のタイトル