先月25日の日記で書いた「行動ニーゲティング広告」のひとつとして、Winny利用者に向けたメッセージを表示する公共広告「AC4ny」を実験的に設置してみた。Winnyを使用中のIPアドレスからこの日記にアクセスした際に、図1のメッセージを表示する。
ただし、最大約2時間遅れで反映される*1ので、その間にIPアドレスが変わっていた場合、自分は使っていなくても、そのIPアドレスの前の使用者がWinnyを使っていた場合に、この広告が表示されることも起こり得る。また、ケーブルテレビ系ISPなど、NAT内からのアクセスになっている場合、自分は使っていなくても同じアドレスで誰かが使っていれば、この広告は表示される。
ざっと過去のアクセスログと突き合わせてみたところ、この日記の閲覧者のつこうてる率*2*3は、平常時で 1% 弱、特別に関心を呼んでいるケースで 2% 弱くらい*4のようだ。
これを発展させれば、流出ファイル収集家や、ウイルス入りファイル頒布者、児童ポルノ収集家などに向けて、それぞれにそれ相応のメッセージを出すこともできる。ただ、そこまでやってよいのかどうかだ。
2006年から稼働させているクローラでも、すべてを記録しているわけではない。ノードに接続すると先方から検索クエリが送られてくることもあり、そこにはどのファイルをダウンロードしようとしているか、どんな検索をしているかが書かれているはずだが、プライバシーに配慮して(検索サイトで検索語のログを不用意に公開したりしないのと同様に)これまでは記録してこなかった(クラスタワードは記録しているが)。
一方、キー情報は、不特定多数に向けてファイルを送信可能にしていることを示すものであり、プライバシーを主張するべきものではない。不特定多数への送信は、送信可能にする者が自覚を持って責任を負うべきことであるからだ。そのように考えて、これまではキー情報を中心に観測してきた。
ただ、実態解明の目的で、検索クエリの内容を集計することも有意義かもしれず、今後どうするかはわからない。
ちなみに、「特別に関心を呼んでいるケース」とは、具体的には1月3日と24日で、通常の倍くらいになっていた。なぜこれらの日がそうなのかは謎だ。
*1 直前のクローリング一回(巡回の一周)で観測されたキー情報に記されたIPアドレスを用いている。巡回の一周に約1時間、キーの有効期限が25分、データのアップデート間隔が20分なので、最大約2時間前に使用していたものが反映される。隣接ノード情報を使用していないので、キーを発信せず稼働しているだけのノードは「使用中IPアドレス」と判定されない。最初は、隣接ノード情報も含めて(クローラで検出している全ノードを使用して)いたが、隣接ノード情報はかなり長時間にわたって残存するようで、(IPアドレス変更時の)誤判定率が高くなりそうなので、それは除くようにした。これを除いたところ、当該アドレスは約10万個から約4万個に減った。たまたま一回の巡回でキーが観測されなかっただけでも対象外になるので、何周か分をまとめた方がよいかもしれないが、そうするとIPアドレス変更時の誤判定率が高まる。このあたりの調整は難しい。余談だが、じつは同様に、ノード数調査においても、隣接ノード情報を含めて用いていることは、実際よりもノード数を多めにカウントしてしまっている疑いがある。隣接ノード情報の残存期間とノード数カウントへの影響量について調べる必要がありそう。金子勇著「Winnyの技術」には、「ノード情報テーブル」から古いノードをどういう条件で破棄するかについての記載がない。おそらく、接続を試みて接続に失敗するまでは残存し、その間にも他ノードへ隣接ノード情報として配布してしまっていると思われる。昨年9月に参加した「P2P の現状 〜Winnyp の解析と P2P ノードの見せる化〜」で発表のあった「見知らぬ接続要求を受信する」事象の継続時間の件も、主に隣接ノード情報が影響したものだろう。一旦使用をやめたWinny利用者が、何日か経って再び使用し始めたときに、Winnyは古い隣接ノードへ接続することになるので、それがこの事象をもたらすし、クローラも有効なノードとしてカウントしてしまう。
*2 IPアドレスの割合であり、人の割合とは一致しない。たとえば、平日のこの日記の閲覧者の多くは企業からのもので、アクセスログにはプロキシやファイアウォールのIPアドレスで記録されるため、かなり多くの人が1つのアドレスで記録されている。そのため、人の割合としては、母数が大きくなるので、つこうてる率はより小さいと考えられる。
*3 ボットアクセスを可能な限り集計から除いている。
*4 現在の使用中アドレスを、過去の(1月1日から昨日までの)アクセスログのアドレスと突き合わせたたところ、平常時で 0.5% 〜 0.8% だった。日に日に増加しており、これは、古い日はIPアドレスが変わっていてカウントされないことを示している。リアルタイムの突き合わせならば、これより少し多くなると思われるので、1% くらいではないかと予想する。これは後日集計する予定。サイトごとに訪問者のつこうてる率を表示できるようになると面白そうだが……。
Winny がパソコンに入っているのを検出する …… これはなかなか便利なものだ。高木氏の想定している以上に、効用がある。
さてさて、今日のネタを漁りに行こうか。何でしょうね。何となく明るい話題が少ないよ
●出費 出費の計算を間違えて計画より厳しいことにw 通帳の数字がヤバイッス。今月のお給料までは出費を抑えねば。。 ■高木浩光@自宅の日記 - ターゲット公共広告「AC4ny」を開始 気持ち悪。ただ、P2Pに広告を絡めていくとこういった方法もありかなと思う。 ■トラ...