<前の日記(2009年10月07日) 次の日記(2009年10月23日)> 最新 編集

高木浩光@自宅の日記

目次 はじめに 連絡先:blog@takagi-hiromitsu.jp
訪問者数 本日: 315   昨日: 1702

2009年10月17日

誤報是正「無罪判決でWinny利用者増加」は誤り

上記の報道があり、たくさんの人々がこれを鵜呑みにしたようだが、増加した事実はない。

8月22日の日記に書いたように、5月から、Winnyネットワークに対して、ランダムなIPアドレスをソースノードとした偽キーの散布が、目的不明ながら、何者かによって断続的に実施されている。これは、その後も継続しており、現在も続いている。8月22日の日記の図4のグラフを現時点のデータで示すと、以下のようになる。灰色で塗りつぶした区間が、偽キー散布の影響を受けた期間である。

グラフ
図1: 通常の方法で集計したノード数の推移

青の線(下の線)は、クローラが1回巡回する間に受信したキーから抽出したノードの数で、これを過去24時間で累積したのが、黄色の線(中央の線)である。

ランダムIPアドレスの偽キーが散布されると、青の線も若干増加するが、その数は1000個程度(2%程度)なので、ほとんど目立たない。これが、24時間分蓄積されると、6万個ほどになるため、黄色の線では極端なピークとして現れている。

キー散布は、なぜか断続的に行われている*1ため、散布が行われなかった期間、つまり黄色の線の底辺部分を見ることで、実際のノード数の推移を推察できる*2。しかしながら、10月に入ってから、キー散布が連続して行われているため、これでは増減を判別できない。

そこで、これまでのキーの観測記録を元に、偽キー由来と思われるノードを除外して再集計(30分を超えて2回以上現れることのなかったキーを除外して集計)してみた。これには長い計算時間を要すので、ひとまず9月20日以降の分だけを集計した。この間のキーの数は約46億個で、集計に48時間かかった。

写真
図2: Winnyネットワーク観測データ集計システム

その結果を以下の図3に示す。緑の線(上から3番目)がそれで、黄色の線から偽キーを除外したものである。

グラフ
図3: ランダムIPアドレスを除外して集計したグラフ(緑の線、上から3番目)
9月20日〜10月16日分、(縦の破線は判決の最初の報道があった時刻)

このように、実際のノード数は増加していない。(休日に多くなるのはいつも通り。)

緑の線と黄色の線の差が偽キーによる増分であり、緑の線と黄色の線が平行している部分(灰色でない区間)でもいくらか差があるのは、現れて30分以内に消えた実在ノードも一緒に除外されてしまったためと思われる。

灰色の区間が偽キー散布による影響を受けている期間であるが、そのうち、濃い灰色の区間は、偽キー散布が行われていた期間で、淡い灰色の部分は、偽キー散布が止まって以後、ノード数集計に影響が残る期間(散布中止から24時間後まで)を表している。

このグラフを、ネットエージェント社発表のグラフ(図4に引用)と比べてみる。

グラフの読み方として、私のグラフとネットエージェントのグラフでは、横軸の目盛りが1日ずれて見える点に注意が必要である。私のグラフで「10/08」の目盛りの値は、10月8日0時0分の時点での過去24時間のノード数であり、これは、ネットエージェント社のグラフでは、「10/7」の目盛りの値に対応していると思われる。

そうして見ると、ネットエージェントのグラフの値は、図3のグラフの赤の線(上の線)の、各日付の0時0分の目盛りの値に概ね一致している。このことから、ネットエージェントのノード数データは、ランダムIPアドレス散布の影響を除外できていないと考えられる。

そもそも、図4のネットエージェントのグラフだけ見て、「判決後にノード数が増加!」と書いてしまうメディアもどうかしている。「10/8」と「10/9」が平日なのに休日並みに多くなっているということなのだろうが、「10/5」や「10/1」も平日なのに同程度に多いわけで、おかしいと思わないのだろうか。(そして、それらは、図3の「10/09」「10/10」「10/06」「10/02」の部分であり、ちょうど偽キー散布によって水増しされていた日である。)

ところで、8月にこの事態について書いた際、偽キー散布について、「Winny利用者が増えているということにしたい何者かが、ネットエージェント社のノード数発表の頃合いを見計らって、ノード数の水増しを謀っているのではないか」といった声が出ていたが、はたしてそれはどうだろうか。

私がそれを疑わずに、大学等での実験ではないかと考えたのは、もし、ノード数の水増しを謀るなら、もっとうまくやるはずだと思うからだ。図1のように断続的に散布したり中止したりを繰り返す意味がわからない。もっとうまく散布されていたら、私も水増しに気づかなかったかもしれない。

今回、10月8日(高裁判決の日)以降連続して偽キー散布が行われており、意図的なものかという感じもしなくもないが、判決によって増加したことを演出したいなら、判決前の10月1日から散布されていたのは何なんだということになる。もしかして、有罪と見越して「高裁でも有罪判決でWinny利用者激減」という演出を予定していたというのだろうか?(それにしては、判決前の8日午前0時から偽キー散布が開始されているわけで、どういう説明がつくのか。)

いずれにせよ、もし今後、この偽キー散布が自然な方法に進化していったなら、実験ではなく意図的な水増しだという可能性を疑う必要が出てくるかもしれない。

ちなみに、Winnyネットワークのノード数調査は、中央大学のJVNRSSでも実施されており、2007年10月以降のデータが掲載されている。

こちらでは、1時間当たりの数として集計されているので、偽キー散布の影響はほとんど現れていない。(1時間当たりのランダムIPアドレスの数は、2000〜3000個程度であるため。)

追記

10月23日の日記に続編を書いた。

*1 常時行われていないことから、パラメータを変えて繰り返すといった、研究目的の実験ではないかと考えられるが、何を目指した実験なのかわからない。

*2 なお、赤のグラフが9月13日以降、2万ノードほど増えたままの状態が続いているように見えるが、これは、9月13日にプロトコルライブラリのバグを修正した(当時のTwitter発言12345)ことの影響が考えられ、これについては現在調査中。

本日のTrackBacks(全13件) [TrackBack URL: http://takagi-hiromitsu.jp/diary/tb.rb/20091017]
luminのコードメモ:偽拡散 (2009年10月21日 11:59)

増えているとはいってはいないんですけどね。 偽拡散キーはWinnyユーザにも迷惑をかけないようにきれいに投げてほしい今日この頃。

高木浩光@自宅の日記
『誤報是正「無罪判決でWinny利用者増加」は誤り』
を読んだ

情報は まず うのみ にしないほうがいいみたいだ

検索

<前の日記(2009年10月07日) 次の日記(2009年10月23日)> 最新 編集

最近のタイトル

2016年04月23日

2016年04月06日

2016年03月27日

2016年03月14日

2016年03月06日

2016年02月24日

2016年02月20日

2016年02月11日

2016年02月05日

2016年01月31日

2015年12月12日

2015年12月06日

2015年11月23日

2015年11月21日

2015年11月07日

2015年10月20日

2015年07月02日

2015年06月14日

2015年03月15日

2015年03月10日

2015年03月08日

2015年01月05日

2014年12月27日

2014年11月12日

2014年09月07日

2014年07月18日

2014年04月23日

2014年04月22日

2000|01|
2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|05|06|07|08|09|10|11|12|
2012|02|03|04|05|06|07|08|09|
2013|01|02|03|04|05|06|07|
2014|01|04|07|09|11|12|
2015|01|03|06|07|10|11|12|
2016|01|02|03|04|
<前の日記(2009年10月07日) 次の日記(2009年10月23日)> 最新 編集