昨年3月2日の日記に書いた「Winny媒介型暴露ウイルスによるファイル流出被害発生件数の推移」について、その後の状況を調べた。集計方法は同じ。グラフの表示方法を若干改良した*1が、読み方の注意点は前回と同様である*2。
図1は、1日当たりの流出ファイル流通量(赤い点)(目盛りは左の縦軸)と、1日に新たに発見された流出ファイルの数(緑の線)(目盛りは右の縦軸)と、1日に新たに発見された同トリップ数(青の線)(目盛りは右の縦軸)の推移である。暴露ウイルスは一度に複数のファイルを放流し、その個数もまちまちであるので、緑の線は大きく変動する。被害発生件数は青の線で読み取ることができる。
新規流出件数(図1の青い線)の全体的な増減傾向を見るために、1か月ごとに集計したものを図2に示す。
暴露ウイルスの被害は減少傾向にあるようだ。2007年5月に被害が急増した*3が、2007年8月には元に戻り、その後は減少が続いた。ただし、ここ数か月は下げ止まっているように見える。
一方、流出ファイルの流通量(図1の赤い点)は、2007年5月をピークに減少に転じたものの、2008年1月ごろからは再び緩やかに増加している。
後で図5に示すように、Winnyネットワーク全体のノード数が減少し続けていることから、被害発生件数が減少しているのは利用者が減ったためとも考えられる。それにもかかわらず、流出ファイルの流通量は増大している。流出ファイルの流通量は、Winnyネットワークに流れるファイルに占める当該ファイルの割合を概ね示していると考えられる*4ので、流出ファイルの流通量が増加するのは、単純に、流出ファイルの総数(過去に流出したものを含む数)が増加することに伴って、ファイル全体に占める割合が増加していることによるものなのかもしれない。
あるいは、流出ファイルの収集家が増えている(あるいは減っていない)ことによるものとも考えられるが、全体的に見て、2007年2月から2007年11月にかけてブームが生じていただけで、それが過ぎ去った後の流通量の増加傾向は、元からのものだったとも言えるかもしれない。これについては、流通ファイルの寿命別の分析や、流出ファイル収集家の動向を集計することで解明できるかもしれない。
次に、拡張子偽装ファイルについて、流通量と新規発生数の推移を図4に示す。
流通量(赤い点)が2008年1月あたりから急激に減っているように見える。それまでも減少していたが、質的な変化があって減少しているように見える。ウイルス作者が逮捕された(著作権法違反と名誉毀損罪で起訴)のは2008年1月24日であったが、これはその影響だろうか。新規発生数の減り方より急激に見えるので、拡張子偽装ファイル(ウイルスファイル)の収集家が減ったのかもしれない。これは、拡張子偽装ファイルの寿命を調べれば解明できるかもしれない。
新規発生数を1か月当たりで集計してみたところ、図4のようになった。2008年2月に半減しているが、元から減少していたので、これがウイルス作者逮捕事件の影響かどうかは不明だ。
拡張子偽装ファイルは大幅に減少したものの、それでも今もなお、新たに作り続けている輩がいて、1日に数百個ほど放流されているようだ。ここ数か月は、流通量も横ばいとなっている。
なお、暴露ウイルスはこれらの拡張子偽装ファイルだけに潜んでいるわけではなく、zipファイルの中に含まれるものもあるので、この結果から単純にウイルスが減ったと言うことはできない。
最後に、Winnyネットワーク全体のノード数の推移を図5に示しておく。引き続き減少中のようだ。
上記図1の集計に用いたデータから、それぞれのファイルの寿命*5を求めてみた。
図6と図7は、流出ファイルのそれぞれについて、最も古いキー時刻から最後に観測された時刻までの経過時間(日数)をプロットしたものである。縦軸がその日数であり、横軸は、図6では最後に観測された時刻とし、図7では最初に観測された時刻とした。ファイル数は8万4千個であるが、グラフが濃くなりすぎたので半分に間引いて表示している。
これから何が読み取られるか。
まず、図6の右端に集中している部分は、今も流通し続けているファイルを示している。それより左にプロットされたファイルは、今は流通していないファイルである。ここで、縦方向に集中した塊がいくつか見える。たとえば、2008年11月中旬から12月中旬までにかけた大きな塊がある――(A)し、2008年4月、3月や、2007年9月にも同様の塊があるように見える。
これは、そこにプロットされたファイルがその時刻以降観測されなかったことを意味しているのであるから、そのときに集中して、流出ファイルの共有が止まったことを意味している。流出ファイルの共有をやめた者がいたのだろうか。
これらの塊は図7においては斜めの線状の塊として現れている。(A)の塊に対応する斜めの塊について見ると、2007年11月までに集中していることから、流出ファイルを2007年11月まで収集していたノードが、その共有を2008年12月中旬にやめた(あるいは2008年11月中旬ごろに共有状態にして12月中旬ごろにやめた)ということだろうか。
これらが、一人の者の行動が現れたものなのか、それとも、同時期に中止する者が多数現れたものなのか、別の集計で調べてみればわかるかもしれない。
次に、「被参照量」から算出した共有数(転送されたブロック数を表す被参照量をそのファイルサイズで正規化した値)の(各ファイルにおける)最大値と、寿命日数の関係を図8に示す。(8万4千個の全データ。)
寿命の長いものが共有数も多くなる傾向は若干見られるが、寿命が短いものでも共有数が大きくなっているファイルも多数ある。
また、共有数について900あたりに上限があるように見える。これは何だろうか。流出ファイルの収集家が900人くらいいるためなのだろうか。(関連「キンタマコレクターは約1000人もいるらしい」)
図9は、ファイルの出現時刻ごとにその共有数をプロットしたものである。
これを見ても、共有数900あたりに上限が見られる。これが流出ファイル収集家の人数を表しているとすると、人数はほとんど変化していないということだろうか。
また、2007年5月上旬に、共有数が3000くらいまで伸びたという特徴が見られる。やはりこのときは異常な事態になっていたようだ。
最後に、流出ファイルの流通寿命日数の頻度を示す。
寿命 件数 累積割合 0 9002 10.7% 1 1979 13.1% 2 1220 14.5% 3 918 15.6% 4 723 16.5% 5 670 17.3% 6 635 18.0% 7 563 18.7% 8 514 19.3% 9 401 19.8% 10 348 20.2% 11 369 20.6% 12 372 21.1% 13 377 21.5% 14 346 21.9% 15 301 22.3% 16 290 22.6% 17 285 23.0% 18 269 23.3% 19 255 23.6% 20 257 23.9% 21 276 24.2% 22 242 24.5% 23 243 24.8% 24 233 25.1% 25 230 25.4% 26 217 25.6% 27 218 25.9% 28 207 26.1% 29 197 26.4% 30 210 26.6% (以下略)
寿命が0日だった、つまり一瞬観測されただけでそれ以降現れることのなかった流出ファイルは、約8万4000件のうちの約9千件で、10.7%を占める。寿命が1日だった(翌日まで観測された)ものが1979件で、0日のものと合わせて13.1%を占める。寿命が10日以内だったものが 20.2%を占め、30日以内だったものが26.6%を占めている。つまり、30日より長く観測された流出ファイルが 73.4% を占める。
なお、この値は、最近流出したばかりでこの後どうなるか未定のものも含まれているので、短いものが多めにカウントされている点に注意。
これをグラフにしたものを図10に示す。
「流出したもののすべてが永久に流通するわけではない」とよく言われるが、短期間で消えるものは思ったより少ないようだ。(もっとも、このクローラで一回も観測されなかったものが存在して、ここにはカウントされていない可能性もあるが。)
これは、流出ファイルを集めて共有し続けている悪質な輩がたくさんいるからであり、この流通を止め、存在期間を短くする方向になんとかもっていけないものだろうか。
*1 観測停止期間の値を0として表示するようにした。赤い点が0を示している期間が観測停止期間である。
*2 緑の線と青の線がときどき急激に高い値を示している部分があるが、これは、観測停止期間の直後に起きているもので、観測停止期間中に発生した流出のファイルは、観測再開後に集中的に新規発見として観測されるため、このように件数が急激に高い値を示す。特に半月にわたって停止していた6月前半の直後の高い値が目立つが、これらの部分は無視して読めばよい。同様に、赤い点がときどき極端に小さな値を示している部分があるが、これも1日のうち部分的に観測が停止していた時間があるために観測数が少なくなっていることを意味している。
*3 2006年11月くらいまでの値は、観測の初期段階であるため、古い流出ファイルが初めて観測される事態が起きるため、他の期間より大きな値となっていると考えられるので、信頼できない。
*4 全体ノード数の減少にともない、クローラーの巡回周期は短縮化されるが、時間あたりに観測されるキーの総数は一定である(1日に約1500万個のキーを観測している)。
*5 正確には、寿命というより、現時点での生存期間。