<前の日記(2005年06月28日) 次の日記(2005年07月02日)> 最新 編集

高木浩光@自宅の日記

目次 はじめに 連絡先:blog@takagi-hiromitsu.jp
訪問者数 本日: 462   昨日: 3852

2005年07月01日

国会図書館のWebアーカイブ計画で技術的に考える余地

5月1日の風間さんの日記で私のことについて言及されていた。コメントを書こうと思いつつ、 2か月も経ってしまった。

某研究会で発表した時に「Webから勝手に情報を収集して,こういう高度な解析をおこなうのはけしからん!」とクレームをつけられて,さらに(略)

とあるが、収集したものを解析する話と、収集したものを再公開することとは 別だろう。収集したものを解析する行為に対して「けしからん」と偉い人が言っ たそうだが、驕り逞しいどこかの傲慢教授とかだろうか。

続く段落に、

高木浩光氏に相談した時には,「確かに,著作権的にはグレーな面もあると思う」というコメントを頂いた.

とあるのだが、これは収集したものを再公開することについてのものだ。

さて、これは、国会図書館によるWebアーカイブ計画についての話である。 Webロボットによって収集したものを自動的に公開するという計画だ。 この計画について、それから2か月が経過した6月30日には次のように報道され た。

  • 国会図書館、情報保存はお堅いサイト限定 反対多く転換, 朝日新聞, 2005年6月30日

    「全部集めて、全部公開する」という当初の方針に、法務省や音楽、出版、ソフトウエア関連団体から反対が相次いだため。特に個人のサイトには著作権やプライバシーを侵害しているものだけでなく、児童ポルノや犯罪教唆の情報まで含まれるものがある。

これは残念なことになったと考える人が多いだろう。私もそう思う。他にもっ とやりかたがあったはずだ。5月の風間さんの日記のときからいろいろ考えていた。 きっと国会図書館でもいろいろ検討されているんだろうと思っていたが、 国会図書館の「 インターネット情報の収集・利用に関する制度化の考え方(改訂版)」や「『インターネット 情報の収集・利用に関する制度化の考え方』に関する意見募集の結果について」 を読むと、私が期待していたようなことが検討された様子は見えない。少なく とも外から見える範囲では。

まず、Webの普及によって、従来なら出版物として発信されていたであろう情 報のいくらかがWebだけで発信されるようになり、国会図書館に記録される情 報が減る傾向にあるであろうことは由々しきことであり、Webの国によるアー カイブの必要性は理解できる。

しかし、従来、出版物のすべてを法に基づいて収集してきたことを、そのまま 同様にWebに適用しようとするのは誤りである。その理由はいくつかある。

第一に、従来の出版物は、出版に費用がかかることもあって、著者らが「出版」 という行為をひとつの区切りとして意識するものであったのに対し、Webの場 合には、完成していない文章でも随時掲載することが可能であり、「出版」と いう概念に対応する区切りというものが必ずしも存在しないという点で、性質 が同じではない。実際、(昔は)Webサーバのコンピュータで公開中のファイ ルを直接編集しながら HTMLを記述したこともあった。(もっとも、最近では、 いつ誰にコピーされて不正に再公開されるかわからないご時勢なので、そうい うことはほとんど行われないようになっているだろうが。)

第二に、Webという媒体は、出版のためだけでなく、通信のための一時蓄積の 場として使われることもある。たとえばチャットルームや、一部のタイプの掲 示板などである。一定時間後に消えていくことを前提に作成され、使用されて いるという、通信の場とみなすことができよう。コピーされて無断で再公開さ れることが著作権法上問題があるという前提から成り立って普及している、 Webの利用方法である。もし、いつ国会図書館にその瞬間のチャット内容を持っ ていかれ、再公開されるかわからないとなれば、こうした利用方法は消滅する ことになる。Googleが「キャッシュ」などと自称している無断コピー再公開の 仕組みは、違法である可能性もあって、現在は単に過渡期なのだと思う。

第三に、個人情報などを誤って公開してしまっていたページが、コピーされて 再公開されることになれば、削除を依頼しなくてはならないサイトがまたひと つ増えることになる。2003年8月には「Googleキャッシュで鳥取県個人情報流出の2次被害」という事故が起きていた。

しかし、この第二と第三の問題については、次のように解決できるのではない かと考えていた。

収集ロボットが、同じURLのページに対して複数回アクセスするようにする。 たとえば、1週間おきくらいの間隔で4回アクセスするようにする。この4回の アクセスで得られたそれぞれのページ内容に変化がない場合、それは「出版」 であるとみなすことにし、再公開する。変化のあったものは、通信用の一時蓄 積か、意図しない公開であったと推察して、蓄積しないことにする。1か月経 たなければ掲載されないことになり最新性が損なわれることになるし、いくら かの割合のページが収録されないことになるが、国会図書館の目的からすれば、 これで十分だと思われる。(1週間×4という期間の調整は必要であろうが。)

ところで、POSTメソッドによるアクセスについて国会図書館はどう処理するつ もりなのだろうか。おそらく、POSTによるアクセスはしないのだろうと予想す るが、国会図書館が掲げる「趣旨・目的」からすれば、POSTを除外する理由は ないことになる。実際、アクセス制限の意図というわけでもないのに、POSTで しか進まないようになっている(GETアクセスもできるが、そこへのリンクが POSTによるものしか存在しない)ページもある。

Web検索サイトのほとんど(おそらく全て)は、POSTアクセスによるページ収 集は行っていないようだ。明確な規定はないものの、POSTによるページは、 検索される対象にしないという合意が確立しているように思われる。同様に、 cookieを一旦セットしないとアクセスできないようにされているページ(アク セス制限の目的ではなく、直リンクを禁止するなどの目的によるもの)も検索 の対象としないことが合意されているように思う。

この際、国会図書館も、こうした技術的線引きを明確に打ち出してはどうだろ うか。

パスワード管理された制限アクセス情報・有償情報などは、自動収集(収集ロ ボットによる収集)の対象にはなりません。

インターネット情報の収集・利用に関する制度化の考え方(改訂版), 国立国会図書館, 2005年6月17日

という説明はあるが、それとは別に技術的線引きが存在し得る。先に挙げた 第一の問題点も、技術的線引きによって解決するかもしれない。

国会図書館の「考え方」には、収集拒否の申し出が可能と書かれているが、そ の点については、Googleなどが採用しているMETAタグなどによる機械的な拒否 の表明の機能も取り入れるべきであろう。収集され再公開されてから拒否を申 し出なくてはならないというのは、理不尽である。

しかし、METAタグ等による拒否、つまりオプトアウト方式で表明させること自 体、国がやることとしてはいかがなものか。

そもそも、Googleなどが、著作権侵害で告訴されるリスクを承知のうえで、オ プトアウト方式で強制的に世界のWebコンテンツのコピーを「キャッシュ」と 称して再公開しているのは、オプトイン方式ではビジネスが成り立たないため に他ならない。駆け出しのころのGoogleが、「検索して欲しければ、これこれ のタグを記入してください」と主張したところで、誰もそれに従ってはくれな い。著名になり、信頼も得られた今でこそ、「オプトイン表示のないページは ○月○日以降Google村八分とします」と方針転換しても、世界中の人々がそれ に従ってくれる可能性があるものの、一民間企業によるサービスの立ち上げで は、鶏と卵の関係にある。

それに対して国会図書館はどうだろうか。最初から信頼はある。それどころか、 国立国会図書館法によって国民に強制させることさえできる。

つまり、従来の国立国会図書館法によって納本を義務付けてきたのに相当する 「出版物」をWebコンテンツとして公開する者は、施行令などで指定された METAタグなどを記述しなくてはならないと、改正国立国会図書館法で規定すれ ばよい。それを無視する行為は違法ということになり、従来と違わない。

どんな基準で「出版物」に該当することになるのかが曖昧となるかもしれない が、先に述べたような、1か月間固定して公表され続けたものといった基準も 考えられるし、始まってから社会通念が形成されていくかもしれない。

今回の国会図書館の改定方針で、go.jp や ac.jp などのWebページに限定して、 オプトアウト方式で強制的に無断コピー再公開するつもりらしい。そういうや り方で始めてしまうと、一般のページに将来拡大させるのを難しくしてしまう かもしれない。「あんなふうにやられたくない」と。

どのみち、go.jp や ac.jp などだけに限定したのでは、本来の目的を達成で きないのであり、まずはできることから始めるので十分だというのであれば、 いっそ、オプトイン方式で初めてはどうだろうか。すべての .jp サイトを 対象として。そして、将来、「出版物」コンテンツにオプトインの表示を法律 で義務付ければよい。

本日のTrackBacks(全4件) [TrackBack URL: http://takagi-hiromitsu.jp/diary/tb.rb/20050701]

収集ロボットが、同じURLのページに対して複数回アクセスするようにする。たとえば、1週間おきくらいの間隔で4回アクセスするようにする。この4回のアクセスで得られたそれぞれのページ内容に変化がない場合、それは「出版」であるとみなすことにし、再公開する。変化の..

 総務省の官僚自身がブログで情報発信することを促す先日の記事に対して・・・2005/6/29 “ご自分たちでお始めなさいな”(館長)http://column.ch...

情報セキュリティ関係で著名な高木さんの意見です。結局WARPでの選択的収集を拡大して、将来、「出版物」に相当するページには、その旨の表示を付けることを義務付けるということでしょうか。つまり、従来の国立国会図書館法によって納本を義務付けてきたのに相当する 「..

 「isaの同時代フィールド・ノート」という、ウェブログ図書館からも多くの記事にリンクを張っていたブログが閉鎖してしまったようだ。 連...

検索

<前の日記(2005年06月28日) 次の日記(2005年07月02日)> 最新 編集

最近のタイトル

2018年06月17日

2018年06月10日

2018年05月19日

2018年05月04日

2018年03月07日

2017年12月29日

2017年10月29日

2017年10月22日

2017年07月22日

2017年06月04日

2017年05月13日

2017年05月05日

2017年04月08日

2017年03月10日

2017年03月05日

2017年02月18日

2017年01月08日

2017年01月04日

2016年12月30日

2016年12月04日

2016年11月29日

2016年11月23日

2016年11月05日

2016年10月25日

2016年10月10日

2016年08月23日

2016年07月23日

2016年07月16日

2016年07月02日

2016年06月12日

2016年06月03日

2016年04月23日

2016年04月06日

2016年03月27日

2016年03月14日

2016年03月06日

2016年02月24日

2016年02月20日

2016年02月11日

2016年02月05日

2016年01月31日

2015年12月12日

2015年12月06日

2015年11月23日

2015年11月21日

2015年11月07日

2015年10月20日

2015年07月02日

2015年06月14日

2015年03月15日

2015年03月10日

2015年03月08日

2015年01月05日

2014年12月27日

2014年11月12日

2014年09月07日

2014年07月18日

2014年04月23日

2014年04月22日

2000|01|
2003|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|05|06|07|08|09|10|11|12|
2012|02|03|04|05|06|07|08|09|
2013|01|02|03|04|05|06|07|
2014|01|04|07|09|11|12|
2015|01|03|06|07|10|11|12|
2016|01|02|03|04|06|07|08|10|11|12|
2017|01|02|03|04|05|06|07|10|12|
2018|03|05|06|
<前の日記(2005年06月28日) 次の日記(2005年07月02日)> 最新 編集