8月11日の日記に書いた件がその後どうなったか確認してみた。
いくつかの図書館では、/robots.txt が修正されたことにより、検索サイトで正常に閲覧できるようになった。
以前は、8月11日の日記に書いたように、三菱電機ISの図書館システム採用の図書館の多くが、/robots.txt によってすべてのクローラを排除していたため、図1の「ビフォー」のように異常な検索結果になっていた。
なぜそんな設定をしていたのかは、このシステムでは以前からアクセス障害が発生していたためであり、朝日新聞が次のように伝えている。
MDISは06年、不具合を解消した新ソフトを開発。東京都渋谷区など全国約45カ所に納入した。しかし、一部では旧ソフトが更新されずに使われ続け、広島県府中市で08年末、石川県加賀市で09年夏、大阪府貝塚市で09年末に閲覧障害が起きた。
岡崎の図書館では、今年3月に閲覧できなくなった。取材によると、MDISMは直後にアクセス記録から原因を把握していたが、図書館側に他の図書館で同じような閲覧障害が起きていたことを伝えていなかった。
このうち、大阪府貝塚市のケースについては、取材した神田記者がTwitterで次のように補足している。
続いて、昨日ご質問をいただいた他図書館の状況について。まずは記録のしっかり残っている大阪・貝塚市についてです。市によると、図書館には数年前からホームページが閲覧できない、画面が表示されないといった苦情が利用者から寄せられていました。*
ところが09年12月初旬になると、「ホームページを表示しない」「検索の結果が出ない」「貸し出し記録が表示されない」といった苦情がかなり頻繁に寄せられるようになったそうです。*
図書館の話では、MDISは「ロボットが入った検索がセッションをつかんで離さない状態になっている」と説明し、「3分間程度つかんで離さなくなったら自動的に再起動」することにしたそうです。具体的にどんな対策なのかはわかりません。*
MDISはその後、2010年1月にかけて、断続的にいくつかの措置を取っています。同年2月5日付けのMDISから図書館への報告書に、その内容が明記されています。それによると、とられた対策は(1)「利用者からの同時接続数の制限と接続タイムアウトの調整」、*
(2)「クローラー対策 クローラー閲覧抑止対応の強化(新着案内に追加)」、(3)「インターネットサービス監視ツールの設定変更 監視対象のコンテンツ画面を変更しました」となっています。 *
貝塚市とMDISの説明では、一つはrobots.txtを置き、METAタグを改良したこと。もう一つはウェブサーバーへの「同時アクセス数」を制限したことだそうです。データベース接続数ではありません。 *
ここでの「同時アクセス数」とは、一度に貝塚図書館のホームページにアクセスできる利用者の数のことです。これを100に絞ったそうで、つまり100人までしか同時にはアクセスできなくなりました*1。しかし、これはDDoS攻撃などには効果がありますが、*
クローラー対策にはなりません。クローラーは一人の利用者でしかないからです。その点についても取材で問い合わせましたが、MDISは「様子見をするための対策だった」としています。もう一点、貝塚はこのときにセッションタイムアウトの時間を300秒に設定しています。*(略)
他の図書館に関しては、時期が古いことや図書館側に資料が残っていない(すぐ出てこない)こともあり、そこまで詳細はわかっていません。石川県加賀市の場合、09年夏ごろ、ホームページが閲覧できなくなったり、本の検索ができなくなったりしました。*
MDISからの指示で、加賀市は閲覧障害時に再起動をかけるようになりました。MDISからは「激しいユーザーがいるのでアクセスに制限をかける」という報告があったそうです。その後状況は改善されましたが、今でも閲覧障害が起きることはあるとか。*
あとは、広島県府中市。こちらは08年の12月に閲覧障害があり、MDISが「海外からの不正アクセスでサーバーが圧迫されている」という趣旨の報告があったそうです。取られた処置については詳細不明です。*
三菱電機IS(MDIS)は、/robots.txt の内容に「Googlebot」などを明示して排除しており、通常の検索エンジンのWebクローラを排除していた。
これは明らかに普通でないわけだが、今月になっても三菱電機ISは、日経コンピュータの取材に対して、次のように見解を示している。
Web蔵書検索システムをダウンさせたとして、悪意のない利用者が5月に逮捕された愛知県岡崎市立中央図書館をめぐり、新たな個人情報流出事件が発生した。同図書館は、三菱電機インフォメーションシステムズ(MDIS)の図書館向けパッケージ「MELIL(メリル)/CS」を採用する。MDISは(略)
MDISは本誌の問い合わせに、「個人情報の流出については、ライブラリ管理などに不十分な点があった」(広報)と責任を認める。一方で、処理性能については「2005年に想定した処理のピークに耐えられるように、設計・構築した。製品に欠陥があるとは考えていない」(同)と回答する。
別のところの話として、私が入手した情報でも、三菱電機ISは(10月の時点でも)次のように説明しているらしい。
5年前に納入したシステムであり、順調に稼働していた。それが今年の3月に、一部大量アクセスがあった。インターネットは日々進化しているもの。進化している現在において、古いシステムと不整合があったと認識している。図書館様とご相談して、現在のインターネット環境でも一般の利用者に快適にお使いいただけるよう、強化対策をした。
ところで、いくつかの図書館では /robots.txt が修正されたが、三菱電機ISのシステムが使われているすべての図書館で修正されたかというと、そうでもない。8月11日の日記で列挙したうち、以下の図書館が、いまだに /robots.txt で全クローラーを拒否している。
たとえば八幡市民図書館は、今も以下の図のように検索サイトで正常に表示されない。
/robots.txt の件は、8月25日の時点で朝日新聞が次のように伝えていた。
愛知県の図書館でホームページへの接続がサイバー攻撃のように見える不具合があった問題で、図書館のソフトを開発した会社が接続の集中を緩和させるため、一部の接続を排除し、国会図書館の情報収集ができなくなっていたことが分かった。国会図書館は法律に基づき、自治体などが提供するインターネット情報を集めている。(略)
国会図書館は取材に「自動収集の受け入れは法律上の義務で、例外はない。法に基づいて是正を依頼する」とコメント。岡崎市立図書館は「問題を把握しておらず、MDISに確認し、対応を検討したい」と話し、MDISは「各図書館に問題を報告し、対応したい」としている。
図書館ソフト不具合 接続障害の対抗策 国会図書館も排除, 朝日新聞名古屋本社版2010年8月25日朝刊25面
三菱電機ISは「各図書館に問題を報告し、対応したい」としていたようだが、その約束は果たされていない。
9月10日に、複数の図書館に私が電話取材したところ、「三菱電機ISからその件についての説明は来ていない」という話だった。その後、/robots.txt が修正されたので、図書館側から要求のあったところだけが対応されているのではないか。8月11日の日記の追記に書いているように、岡崎市でさえ、/robots.txt が修正されたのは9月10日のことだった。
ところで、この国立国会図書館法に違反しているという件、どういうわけか「違法じゃない」と独自見解を表明する人が少なからずいた*2ので、解説しておきたい。
違法じゃないと主張する人は、国立国会図書館法には例外規定があって「ネット以外での国会図書館からの資料請求に応じていれば免除される」などと言うのだが、国立国会図書館法第25条の3第2項の例外規定というのは、
の部分であり、その「館長の定めるもの」というのは、「国立国会図書館法によるインターネット資料の記録に関する規程」の第1条で定められていて、次の2つのケースである。
これらがどういうケースなのか、国立国会図書館の担当部署(電子図書館課ネットワーク情報第二係)に9月7日に電話で尋ねたところ、前者は要するに電子申請システム等のことを指しており、後者は要するにstaticなページのことを指しているとのことだった。
違法じゃないと主張する人が言う「ネット以外での国会図書館からの資料請求」というのがどこから出てきたかというのは、おそらく、国立国会図書館法第25条の3の第3項の以下の文からの連想だろう。
第二十五条の三
3 館長は、第二十四条及び第二十四条の二に規定する者に対し、当該者が公衆に利用可能とし、又は当該者がインターネットを通じて提供する役務により公衆に利用可能とされたインターネット資料のうち、第一項の目的を達成するため特に必要があるものとして館長が定めるものに該当するものについて、国立国会図書館に提供するよう求めることができる。この場合において、当該者は、正当な理由がある場合を除き、その求めに応じなければならない。
これは、第2項に加えて課せられる義務であって、この義務があるからといって「第2項の義務が免除される」という発想がそもそもおかしいのだが、この第3項の「館長が定めるものに該当するもの」というのは、平成22年国立国会図書館告示第一号「国立国会図書館法第二十五条の三第三項のインターネット資料等に関する件」の1で、次のように規定されている。
1 国立国会図書館法(略)第二十五条の三第三項のインターネット資料は、次の各号に掲げる出版物と同等の内容を有するものであって、国立国会図書館の館長が自動収集プログラム(略)によっては法第二十五条の三第一項の記録を行うことができないものをいう。
この、「自動収集プログラムでは記録ができない」というのが何を指しているのかについては、9月7日に国立国会図書館から説明を受けた。それによると、次などのケースを指しているとのことだった。
つまり、国会図書館の自動収集プログラムの技術的な都合で収集できないものについては、別の手段での提供を求めることがあって、それに応じる義務があるというのが、第25条の3第3項の意味であり、/robots.txtで拒否というサイト側の都合によって、第2項の義務が免除されるなどということはない。このことは、国立国会図書館電子図書館課ネットワーク情報第二係の担当者に、電話でしっかりと確認した。
8月11日の日記に書いた、国会図書館の説明スライドがわかりにくくて誤解を招くとした件も、9月に修正されて新しい版が公開されている。
これで誤解なく周知されることだろう。その他にも、以下などでこの件は周知されていたそうだ。
収集方法は,主として収集用プログラム(クローラー)による自動収集を想定している。対象となる機関は,NDLによる自動収集を妨げるような設定を行っている場合には,それを許可する設定に変更する義務を負う。具体的には,サイトに置かれているrobots.txtファイルの変更が想定されている。
一旦は「各図書館に問題を報告し、対応したい」とした三菱電機ISだったが、2か月経った今も違法状態が解消されていない図書館があるというのは、もしや三菱電機IS内に「あれは義務じゃない」と主張している人でもいるのだろうか。