ぼくんちのTV別館では昨日(2010/10/24)から、大きな企業・官公庁・教育機関等々で使われている、プリフェッチ型のプロキシサーバーからのアクセスを一部制限しています。

一般家庭からのアクセスには影響は出ないよう、bot、クローラーのみを排除しているつもりです。しかし素人に毛が生えた程度の人間が作ったモノで、不完全です。問題が発生したユーザーさんにはご迷惑をおかけします&ご協力をお願いします。

制限ページはこんな感じ

制限中画面
▲制限された接続元からアクセスすると、このような画面が出ます。

(私が企業プロクシを良く分かっていないので)通常閲覧してもこのページが現れる可能性があります。この画面が現れた場合は、「制限解除リンク」をクリックして下さい。現在クリックしたアクセスを解析し、手動で制限対象から除外しています。

企業プロクシからのアクセス

大企業や官公庁・教育機関で使われているプロクシサーバーには先読み機能がついており、1回のアクセスで5~7ページを一気に取得して行きます。

集中アクセスのログ
▲クリックで拡大。先読み型プロクシサーバーからのアクセスは感じ。

アクセスが集中している時間帯では、これがかなり大きな負担です。
サイト内のアクセスを詳細に解析した所、この先読みデータは99%活用されていない気がしたので、思い切って全部遮断してみるテストを行っています。

ご協力のお願い

制限ページが表示された方は、JavaScriptオンにして「制限解除リンク」をクリックして頂けるよう、お願いいたします。

現在、2日間で5時間ほど稼動させ、300回強のアクセスと推定1500回の先読みリクエストを遮断しています。しかし(こちらで想定したアクセス元から)「制限解除リンク」をクリックしていただいた方は、今の所いらっしゃいません。

Bot排除のため、JavaScriptが有効になっていないと作動しないようにしていますが、該当プロクシ経由したページは全てJavaScript無効なんでしょうか?それとも本当に先読みページは全く活用されていないんでしょうか?

 先読みプロクシは全部規制しちゃって大丈夫なのかな?

紙copiユーザー様へ

紙copi等の先読み機能を実装したブラウザ型多機能ツールの一部にも反応するかもしれません。
制限ページが出現した場合、同じくご協力お願いします。

先読みプロクシ参考リンク

先読み蓄積型・協調型キャッシング・プロキシ・サーバの実装と評価
慶應義塾大学 山中研究室 » コンテンツ配信網

インターネット上のトラフィックを軽減させ、Webページを高速に表示させる素晴らしい技術ですが、ウチのような「中途半端な規模」・「サイト内でのアクセスがバラけている」場合にはあんまり効果が無いです。負担が大きいだけです。

さいごに

この制限はまだ試験的な導入で、1日に2~3時間ほど稼動させているだけです。どの程度の効果&支障が発生するか、いろいろ計測中です。

企業向けプロクシサーバーの挙動が全く解らず、想像のみでスクリプト組んでいます(^_^;
本格的に実装してみたら閲覧制限を受けたユーザーさんが大量に発生した。。。。なんて事が起きないよう気をつけていますが、精度を上げるには閲覧している皆様のご協力が必要です。

制限ページが表示された場合は、「制限解除リンク」へのアクセスして下さい。
「制限ページにリンクが表示されないよ?」
「解除リンクをクリックしたのに、一向に改善しないよ?」
ってな場合はこのページのコメント欄に一言を、、、
ご協力をお願いしますm(_ _)m