Webのハードウエアリソース配分考えていて気づいたんですが、最近Googlebotからのクロールがきっついすね。。
PCサイト向けGooglebot/2.1;のクロールがたった1日で36,222Page/Dayもありました。
そしてGooglebot-Mobile、何故かDoCoMo/2.0 N905iを偽装のクロールが26,146/Day。
同じくGooglebot-MobileでSAMSUNG-SGH-E250を偽装しているものが12,370/Day。
機種別に違う内容を返すサイトのためにそれぞれ設定しているんでしょう。
その数合わせて74,738Page。転送量は500M前後にも及ぶ。
いや、もう割合で言ったら全体の80%くらいです。
てか、このサイトそんなにページ数あったっけ・・・。
site:www.knonline.netでググってみるとかなりのページ数がインデックスされてるようなので間違ってはいないのかもしれませんが・・・。
日記の日付、例えばxxx/?20090313とかまでクロールするのは仕方ないというか、そうして欲しいのですが、それ以外にもリンクとして存在するものは舐めるようにクロールしていくようですね。
これだけクロールされるとリソースのほんとんどをGoogleのbot向けに費やしているということに・・・。
いくらなんでも多すぎる、とおもって(よりによって)Googleで検索してみると、Googleのクロールはそういうもんみたいですね。
そのくせ、こっちからGoogle検索を連続で機械的にリクエストすると途中からアクセス拒否食らうんですけどね・・。
そういえば、かなり昔に設置して最近まで使っていたやや重めのcgiが、たまに物凄い負荷になってコケていたのを思い出しました。
負荷を考えて撤去したんですが、もしかしたらGooglebotからのアクセスはじけば良かっただけなのかも・・・・。
今後何かしらの動的コンテンツで負荷が高いページが必要になるときは、そのページだけ検索ロボットからのアクセスを拒否するか、静的コンテンツ返すかなどの対策が必要だと思います。
世界中のネットワーク資源の半分くらいはGoogle絡みなんじゃないだろうかと本気で思いました。
Googleさんパネェっす。
Google Web Master Toolでクロールの頻度を下げる方向には設定ができますよ。
>Takayuki Okazakiさん<br>おお、こりゃ面白いですね!
先日サイトを運用しているOSがWindowsからFreeBSDに変わったのですが、その直後にすごいクロールが来ていますね。<br>なんか異変を察知したんでしょうか(笑<br>静的ファイルのタイムスタンプが微妙に変化したせいかもしれません。