メニュー
Infomation
■お知らせ
[スパム対策]コメントにURLを含めると自動的に削除されます。
■このサイトについて
一応残していますが、全時代の遺物。全ての情報は古く役に立ちません 連絡先:メールアドレス
■日記更新情報
RSSRSS|RSS(本文のみ)|lirs
実験&リサーチ
巡回先
製作環境
 

 



2004|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|11|12|
2011|01|
2014|05|08|
2017|07|
2018|03|
2020|08|10|
2021|11|

2009年03月13日(Friday) [長年日記]

_ [日記][コンピュータ] Googleからのクロールがキツい

Webのハードウエアリソース配分考えていて気づいたんですが、最近Googlebotからのクロールがきっついすね。。


PCサイト向けGooglebot/2.1;のクロールがたった1日で36,222Page/Dayもありました。

そしてGooglebot-Mobile、何故かDoCoMo/2.0 N905iを偽装のクロールが26,146/Day。

同じくGooglebot-MobileでSAMSUNG-SGH-E250を偽装しているものが12,370/Day。

機種別に違う内容を返すサイトのためにそれぞれ設定しているんでしょう。


その数合わせて74,738Page。転送量は500M前後にも及ぶ。

いや、もう割合で言ったら全体の80%くらいです。

てか、このサイトそんなにページ数あったっけ・・・。

site:www.knonline.netでググってみるとかなりのページ数がインデックスされてるようなので間違ってはいないのかもしれませんが・・・。

日記の日付、例えばxxx/?20090313とかまでクロールするのは仕方ないというか、そうして欲しいのですが、それ以外にもリンクとして存在するものは舐めるようにクロールしていくようですね。

これだけクロールされるとリソースのほんとんどをGoogleのbot向けに費やしているということに・・・。


いくらなんでも多すぎる、とおもって(よりによって)Googleで検索してみると、Googleのクロールはそういうもんみたいですね。

そのくせ、こっちからGoogle検索を連続で機械的にリクエストすると途中からアクセス拒否食らうんですけどね・・。


そういえば、かなり昔に設置して最近まで使っていたやや重めのcgiが、たまに物凄い負荷になってコケていたのを思い出しました。

負荷を考えて撤去したんですが、もしかしたらGooglebotからのアクセスはじけば良かっただけなのかも・・・・。

今後何かしらの動的コンテンツで負荷が高いページが必要になるときは、そのページだけ検索ロボットからのアクセスを拒否するか、静的コンテンツ返すかなどの対策が必要だと思います。


世界中のネットワーク資源の半分くらいはGoogle絡みなんじゃないだろうかと本気で思いました。

Googleさんパネェっす。

本日のコメント(全3件) [コメントを投稿]
§ Takayuki Okazaki (2009年03月13日(Friday) 15:38)

Google Web Master Toolでクロールの頻度を下げる方向には設定ができますよ。

§ Suika (2009年03月13日(Friday) 22:24)

>Takayuki Okazakiさん<br>おお、こりゃ面白いですね!

§ Suika (2009年03月13日(Friday) 22:27)

先日サイトを運用しているOSがWindowsからFreeBSDに変わったのですが、その直後にすごいクロールが来ていますね。<br>なんか異変を察知したんでしょうか(笑<br>静的ファイルのタイムスタンプが微妙に変化したせいかもしれません。


最近のコメント

364,000 at 2008.06.14
Copyright (c) Suika KNOnline.NET