ホーム> HTMLに役立つヒント > 他力本願検索
各種サーチエンジンのうち、ロボット型の検索エンジンの中には、特定のサイト内だけを検索できる機能を持ったものがあります。この機能を利用してみようという他力本願ページです。
ただしこの方法、あくまで「サイト単位」なので、プロバイダの個人領域だけ、例えば「www1.kiwi-us.com/~mizusawa/」といった限定ができません。また、クロール(インデックス作り)の間隔も指定できませんので、頻繁に内容を更新するサイトにも不向きです。 [改定日: 06/04/13 20:40]
googleはロボットの間隔が長いみたいですね。最初は半年も前のデータでした。最近、おもしろいことに気がつきました。4/9にクロールされたらしいデータが検索できるようになったのは、約1ヶ月後の5/2(確認時点。4/30にはもっと古いデータだった)なんです。クロールからデータベースに登録されるまでこれだけ時間がかかっていることになりますね。ここら辺にgoogleの弱点がありそう。
2001/5/7:おろ? 5/2には下の検索で480ファイル程度見つけてくれたのに、今日検索させてみたら254件しかみつけてくれなくなった。「コンパクトカメラデータ掲載機種リスト」のキャッシュを見たら307機種目の途中でファイルがとぎれている。これが原因か? となると、5/2時点から5/7までの間にクロールしていることになり、けっこう間隔は短いことになる(機種リストは最後まで読み込まれていないので、いつ時点の機種リストかはわからない)。
次回はいつのデータかわかるように、掲載機種リストに作成日時を入れることにした。
2001/7/5 あれから2カ月経ちましたが、本日現在で確認してみても、「コンパクトカメラデータ掲載機種リスト」は2001 年5月24日のもので、前述のように途中でファイルがとぎれている。それにしてもホントーに長いクロール間隔だなぁ。
2002/1/22 カワテツさんからサイトの限定のしかたを教えていただきました。「<input type="hidden" name="sitesearch" value="www1.kiwi-us.com">」なんて感じでsitesearchを渡してやると検索サイトの限定ができます。しかも検索窓にはサイト名が表示されません。残念ながらそれ以上の絞り込み(たとえば"www.kiwi.ne.jp/~mizusawa">)というようには行かないようです。 カワテツさんご自身は「Reference Room」のように、サイト指定を切り替えて検索できるようになさっています。うまい使い方だなぁと思います。 カワテツさん、情報ありがとうございました<(_ _)>
指定URL以下を探す機能もあります。で、つけてみました。「性能表」で検索するとズラズラでてきます。なかなか頼りになります。下の検索は「www1.kiwi-us.com」内を検索するようになってます。
下の検索は「www1.kiwi-us.com」内を検索するようにしています。「性能表」はほとんど引っかかりませんね。infoseekでは以前は逆引きリンクもサポートしていましたが、現在はなくなったようです。残念。
以前は特定のサイト内だけを検索することができましたが、今ではできなくなったようです。同様に、自分のページにリンクしているところを探す逆引き検索機能も今は使えないようです。
単なる検索窓だけになってしまったので、このページでも検索例を省きました。
LYCOSのサイト内検索は、現在のところ「jp」ドメインしか検索してくれないそうです。フレームは検索対象になりません。
※2001/12にドメインサーチのサービスは停止されましたので、検索例を外しました。
毎日更新するなら、なぜフレッシュアイを使わない!という声が聞こえてきそうなので入れてみました。でもサイトの絞り込みができないんだよね。下にはドメインが入れてありますけど、なぜか関係ないものばかりヒットします。なので「番外」です。
もう一つ、実はフレッシュアイはうちのページをまったく拾っていないみたいなんです。ちゃんと検索登録はしているんですけどね。まったくなんにも引っかからない。comドメインのせいかもしれません。原因はよく判りません。
フレッシュアイは、どうもcoドメインなどには強いようですが、neドメインには弱いみたいです。