うちの自宅サーバーで動いてるフィードクローラのクロールノウハウと、Luceneの機能を使って簡易検索エンジンを作ってます。
とりあえずバージョン0.1ということで、会社のvmwareを拝借して某巨大ショッピングサイトをクロール中。
ここ数日で25000ページほどを巡回して6000ページほどをインデックス化しています。
油断するといろんな不具合が発生してしまうので、なかなか全ページのクロール&インデックス化はまだまだ難しいですね。
こんなんやるとGoogleの偉大さが分かります。
うちの自宅サーバーで動いてるフィードクローラのクロールノウハウと、Luceneの機能を使って簡易検索エンジンを作ってます。
とりあえずバージョン0.1ということで、会社のvmwareを拝借して某巨大ショッピングサイトをクロール中。
ここ数日で25000ページほどを巡回して6000ページほどをインデックス化しています。
油断するといろんな不具合が発生してしまうので、なかなか全ページのクロール&インデックス化はまだまだ難しいですね。
こんなんやるとGoogleの偉大さが分かります。
トラックバックURL: http://happy-camper.st/mt/mt-tb.cgi/293
コメントする