« RedHat 7.3へのlibxml2の入れ方 | メイン | feed meterを左下にいれてみた。 »

EstraierによるRSS検索ページ、RSS収集を小休止

EstraierによるRSS検索ページのRSS収集、100万件を前にちょっと小休止。
BlogSurfのインターフェイスに落とし込むのに、時間がかかっているので。

ちなみに現在、

The index contains 975354 documents and 770402 words.

と言う風な数字。Blog数は計ってない。
たしか、50万ドキュメントを超えるぐらいで、ドキュメント数がワード数を超えました。

他のBlog(RSS)検索サイトをみると、
FeedBackは、

161,922 Blogs. 7,146,033 Entries.


blogdbは、

2004/12/14 19:10:21現在701011件のBLOGサイトが登録され、9,550,065件の記事が登録されています。

これが一番多い。

この2つはとても多い。対して、BulkFeedsは少ない。これは古いデータを削除していっているからでしょう。

2004/12/14 19:12 現在 525,680 件の RSS が登録され、1,671,884 件の item がインデクスされています。


ま、数字の大きさより、おもしろい物をつくることができればいいのだけども、RSSを集めているととんでもない数字になっていくので大変です。