EstraierによるRSS検索ページ、RSS収集を小休止
EstraierによるRSS検索ページのRSS収集、100万件を前にちょっと小休止。
BlogSurfのインターフェイスに落とし込むのに、時間がかかっているので。
ちなみに現在、
The index contains 975354 documents and 770402 words.
と言う風な数字。Blog数は計ってない。
たしか、50万ドキュメントを超えるぐらいで、ドキュメント数がワード数を超えました。
他のBlog(RSS)検索サイトをみると、
FeedBackは、
161,922 Blogs. 7,146,033 Entries.
blogdbは、
2004/12/14 19:10:21現在701011件のBLOGサイトが登録され、9,550,065件の記事が登録されています。
これが一番多い。
この2つはとても多い。対して、BulkFeedsは少ない。これは古いデータを削除していっているからでしょう。
2004/12/14 19:12 現在 525,680 件の RSS が登録され、1,671,884 件の item がインデクスされています。
ま、数字の大きさより、おもしろい物をつくることができればいいのだけども、RSSを集めているととんでもない数字になっていくので大変です。