« FormValidator::Simple::Plugin::InArray | メイン | FormValidator::Simple::Plugin::DateTime::Format »

ASCII24、RBBTODAY、ImpressのEntryFullText

CEEK.JP NEWSのRSSの補完につかえる、PlaggerのEntryFullTextファイル。

ascii24_com.yaml

author: kazeburo
custom_feed_handle: http://ascii24\.com/news/$
custom_feed_follow_link: /news/i/\w+/article/\d{4}/\d\d/\d\d/\d{6|-\d{3}\.html
handle: http://ascii24\.com/news/i/\w+/article/\d{4}/\d\d/\d\d/\d{6|-\d{3}\.html
extract: .*?<H1>(.*?)</H1>.*?.*?<SMALL>.*?(\d{4}年\d+月\d+日).*?</SMALL>.*?(.*?)
extract_capture: title date body
extract_date_format: %Y年%m月%d日


rbbtoday_com.yaml

# upgrade http://www.rbbtoday.com/rss/rbb.rdf
author: kazeburo
handle: http://www\.rbbtoday\.com/news
extract: <h1 class="ttl02">(.*?)</h1>.*?<tr><td><img src="/shared/img/spacer.gif" width="1" height="\d\d"></td></tr>.*?<tr>.*?<td class="f14120" valign="top">(.*?)</tr>.*?<tr><td><img src="/shared/img/spacer.gif" width="1" height="10"></td></tr>
extract_capture: title body


impress.yaml Impress全般いけます。

author: kazeburo
handle: http://\w+\.watch\.impress\.co\.jp/
extract: (.*)
extract_capture: body


あと、itmedia.yamlは

handle: http://(?:www|plusd)\.itmedia\.co\.jp/\w+/articles

の方が幸せになれる。

コメント

commitよろしくです

コメントを投稿