slashcodeサイトのEntryFullText
use Perlとslashdot.org、slashdot.jpで確かめた。
slashcode.pl
sub handle {
my($self, $args) = @_;
$args->{entry}->permalink =~ m!article\.pl\?sid=\d\d/\d\d/\d\d/\d+!;
}
sub extract {
my($self, $args) = @_;
my $body = ($args->{content} =~ m!<div class="intro(?:text)?">(.*?)</div>!s)[0];
if ($body && ($args->{content} =~ m!<div class="(?:bodytext|full)?">(.*?)</div>!s)[0]) {
$body .= $1;
}
$body;
}
slashdot.orgはFeedBurnerを使っているみたいなので、permalinkでURLをhandleする必要があった。
コメント
commitよろしくです。URLじゃなくて、$args->{content} から slashcode を検出できないんですかね?
投稿者: miyagawa
|
2006年05月09日 10:40
ユーザの日記の方のHTMLがまた全然違うフォーマットしているんでむずかしっす。> URL以外からの検出
投稿者: かぜぶろ
|
2006年05月10日 00:17