« さくらの専用サーバ申し込んだ | メイン | 本とCD »

slashcodeサイトのEntryFullText

use Perlslashdot.orgslashdot.jpで確かめた。

slashcode.pl

sub handle {
    my($self, $args) = @_;
    $args->{entry}->permalink =~ m!article\.pl\?sid=\d\d/\d\d/\d\d/\d+!;
}

sub extract {
    my($self, $args) = @_;
    my $body = ($args->{content} =~ m!<div class="intro(?:text)?">(.*?)</div>!s)[0];
    if ($body && ($args->{content} =~ m!<div class="(?:bodytext|full)?">(.*?)</div>!s)[0]) {
        $body .= $1;
    }
    $body;
}


slashdot.orgはFeedBurnerを使っているみたいなので、permalinkでURLをhandleする必要があった。

コメント

commitよろしくです。URLじゃなくて、$args->{content} から slashcode を検出できないんですかね?

ユーザの日記の方のHTMLがまた全然違うフォーマットしているんでむずかしっす。> URL以外からの検出

コメントを投稿