« ChasenとKakasiの形態素解析の比較 | メイン | Google AdSenseをつけてみた。 »

MeCabを追加

MeCabを形態素解析の比較に追加しました。
これでChasen、Kakasi、MeCabの3つでの比較ができます。
ついでにページタイトルに「わかち書き」をいれました。この方が正しいですね。

ChasenとKakasiとMeCabの形態素解析・わかち書きの比較
お試しください。

MeCabは速度が揺れます。1度表示をしてから再び送信すると速度が速くなったりします。速度的にはChasenよりほんの少し早いです。Chasenがバージョン2.3.0で導入したダブル配列ライブラリ「Darts」のによるところだと思われます。

2003年7月現在, Darts は, MeCab, ChaSen に採用されています. Darts は, MeCab で使 われている Double-Array のコードを 改めてパッケージングしたものと 考えていただいて構いません.


ということなので。
速度の揺れがなくなってより安定して新しいipdicが使えれば使うかな。

MeCabの導入メモ
ここから「mecab-0.78.tar.gz」をダウンロード
「ipadic-2.5.1.tar.gz 」も必要なのでここからダウンロード

$ tar zxf mecab-0.78.tar.gz
$ cd mecab-0.78
$ cd dic
$ ここにipdicをコピー
$ tar zxf ipadic-2.5.1.tar.gz
$ cd ..
$ ./configure --prefix=/usr
$ make
$ make install


Perlのモジュールは
ここから「mecab-perl-0.78.tar.gz」をゲット
普通のPerlモジュールとしていれることができます。-lstdc++がないとか言うけど無視しても大丈夫。

わかちがきに利用するには

use MeCab;
my $mecab = MeCab::Tagger->new(["0"]);
my @m_ret = map {{val=>(split(/?t/,$_))[0]}} grep {$_ ne "EOS"} split(/?n/,$mecab->parse($text));


とでも書きます。 -O wakati だとエラーがでて動きませんでした。

トラックバック

この一覧は、次のエントリーを参照しています: MeCabを追加:

» 「-lstdc++がないとか言うけど無視しても大丈夫」 from 転びバテバテ
...その無視方法につまづいてperlモジュールだけ入らん...。 気になる...。 ●blog.nomadscafe.jp: MeCabを追加 [詳しくはこちら]