MeCabを追加
MeCabを形態素解析の比較に追加しました。
これでChasen、Kakasi、MeCabの3つでの比較ができます。
ついでにページタイトルに「わかち書き」をいれました。この方が正しいですね。
ChasenとKakasiとMeCabの形態素解析・わかち書きの比較
お試しください。
MeCabは速度が揺れます。1度表示をしてから再び送信すると速度が速くなったりします。速度的にはChasenよりほんの少し早いです。Chasenがバージョン2.3.0で導入したダブル配列ライブラリ「Darts」のによるところだと思われます。
2003年7月現在, Darts は, MeCab, ChaSen に採用されています. Darts は, MeCab で使 われている Double-Array のコードを 改めてパッケージングしたものと 考えていただいて構いません.
ということなので。
速度の揺れがなくなってより安定して新しいipdicが使えれば使うかな。
MeCabの導入メモ
ここから「mecab-0.78.tar.gz」をダウンロード
「ipadic-2.5.1.tar.gz 」も必要なのでここからダウンロード
$ tar zxf mecab-0.78.tar.gz $ cd mecab-0.78 $ cd dic $ ここにipdicをコピー $ tar zxf ipadic-2.5.1.tar.gz $ cd .. $ ./configure --prefix=/usr $ make $ make install
Perlのモジュールは
ここから「mecab-perl-0.78.tar.gz」をゲット
普通のPerlモジュールとしていれることができます。-lstdc++
がないとか言うけど無視しても大丈夫。
わかちがきに利用するには
use MeCab; my $mecab = MeCab::Tagger->new(["0"]); my @m_ret = map {{val=>(split(/?t/,$_))[0]}} grep {$_ ne "EOS"} split(/?n/,$mecab->parse($text));
とでも書きます。 -O wakati
だとエラーがでて動きませんでした。