UTF8対応のChaSenインストール
UTF-8対応のChaSenのインストールメモ
環境はCentOS 4.1です。
PcWebのYet Another 仕事のツールの「 第45回
日本語形態素解析ツール「ChaSen」」を参考にしました。
Dartsのインストール
# wget http://chasen.org/~taku/software/darts/src/darts-0.2.tar.gz # tar zxf darts-0.2.tar.gz # cd darts-0.2 # ./configure --prefix=/usr # make # make install
ChaSenのインストール
# wget http://chasen.aist-nara.ac.jp/stable/chasen/chasen-2.3.3.tar.gz # tar zxf chasen-2.3.3.tar.gz # cd chasen-2.3.3
上のリンクのページを参考にGCC 3.4でmakeができるようにlib/dartsdic.cppを編集
# vi lib/dartsdic.cpp # ./configure --prefix=/usr # make # make install
ipadicのインストール。
# wget http://chasen.naist.jp/stable/ipadic/ipadic-2.7.0.tar.gz # tar zxf ipadic-2.7.0.tar.gz # cd ipadic-2.7.0 # ./configure --prefix=/usr
ipadicソースディレクトリ以下の*.dicと*.chaファイルをすべてUTF8にコンバートします。
iconvで変換しました。以下のソースをchasenのソースディレクトリにconvert.shとでもしてコピー。
#!/bin/sh for file in *.dic *.cha do if [ -f $file ]; then echo $file iconv -f euc-jp -t utf-8 $file > tmpfile mv tmpfile $file fi done exit
実行&辞書インストール
# sh ./convert.sh # `chasen-config --mkchadic`/makemat -i w # `chasen-config --mkchadic`/makeda -i w chadic *.dic # make install
以上