« なんでも虹色 HTML::Rainbow | メイン | UTF8対応のMeCabインストール »

UTF8対応のChaSenインストール

UTF-8対応のChaSenのインストールメモ
環境はCentOS 4.1です。
PcWebのYet Another 仕事のツールの「 第45回 日本語形態素解析ツール「ChaSen」」を参考にしました。

Dartsのインストール

# wget http://chasen.org/~taku/software/darts/src/darts-0.2.tar.gz   
# tar zxf darts-0.2.tar.gz 
# cd darts-0.2
# ./configure --prefix=/usr
# make
# make install


ChaSenのインストール

# wget http://chasen.aist-nara.ac.jp/stable/chasen/chasen-2.3.3.tar.gz
# tar zxf chasen-2.3.3.tar.gz 
# cd chasen-2.3.3

上のリンクのページを参考にGCC 3.4でmakeができるようにlib/dartsdic.cppを編集

# vi lib/dartsdic.cpp 
# ./configure --prefix=/usr 
# make
# make install 


ipadicのインストール。

# wget http://chasen.naist.jp/stable/ipadic/ipadic-2.7.0.tar.gz
# tar zxf ipadic-2.7.0.tar.gz 
# cd ipadic-2.7.0 
# ./configure --prefix=/usr  

ipadicソースディレクトリ以下の*.dicと*.chaファイルをすべてUTF8にコンバートします。
iconvで変換しました。以下のソースをchasenのソースディレクトリにconvert.shとでもしてコピー。

#!/bin/sh
for file in *.dic *.cha
do
if [ -f $file ]; then
	echo $file
    iconv -f euc-jp -t utf-8 $file > tmpfile
    mv tmpfile $file
fi
done
exit

実行&辞書インストール

# sh ./convert.sh
# `chasen-config --mkchadic`/makemat -i w
# `chasen-config --mkchadic`/makeda -i w chadic *.dic
# make install


以上