« Google AdSenseに申し込んでみた | メイン | ChasenとKakasiの形態素解析の比較 »

Chasen 英数字が混在する文字列の扱い

Chasenで英数字が混在する場合、英数字がすべてばらばらで「記号-アルファベット」になってしまうので、これを変更。「名詞-一般」となるようにしました。

/usr/etc/chasenrc

(COMPOSIT_POS ((名詞 一般) (名詞 数) (記号 アルファベット) (記号 一般)))


を追加。

Chasen-users MLのここからのスレッドを参考にしました。感謝です。

トラックバック

この一覧は、次のエントリーを参照しています: Chasen 英数字が混在する文字列の扱い:

» ChasenとKakasiの形態素解析の比較 from blog.nomadscafe.jp
Chasenネタがつづくけど。 一つ前のは、これを作っていたときのメモだということで。 ChasenとKakasiの形態素解析の比較 Chasen(2.3.3)と Kakasi(2.3.4)の形態素解析の結果を比較できます。Chasenは 前回の記事に書いてある設定をしてあります。処理の比較等は MeCabのペ... [詳しくはこちら]

» 検索機能のバグ修正 from 開発ブログ - eventcast
形態素解析には、chasen を利用しているのですが、英数字で検索した場合、英数字がバラバラになってしまいうまく検索できていませんでした。対策は、kaze... [詳しくはこちら]