形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。
あらかじめ iconvと Darts-0.31のインストールが必要です。
辞書は別配布になっています。
茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する.本ソフトウェアの使用,改変,再配布については,特に制限を課すことはしない.詳しくはマニュアル裏表紙の copyright notice を参照のこと.
なお,本ソフトウェアの著作権者である奈良先端科学技術大学院大学は,原形あるいは改変された形で配布された本ソフトウェアに関連して生じる一切の損失に対して保証の責を負わないこととする.
2.3.0 より、広告条項がなくなりました。また、Darts と iconv を必要としますので、 Darts や iconv をリンクした場合、Darts や iconv のライセンスが生成物に波及する場合がありますので御注意ください。
辞書とシステムの分離に伴ない、2.2.1 よりシステムの Copyright の記述が若干変更になりました。同包して配布する際、辞書とシステム両方の Copyright をよくお読みになってご利用ください。
茶筌の辞書をつくるためには以下のファイルが必要です。
一般に、ユーザーが変更を加えるのは辞書定義ファイルのみです
辞書のコンパイルには makeda コマンドを使います。この作業は文法定義ファイルのあるディレクトリでおこなう必要があります。
$ makeda dic_name input1.dic input2.dic
dic_name には出力したい辞書ファイルのベースネーム(拡張子を除いたファイル名)を指定します。たとえば、user を指定すると、user.da、user.lex、user.dat が生成されます。入力の辞書定義ファイルは複数指定できます。入力のフォーマットは辞書定義ファイルのフォーマットを参照してください。
前節で作成した辞書を使うには chasenrc で次のように指定します。
(DADIC chadic user)
この場合、chadic.* と user.* の両方を辞書に使います。
品詞、活用定義と連接表定義の内容が矛盾していると茶筌は正しい解析をおこなえません。正しい連接表定義を作成できないときは、これらのファイルは変更してはいけません。
文法定義ファイルを変更した場合、以下の手順で連接表のコンパイルをおこなってください。
連接表のコンパイルには makemat コマンドを使います。
文法定義ファイルのあるディレクトリで以下のように実行します。
$ makemat
matrix.cha、table.cha が出力されます。
システム標準の文字コード(Unix では EUC-JP、Windows では Shift_JIS)以外の文字コードを使うには、その文字コードでの辞書を用意する必要があります。
-i オプションに指定できるのは e、s、w、a のいずれかで、それぞれ EUC-JP、Shift_JIS、UTF-8、ISO-8859-1 を指定します。
cha21244.exe ではなく cha21244sp5.exe を使ってください。
それでもだめなときは Administrator 権限でインストールするとうまくいくかもしれません。メーリングリストでの過去の議論もご覧ください。
使えます。*.cha と *.dic を UTF-8 に変換して以下のようにすると UTF-8 の辞書ができます。
$ `chasen-config --mkchadic`/makemat -i w $ `chasen-config --mkchadic`/makeda -i w chadic *.dic
chasenrc で変換した文法ファイルと辞書を指定し、茶筌本体にも UTF-8 で処理するようオプションを指定します。
$ chasen -i w UTF8.txt
必要に応じて chasenrc も UTF-8 に変更してください。
libchasen は一部 C++ のコードを含んでいます。そのためリンクするときは C++ 用のリンカを使うか、C++ の標準ライブラリ(libstdc++ など)をリンクするようにしてください。 半角文字が未知語になります
IPADIC には半角文字は登録されていません。あらかじめ入力文を全角文字に変換するか、辞書に半角文字のエントリを追加してください。 "["(ASCII文字)が単語の最小単位になりません
茶筌は日本語文字列を解析する際、連続するASCII文字を単語の最小単位とするため、単語 "[" を登録しても "["で区切られません。
chasenrc ファイル(/usr/local/share/chasen/dic/ipadic/chasenrc など) に以下の行を追加すると、単語区切りが英語にある程度適したものになり、 [Unicode が [ と Unicode に区切られるようになります。
(言語 "je")
ただしこの場合、未知語の品詞が「未知語」ではなく「UNKNOWN」と出力されますのでご注意下さい。
開発拠点である奈良先端科学技術大学院大学のある奈良県生駒市高山町が、日本有数の茶筌の産地であることから、この名前がつけられました。
ちなみに、よく間違われますが漢字表記は「茶筅」ではなく「茶筌」です。 MS-IME などで「筌」の字が出なくてこまったときは、ローマ字表記の「ChaSen」でどうぞ。
ChaSen メイリングリストは形態素解析システム ChaSen について議論するメイリングリストです。
ChaSen に関する質問を受けつけたり、ChaSen をよりよくするための議論を行うメイリングリストです。 chasen-users メイリングリストへ参加(登録)するには、本文に
subscribe あなたの名前 (名前はローマ字で。例: Hanako Kondo)
と書いたメイルを chasen-users-ctl@is.naist.jp へ送ります。
退会するには本文の先頭に
# bye
とだけ書いたメイルを chasen-users-ctl@is.naist.jp に送ります。その際、 From: は メイリングリストに登録しているアドレスに設定してください。
ChaSen または ChaSen 用辞書のリリース連絡用メイリングリストです。 chasen-announce メイリングリストへ参加(登録)するには、本文に
subscribe あなたの名前 (名前はローマ字で。例: Hanako Kondo)
と書いたメイルを chasen-announce-ctl@is.naist.jp へ送ります。
退会するには本文の先頭に
# bye
とだけ書いたメイルを chasen-announce-ctl@is.naist.jp に送ります。その際、 From: は メイリングリストに登録しているアドレスに設定してください。
以前までのサポート用の ML です。システム/辞書の質問については、 今後 chasen-users ML に投稿してください。
利用許諾などの権利関係の質問や、その他非公開としたい問い合わせなどについてはこちらの chasen ML まで御連絡 ください。