ChaSen -- 形態素解析器


はじめに

形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。


新着情報


茶筌の配布

ダウンロード

あらかじめ iconvと Darts-0.31のインストールが必要です。

辞書は別配布になっています。

著作権および仕様条件について

茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである.茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する.本ソフトウェアの使用,改変,再配布については,特に制限を課すことはしない.詳しくはマニュアル裏表紙の copyright notice を参照のこと.

なお,本ソフトウェアの著作権者である奈良先端科学技術大学院大学は,原形あるいは改変された形で配布された本ソフトウェアに関連して生じる一切の損失に対して保証の責を負わないこととする.

2.3.0 より、広告条項がなくなりました。また、Darts と iconv を必要としますので、 Darts や iconv をリンクした場合、Darts や iconv のライセンスが生成物に波及する場合がありますので御注意ください。

辞書とシステムの分離に伴ない、2.2.1 よりシステムの Copyright の記述が若干変更になりました。同包して配布する際、辞書とシステム両方の Copyright をよくお読みになってご利用ください。


辞書の作り方

辞書、文法定義ファイル

茶筌の辞書をつくるためには以下のファイルが必要です。

一般に、ユーザーが変更を加えるのは辞書定義ファイルのみです

辞書のコンパイル

辞書のコンパイルには makeda コマンドを使います。この作業は文法定義ファイルのあるディレクトリでおこなう必要があります。

$ makeda dic_name input1.dic input2.dic

dic_name には出力したい辞書ファイルのベースネーム(拡張子を除いたファイル名)を指定します。たとえば、user を指定すると、user.da、user.lex、user.dat が生成されます。入力の辞書定義ファイルは複数指定できます。入力のフォーマットは辞書定義ファイルのフォーマットを参照してください。

辞書の指定

前節で作成した辞書を使うには chasenrc で次のように指定します。

(DADIC chadic user)

この場合、chadic.* と user.* の両方を辞書に使います。

文法定義ファイルの変更

文法定義ファイルの変更時の注意点

品詞、活用定義と連接表定義の内容が矛盾していると茶筌は正しい解析をおこなえません。正しい連接表定義を作成できないときは、これらのファイルは変更してはいけません。

文法定義ファイルを変更した場合、以下の手順で連接表のコンパイルをおこなってください。

連接表のコンパイル

連接表のコンパイルには makemat コマンドを使います。

文法定義ファイルのあるディレクトリで以下のように実行します。

$ makemat

matrix.cha、table.cha が出力されます。

文字コード

システム標準の文字コード(Unix では EUC-JP、Windows では Shift_JIS)以外の文字コードを使うには、その文字コードでの辞書を用意する必要があります。

  1. 当該文字コードで書かれた文法定義ファイル、辞書定義ファイルを用意する
  2. makemat、makeda に -i オプションで当該文字コードを指定して、連接表と辞書をコンパイルする
  3. 茶筌実行時に -i オプションで当該文字コードを指定する

-i オプションに指定できるのは e、s、w、a のいずれかで、それぞれ EUC-JP、Shift_JIS、UTF-8、ISO-8859-1 を指定します。


FAQ(たぶん)よくある


Mailing List

ChaSen メイリングリストは形態素解析システム ChaSen について議論するメイリングリストです。


(c)Copyright by Nara Institute of Science and Technology, Japan, 2007. All rights reserved.