odaemon.com - Yusuke Oda

Ckylark の文法モデル

概要

Ckylark は UTF-8 エンコードされた単語列であれば言語を問わず解析可能です。

ただし、ある言語を解析する場合は、適切な文法モデルを読み込む必要があります。

ここでは Ckylark 用の学習済みモデルファイルの配布と、ユーザ独自のモデルの作成方法を解説しています。

モデルの使用方法

下記の学習済みモデルをダウンロード後、解凍して生成されるファイル群を適切なディレクトリ (/path/to/Ckylark/model など) に配置して下さい。

モデルの読み込みは --model オプションにモデルファイル群の接頭辞を指定します。

(WSJ モデルの場合の例)

$ tar xf wsj.tar.gz
$ mv wsj/* /path/to/Ckylark/model
$ /path/to/Ckylark/src/bin/ckylark \
    --model /path/to/Ckylark/model/wsj

学習済みモデル一覧

モデル 言語 ドメイン 学習データ 備考 リンク
WSJ 英語 新聞記事 Penn Treebank Section 2-22
(paper)
デフォルトで付属。 tar.gz
JDC 日本語 新聞記事
書籍
Web
辞書例文
特許
Japanese Word Dependency Corpus
(paper)
デフォルトで付属。
単語分割には KyTea を使用する必要があります。
tar.gz
CTB 中国語 Penn Chinese Treebank
(paper)
単語分割には KyTea を使用する必要があります。
(KyTea 用の中国語モデルが公開されています)
tar.gz

ユーザ独自モデルの作成方法

もし Ckylark の利用者が独自のツリーバンクを持っている場合、Berkeley Parser の学習器で作成したモデルのテキスト出力を使用することができます。

(学習器を Ckylark にも搭載する予定ですが、時期は未定です)

$ java -cp /path/to/BerkeleyParser-*.jar \
    edu.berkeley.nlp.PCFGLA.GrammarTrainer \
        -path /path/to/my-treebank.mrg \
        -out /path/to/my-grammar.gr \
        -treebank SINGLEFILE
$ java -cp /path/to/BerkeleyParser-*.jar \
    edu.berkeley.nlp.PCFGLA.WriteGrammarToTextFile \
        /path/to/my-grammar.gr \
        /path/to/Ckylark/model/my-grammar
$ /path/to/Ckylark/src/bin/ckylark \
    --model /path/to/Ckylark/model/my-grammar