chasen.py

入門自然言語処理12章を読み進める。
p.473 にて ChasenCorpusReaderを使って形態素解析済みの日本語コーパスを読み込む部分で少し詰まる。

まずchasen.pyをダウンロード(というかソースをコピペでemacsに貼り付け保存)

さてこれをライブラリのどこに置いておけ良いのだろうか。。ソースの中ではimport utilとimportしているものもあるし。。試行錯誤して場所をあれこれ変えて試す。そして「C:\Python26\Lib\site-packages\nltk\corpus\reader」でおそらく正解だと決定。CorpusReaderのutilは共通のものをimportするってことなんでしょう。


ちなみにchasen.pyをインポートするときは
from nltk.corpus.reader.chasen import *
とせねばならず、本の表記
from chasen import *
と異なってしまう。。まあでもちゃんと同じようにコーパス読み込めてるしこれで良いとは思う。何か不都合が生じたらこの箇所に戻って来ようと思います。今はひたすら読み進めるのみ。