入門自然言語処理

過学習とは

「入門自然言語処理」を久しぶりに読み進める。6.1の教師あり分類。男女の名前を、単純ベイズ分類器で分類するというところ。素性をどう選べば良い結果を得られるか、という点が丁寧に説明されています。その中で印象に残った一文 もし多すぎる素性を利用し…

matplotlibが

http://voidptr.wordpress.com/2011/03/29/compiling-matplotlib-1-0-1-on-64-bit-mac-os-x-leopard-for-python-2-7/ このページのおかげでようやく正常に動いてくれた! かなりいろいろなページを彷徨ったけど結局すごくシンプルに解決。ふう。展開したmatp…

nltkとMeCabとpython

というわけでMeCabをPython2.7でなら使えるようになりました。ということはnltkも2.7で使いたい!しかしnltkの公式ではどうも2.4~2.6しか対応していないというような旨が書かれています。しかし2.7でなんとか行けないものか、と思い、以下のサイトを参考に2.…

形態素解析にて、コスト最小法

今日は全然何も進んだ気がしない。。以下一応やったことをメモしとこうとは思います。「入門自然言語処理」,12章のp.477のコスト最小法による形態素解析のところをプログラムを理解しながらよいしょよいしょと打ち込み、本の通りの結果が出力されることを確…

日本語形態素解析

「入門自然言語処理」読み進めシリーズ。12章の形態素解析アルゴリズムの箇所をせっせと見よう見まねでプログラム打ちながら読み進めていました。p.484のanalyze_simpleのところで、途中_BOS_ENTRYと_EOS_ENTRYが突然出てきます。定義されてない変数ってこと…

tagged_words

「入門自然言語処理」素人の読み進めシリーズです。 p.476にて genpaku_tfd = FreqDist(t[2] for (w, t) in genpaku.tagged_words()) と言う箇所。このままだと品詞タグがちゃんと表示されなかった。あれれ。tagged_words()メソッドで返ってくるlistの形式を…

for文

p.473 タグ情報の一部を表示する以下の式とにらめっこ。for が入れ子になっていてしばし混乱。後ろのforから順に解釈していくと分かりやすいことが判明。Python自体の勉強をもっとして、こういうとこで悩まないレベルに早く到達したい。print '\nEOS\n'.join…

文字コード

「入門自然言語処理」です。12章の最初で文字コードの話がガーっと出てきて今ひとつ理解できていなかったが「みんなのPython」の文字コードに関するページをざっと読んで少しは掴めてきた気がする。分かったことを以下雑にメモ。 ASCII...7bitで表現できる範…

2章まで

「入門自然言語処理」、取り急ぎ2章までプログラム打ちながら読む。wordnetのあたり色んな操作があり過ぎごちゃごちゃしてきたので再度確認したい。演習問題は明日やってみよう。