形態素解析にて、コスト最小法
今日は全然何も進んだ気がしない。。以下一応やったことをメモしとこうとは思います。
「入門自然言語処理」,12章のp.477のコスト最小法による形態素解析のところをプログラムを理解しながらよいしょよいしょと打ち込み、本の通りの結果が出力されることを確かめ、終了。単語単体での出現頻度のコストと、品詞と品詞の接続におけるコストの両方を合計して、最小のものを出力するという。なるほどなるほど。
ここでメインに働いているanalyze関数は、与える2つの「function型の引数」を調整することで、「形態素最小法」や「文節数最小法」といったヒューリスティックが実現できるようになっています。これは便利だしいろいろと試して結果を比べてみると良さそう。
さて、どこかで夕飯食べて電車で本読みながら帰ろう。昨日買ったのは以下の「検索エンジンはなぜ見つけるのか」という本です。webマイニングに関することもこれから行う研究テーマの一部分にしたいので、基本事項をしっかり勉強するのみです。
- 作者: 森大二郎
- 出版社/メーカー: 日経BP社
- 発売日: 2011/03/10
- メディア: 単行本(ソフトカバー)
- 購入: 8人 クリック: 1,195回
- この商品を含むブログ (27件) を見る