2011-03-09から1日間の記事一覧

tagged_words

「入門自然言語処理」素人の読み進めシリーズです。 p.476にて genpaku_tfd = FreqDist(t[2] for (w, t) in genpaku.tagged_words()) と言う箇所。このままだと品詞タグがちゃんと表示されなかった。あれれ。tagged_words()メソッドで返ってくるlistの形式を…

正規表現

むむむ。。 str1 = u"あ\nいうえお" str2 = u"あ\n" if re.match(str2,str1): print "match!" else: print "not match!" これはちゃんとmatch! しかし、 str1 = ur"あ\nいうえお" str2 = ur"あ\n" if re.match(str2,str1): print "match!" else: print "not …

list型とgenarator型

「入門自然言語処理」12章を読み進めております。p.476にて、sum(len(w) for w in genpaku.words())という文にどうも違和感が。w for w in text みたいな構文はだいぶ見慣れてきましたが、[]で必ず左右を囲み、[w.lower() for w in text1]のようにしてlistの…

依存構造解析済みコーパス

入門自然言語処理、12章を読み進め中。p.475にて。文字コード関係のことで少し詰まったこと。 >>> print '\n\n'.join( '%s' % tree for tree in knbc.parsed_sents()[0:2] ) で出力するものが文字化けしてしまう。nltk.tree.Treeクラスとやらは%sに文字列と…

言語処理のための機械学習入門

参考書「言語処理のための機械学習入門」を昨日購入言語処理のための機械学習入門 (自然言語処理シリーズ)作者: 高村大也,奥村学出版社/メーカー: コロナ社発売日: 2010/07/01メディア: 単行本購入: 13人 クリック: 235回この商品を含むブログ (42件) を見る…