2011-03-01から1ヶ月間の記事一覧

集合知プログラミング

「集合知プログラミング」を購入しました。「言語処理のための機械学習入門」を読み進める中、クラスタリングや分類のアルゴリズムなど、「実装。。果たして自分にできるのか。。?」と不安でしたが、様々なデータ処理方法の実装が沢山載っている本書は、永…

やはりMacが欲しい

今日は入門自然言語処理、p490のあたり、Mecabを使ってみよう♪の箇所を進めました。自分は今Windows環境なのですが、以下のサイト http://d.hatena.ne.jp/aidiary/20101121/1290339360 を参考にしてpythonからMecabをimportして使えるようになりました。がし…

形態素解析にて、コスト最小法

今日は全然何も進んだ気がしない。。以下一応やったことをメモしとこうとは思います。「入門自然言語処理」,12章のp.477のコスト最小法による形態素解析のところをプログラムを理解しながらよいしょよいしょと打ち込み、本の通りの結果が出力されることを確…

日本語形態素解析

「入門自然言語処理」読み進めシリーズ。12章の形態素解析アルゴリズムの箇所をせっせと見よう見まねでプログラム打ちながら読み進めていました。p.484のanalyze_simpleのところで、途中_BOS_ENTRYと_EOS_ENTRYが突然出てきます。定義されてない変数ってこと…

文字列整形式

「入門自然言語処理」p.177にて。timeitモジュールを使って、list,set型のオブジェクトの中にある要素が存在しているかどうか、のチェックに要する処理速度を比較するところ。本の通りにプログラムを打ち込んで実行すると、、 Traceback (most recent call l…

更新再開、東北地方太平洋沖地震を受けて

発生から丁度一週間。亡くなられた方のご冥福をお祈りするとともに、被災地で復興に向けて尽力している全ての方々を心から応援したいと思います。国が一丸となって長期的な支援をすることが必要でしょうから、沢山募金したい、行けるなら現地に行きたい、こ…

ラグランジュの未定乗数法

「言語処理のための機械学習入門」の1.2節、ラグランジュの未定乗数法のところまでを一応読み終える。途中、最大化をする式(目的関数)とラグランジュ関数自体がごちゃごちゃになって??だったがあくまで最大化するのは目的関数だな、と気づいてからは何と…

tagged_words()で返されるtuple

jeitaコーパスにて、tagged_words()で返されるturpleの中身についてメモアルファベット、数字は (u'not', u'\tnot\t記号-アルファベット'), (u'notation', u'\tnotation\t記号-アルファベット'), (u'now', u'\tnow\t記号-アルファベット'), (u'13', u'\t1…

tagged_words

「入門自然言語処理」素人の読み進めシリーズです。 p.476にて genpaku_tfd = FreqDist(t[2] for (w, t) in genpaku.tagged_words()) と言う箇所。このままだと品詞タグがちゃんと表示されなかった。あれれ。tagged_words()メソッドで返ってくるlistの形式を…

正規表現

むむむ。。 str1 = u"あ\nいうえお" str2 = u"あ\n" if re.match(str2,str1): print "match!" else: print "not match!" これはちゃんとmatch! しかし、 str1 = ur"あ\nいうえお" str2 = ur"あ\n" if re.match(str2,str1): print "match!" else: print "not …

list型とgenarator型

「入門自然言語処理」12章を読み進めております。p.476にて、sum(len(w) for w in genpaku.words())という文にどうも違和感が。w for w in text みたいな構文はだいぶ見慣れてきましたが、[]で必ず左右を囲み、[w.lower() for w in text1]のようにしてlistの…

依存構造解析済みコーパス

入門自然言語処理、12章を読み進め中。p.475にて。文字コード関係のことで少し詰まったこと。 >>> print '\n\n'.join( '%s' % tree for tree in knbc.parsed_sents()[0:2] ) で出力するものが文字化けしてしまう。nltk.tree.Treeクラスとやらは%sに文字列と…

言語処理のための機械学習入門

参考書「言語処理のための機械学習入門」を昨日購入言語処理のための機械学習入門 (自然言語処理シリーズ)作者: 高村大也,奥村学出版社/メーカー: コロナ社発売日: 2010/07/01メディア: 単行本購入: 13人 クリック: 235回この商品を含むブログ (42件) を見る…

for文

p.473 タグ情報の一部を表示する以下の式とにらめっこ。for が入れ子になっていてしばし混乱。後ろのforから順に解釈していくと分かりやすいことが判明。Python自体の勉強をもっとして、こういうとこで悩まないレベルに早く到達したい。print '\nEOS\n'.join…

chasen.py

入門自然言語処理12章を読み進める。 p.473 にて ChasenCorpusReaderを使って形態素解析済みの日本語コーパスを読み込む部分で少し詰まる。まずchasen.pyをダウンロード(というかソースをコピペでemacsに貼り付け保存)さてこれをライブラリのどこに置い…

文字コード

「入門自然言語処理」です。12章の最初で文字コードの話がガーっと出てきて今ひとつ理解できていなかったが「みんなのPython」の文字コードに関するページをざっと読んで少しは掴めてきた気がする。分かったことを以下雑にメモ。 ASCII...7bitで表現できる範…

入門自然言語処理・演習問題2.8にて

7番の問にて。「これまで扱ったさまざまなテキストについて〜(中略)〜コンコーダンスツールを使って調査してみよう。」1章の最初の方でconcordanceやらsimilarやら出てきたな、と薄っすら思い出しつつ、3つ前の問題で使ったstate_unionコーパスでやってみ…

勉強中

図書館でふと借りた「ウェブサイエンス入門」を読む。リンク構造からトピック(コア部)を抽出する話など。SNSの絡んだ研究をしたい自分には興味深い。半分位まで読んだので一旦昼ごはんにしよう。ウェブサイエンス入門―インターネットの構造を解き明かす (…

購入

みんなのPython 改訂版作者: 柴田淳出版社/メーカー: ソフトバンククリエイティブ発売日: 2009/04/11メディア: 単行本購入: 23人 クリック: 572回この商品を含むブログ (84件) を見る「みんなのpython」購入です。pythonしっかり身に付けたい。

2章まで

「入門自然言語処理」、取り急ぎ2章までプログラム打ちながら読む。wordnetのあたり色んな操作があり過ぎごちゃごちゃしてきたので再度確認したい。演習問題は明日やってみよう。

ConditionalFreqDist

「入門自然言語処理」p.65より。男女の名前における末尾の1文字の頻度分布を求めるnames = nltk.corpus.names>>> cfd = nltk.ConditionalFreqDist( ... (fileid,name[-1]) ... for fileid in names.fileids() ... for name in names.words(fileid)) >>> cfd.…

nltk.FreqDist

引数に取ったリストや文字列の頻度分布を計算してくれるFreqDist, 比較をすると、要素(ここでは文字列を引数に与えたので各アルファベット)全てについて比較演算子を満たすときにTrueとなるようです。ほう。>>> nltk.FreqDist('apple') True >>> nltk.Freq…

Python スタートブック

「Python スタートブック」を一通り読み終えました。見よう見まねでプログラム打ち込みながら。 「入門自然言語処理」という本を読み進めていくに当たり、メモとしてこのブログに勉強したことを綴っていこうと思っております。この本は全編通してPythonとい…