2011-01-01から1年間の記事一覧

過学習とは

「入門自然言語処理」を久しぶりに読み進める。6.1の教師あり分類。男女の名前を、単純ベイズ分類器で分類するというところ。素性をどう選べば良い結果を得られるか、という点が丁寧に説明されています。その中で印象に残った一文 もし多すぎる素性を利用し…

購入

テキストデータの統計科学入門作者: 金明哲出版社/メーカー: 岩波書店発売日: 2009/04/28メディア: 単行本購入: 4人 クリック: 93回この商品を含むブログ (12件) を見る

購入

はじめよう!統計学超入門 (知識ゼロでもわかる統計学)作者: 松原望出版社/メーカー: 技術評論社発売日: 2011/01/07メディア: 単行本(ソフトカバー)購入: 1人 クリック: 14回この商品を含むブログ (5件) を見る

matplotlibが

http://voidptr.wordpress.com/2011/03/29/compiling-matplotlib-1-0-1-on-64-bit-mac-os-x-leopard-for-python-2-7/ このページのおかげでようやく正常に動いてくれた! かなりいろいろなページを彷徨ったけど結局すごくシンプルに解決。ふう。展開したmatp…

perl..

研究室のスクリプト言語勉強会ではperlを扱っています。rubyやpythonと同じようで違う。オブジェクト指向ではないのね。知らんかった。勉強会が終わった後で実際何かに使うという気はしないけど、さわりだけ体験する感覚でやり過ごせ!

からくりインターネット

からくりインターネット アレクサンドリア図書館から次世代ウェブ技術まで [丸善ライブラリー]作者: 相澤彰子,内山清子,池谷瑠絵出版社/メーカー: 丸善発売日: 2010/03/16メディア: 新書 クリック: 6回この商品を含むブログ (1件) を見るという本を読んだ。w…

本日借りた本と買った本

大学の図書館で目についたので借りてみた。ツイッターノミクス TwitterNomics作者: タラ・ハント津田大介(解説),村井章子出版社/メーカー: 文藝春秋発売日: 2010/03/11メディア: 単行本購入: 5人 クリック: 292回この商品を含むブログ (81件) を見るそして駅…

nltkとMeCabとpython

というわけでMeCabをPython2.7でなら使えるようになりました。ということはnltkも2.7で使いたい!しかしnltkの公式ではどうも2.4~2.6しか対応していないというような旨が書かれています。しかし2.7でなんとか行けないものか、と思い、以下のサイトを参考に2.…

MeCab Pythonバインディングのインストール

かなりはまってしましました。。 mecabを入れるところまでは良かったのでですが、Pythonバインディングを入れるところにて、mecab-python-0.98をダウンロードし、 % python setup.py build % sudo python setup.py install これで大丈夫よし、と思いましたが…

集合知プログラミング

「集合知プログラミング」を購入しました。「言語処理のための機械学習入門」を読み進める中、クラスタリングや分類のアルゴリズムなど、「実装。。果たして自分にできるのか。。?」と不安でしたが、様々なデータ処理方法の実装が沢山載っている本書は、永…

やはりMacが欲しい

今日は入門自然言語処理、p490のあたり、Mecabを使ってみよう♪の箇所を進めました。自分は今Windows環境なのですが、以下のサイト http://d.hatena.ne.jp/aidiary/20101121/1290339360 を参考にしてpythonからMecabをimportして使えるようになりました。がし…

形態素解析にて、コスト最小法

今日は全然何も進んだ気がしない。。以下一応やったことをメモしとこうとは思います。「入門自然言語処理」,12章のp.477のコスト最小法による形態素解析のところをプログラムを理解しながらよいしょよいしょと打ち込み、本の通りの結果が出力されることを確…

日本語形態素解析

「入門自然言語処理」読み進めシリーズ。12章の形態素解析アルゴリズムの箇所をせっせと見よう見まねでプログラム打ちながら読み進めていました。p.484のanalyze_simpleのところで、途中_BOS_ENTRYと_EOS_ENTRYが突然出てきます。定義されてない変数ってこと…

文字列整形式

「入門自然言語処理」p.177にて。timeitモジュールを使って、list,set型のオブジェクトの中にある要素が存在しているかどうか、のチェックに要する処理速度を比較するところ。本の通りにプログラムを打ち込んで実行すると、、 Traceback (most recent call l…

更新再開、東北地方太平洋沖地震を受けて

発生から丁度一週間。亡くなられた方のご冥福をお祈りするとともに、被災地で復興に向けて尽力している全ての方々を心から応援したいと思います。国が一丸となって長期的な支援をすることが必要でしょうから、沢山募金したい、行けるなら現地に行きたい、こ…

ラグランジュの未定乗数法

「言語処理のための機械学習入門」の1.2節、ラグランジュの未定乗数法のところまでを一応読み終える。途中、最大化をする式(目的関数)とラグランジュ関数自体がごちゃごちゃになって??だったがあくまで最大化するのは目的関数だな、と気づいてからは何と…

tagged_words()で返されるtuple

jeitaコーパスにて、tagged_words()で返されるturpleの中身についてメモアルファベット、数字は (u'not', u'\tnot\t記号-アルファベット'), (u'notation', u'\tnotation\t記号-アルファベット'), (u'now', u'\tnow\t記号-アルファベット'), (u'13', u'\t1…

tagged_words

「入門自然言語処理」素人の読み進めシリーズです。 p.476にて genpaku_tfd = FreqDist(t[2] for (w, t) in genpaku.tagged_words()) と言う箇所。このままだと品詞タグがちゃんと表示されなかった。あれれ。tagged_words()メソッドで返ってくるlistの形式を…

正規表現

むむむ。。 str1 = u"あ\nいうえお" str2 = u"あ\n" if re.match(str2,str1): print "match!" else: print "not match!" これはちゃんとmatch! しかし、 str1 = ur"あ\nいうえお" str2 = ur"あ\n" if re.match(str2,str1): print "match!" else: print "not …

list型とgenarator型

「入門自然言語処理」12章を読み進めております。p.476にて、sum(len(w) for w in genpaku.words())という文にどうも違和感が。w for w in text みたいな構文はだいぶ見慣れてきましたが、[]で必ず左右を囲み、[w.lower() for w in text1]のようにしてlistの…

依存構造解析済みコーパス

入門自然言語処理、12章を読み進め中。p.475にて。文字コード関係のことで少し詰まったこと。 >>> print '\n\n'.join( '%s' % tree for tree in knbc.parsed_sents()[0:2] ) で出力するものが文字化けしてしまう。nltk.tree.Treeクラスとやらは%sに文字列と…

言語処理のための機械学習入門

参考書「言語処理のための機械学習入門」を昨日購入言語処理のための機械学習入門 (自然言語処理シリーズ)作者: 高村大也,奥村学出版社/メーカー: コロナ社発売日: 2010/07/01メディア: 単行本購入: 13人 クリック: 235回この商品を含むブログ (42件) を見る…

for文

p.473 タグ情報の一部を表示する以下の式とにらめっこ。for が入れ子になっていてしばし混乱。後ろのforから順に解釈していくと分かりやすいことが判明。Python自体の勉強をもっとして、こういうとこで悩まないレベルに早く到達したい。print '\nEOS\n'.join…

chasen.py

入門自然言語処理12章を読み進める。 p.473 にて ChasenCorpusReaderを使って形態素解析済みの日本語コーパスを読み込む部分で少し詰まる。まずchasen.pyをダウンロード(というかソースをコピペでemacsに貼り付け保存)さてこれをライブラリのどこに置い…

文字コード

「入門自然言語処理」です。12章の最初で文字コードの話がガーっと出てきて今ひとつ理解できていなかったが「みんなのPython」の文字コードに関するページをざっと読んで少しは掴めてきた気がする。分かったことを以下雑にメモ。 ASCII...7bitで表現できる範…

入門自然言語処理・演習問題2.8にて

7番の問にて。「これまで扱ったさまざまなテキストについて〜(中略)〜コンコーダンスツールを使って調査してみよう。」1章の最初の方でconcordanceやらsimilarやら出てきたな、と薄っすら思い出しつつ、3つ前の問題で使ったstate_unionコーパスでやってみ…

勉強中

図書館でふと借りた「ウェブサイエンス入門」を読む。リンク構造からトピック(コア部)を抽出する話など。SNSの絡んだ研究をしたい自分には興味深い。半分位まで読んだので一旦昼ごはんにしよう。ウェブサイエンス入門―インターネットの構造を解き明かす (…

購入

みんなのPython 改訂版作者: 柴田淳出版社/メーカー: ソフトバンククリエイティブ発売日: 2009/04/11メディア: 単行本購入: 23人 クリック: 572回この商品を含むブログ (84件) を見る「みんなのpython」購入です。pythonしっかり身に付けたい。

2章まで

「入門自然言語処理」、取り急ぎ2章までプログラム打ちながら読む。wordnetのあたり色んな操作があり過ぎごちゃごちゃしてきたので再度確認したい。演習問題は明日やってみよう。

ConditionalFreqDist

「入門自然言語処理」p.65より。男女の名前における末尾の1文字の頻度分布を求めるnames = nltk.corpus.names>>> cfd = nltk.ConditionalFreqDist( ... (fileid,name[-1]) ... for fileid in names.fileids() ... for name in names.words(fileid)) >>> cfd.…