tagged_words()で返されるtuple

jeitaコーパスにて、tagged_words()で返されるturpleの中身についてメモ

アルファベット、数字は

(u'not', u'\tnot\t記号-アルファベット'),
(u'notation', u'\tnotation\t記号-アルファベット'),
(u'now', u'\tnow\t記号-アルファベット'),
(u'13', u'\t13\t名詞-数'),
(u'25', u'\t25\t名詞-数'),

タプルを(w,t)として、2番目の要素を\tでsplitしたときに、読みに当たるt[0]は空。

また未知語は、

(u'トリニティ', u'\t\t未知語'),
(u'ナジャーハ', u'\t\t未知語'),
(u'ナブルス', u'\t\t未知語'),

t[0],t[1]が空。カタカナだから未知語と言えどそのままのカタカナを読みにしても良さそうだと思うけど、敢えてそうしていない理由があるんだろうな。まあいいや。