形態素解析辞書UniDicを使おう

形態素解析辞書として広く使われているIPA辞書ですが、いわゆる口語(話し言葉)を解析対象とするなら、UniDicがお勧めです。いきなり実例ですが、以下の感想文。

ここのケーキは、けた外れに美味しかったヽ(´ー`)ノ

IPA辞書ではこうなっちゃうのが↓

* 0 1D 0/1 1.380119
ここ	名詞,代名詞,一般,*,*,*,ここ,ココ,ココ	O
の	助詞,連体化,*,*,*,*,の,ノ,ノ	O
* 1 4D 0/1 0.000000
ケーキ	名詞,一般,*,*,*,*,ケーキ,ケーキ,ケーキ	O
は	助詞,係助詞,*,*,*,*,は,ハ,ワ	O
、	記号,読点,*,*,*,*,、,、,、	O
* 2 3D 1/2 1.538769
けた	名詞,接尾,助数詞,*,*,*,けた,ケタ,ケタ	O
外れ	名詞,一般,*,*,*,*,外れ,ハズレ,ハズレ	O
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ	O
* 3 4D 0/1 0.000000
美味しかっ	形容詞,自立,*,*,形容詞・イ段,連用タ接続,美味しい,オイシカッ,オイシカッ	O
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ	O
* 4 -1D 3/3 0.000000
ヽ	記号,一般,*,*,*,*,ヽ,ヽ,ヽ	O
(	記号,括弧開,*,*,*,*,(,(,(	O
´	記号,一般,*,*,*,*,´,´,´	O
ー	名詞,一般,*,*,*,*,*	O
`	記号,一般,*,*,*,*,`,`,`	O
)	記号,括弧閉,*,*,*,*,),),)	O
ノ	記号,一般,*,*,*,*,ノ,ノ,ノ	O
EOS

UniDicだとこうなります↓

* 0 1D 0/1 0.260209
ここ	代名詞,*,*,*,*,*,ココ,此処,ここ,ここ,ココ,ココ,ココ,和	O
の	助詞,格助詞,*,*,*,*,ノ,の,の,の,ノ,ノ,ノ,和	O
* 1 4D 2/2 0.000000
ケーキ	名詞,普通名詞,一般,*,*,*,ケーキ,ケーキ,ケーキ,ケーキ,ケーキ,ケーキ,ケーキ,外	O
は	助詞,係助詞,*,*,*,*,ハ,は,は,は,ワ,ワ,ハ,和	O
、	補助記号,読点,*,*,*,*,,、,、,、,,,,記号	O
* 2 3D 0/1 0.049907
けた外れ	形状詞,一般,*,*,*,*,ケタハズレ,桁外れ,けた外れ,けた外れ,ケタハズレ,ケタハズレ,ケタハズレ,和	O
に	助動詞,*,*,*,助動詞-ダ,連用形-ニ,ダ,だ,に,だ,ニ,ダ,ダ,和	O
* 3 4D 0/1 0.000000
美味しかっ	形容詞,一般,*,*,形容詞,連用形-促音便,オイシイ,美味しい,美味しかっ,美味しい,オイシカッ,オイシー,オイシイ,和	O
た	助動詞,*,*,*,助動詞-タ,終止形-一般,タ,た,た,た,タ,タ,タ,和	O
* 4 -1D 0/0 0.000000
ヽ(´ー`)ノ	補助記号,AA,顔文字,*,*,*,,ヽ(´ー`)ノ,ヽ(´ー`)ノ,ヽ(´ー`)ノ,,,,記号	O
EOS

一目で見てわかる違いは文末の顔文字でしょう。作者の細かい配慮が伺えます。また、「形状詞」という品詞もUniDicならではの存在でしょう。これは、形容動詞の語幹に当たるもので本質的には名詞と同じですが、口語では特に頻出するキーワードだけに直観的な分類と言えます。

参考までにUniDicの他にもnaist-dicという定評のある辞書が公開されていますし、また辞書そのものを動的に鍛える方法を公開している方もいます。自分の研究でも100MB単位の評価文書を解析していますが、課題はまだまだいっぱいです。いつかは当方でも辞書の強化に挑戦してみたいですね。