形態素解析辞書UniDicを使おう
形態素解析辞書として広く使われているIPA辞書ですが、いわゆる口語(話し言葉)を解析対象とするなら、UniDicがお勧めです。いきなり実例ですが、以下の感想文。
ここのケーキは、けた外れに美味しかったヽ(´ー`)ノ
IPA辞書ではこうなっちゃうのが↓
* 0 1D 0/1 1.380119 ここ 名詞,代名詞,一般,*,*,*,ここ,ココ,ココ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 1 4D 0/1 0.000000 ケーキ 名詞,一般,*,*,*,*,ケーキ,ケーキ,ケーキ O は 助詞,係助詞,*,*,*,*,は,ハ,ワ O 、 記号,読点,*,*,*,*,、,、,、 O * 2 3D 1/2 1.538769 けた 名詞,接尾,助数詞,*,*,*,けた,ケタ,ケタ O 外れ 名詞,一般,*,*,*,*,外れ,ハズレ,ハズレ O に 助詞,格助詞,一般,*,*,*,に,ニ,ニ O * 3 4D 0/1 0.000000 美味しかっ 形容詞,自立,*,*,形容詞・イ段,連用タ接続,美味しい,オイシカッ,オイシカッ O た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ O * 4 -1D 3/3 0.000000 ヽ 記号,一般,*,*,*,*,ヽ,ヽ,ヽ O ( 記号,括弧開,*,*,*,*,(,(,( O ´ 記号,一般,*,*,*,*,´,´,´ O ー 名詞,一般,*,*,*,*,* O ` 記号,一般,*,*,*,*,`,`,` O ) 記号,括弧閉,*,*,*,*,),),) O ノ 記号,一般,*,*,*,*,ノ,ノ,ノ O EOS
UniDicだとこうなります↓
* 0 1D 0/1 0.260209 ここ 代名詞,*,*,*,*,*,ココ,此処,ここ,ここ,ココ,ココ,ココ,和 O の 助詞,格助詞,*,*,*,*,ノ,の,の,の,ノ,ノ,ノ,和 O * 1 4D 2/2 0.000000 ケーキ 名詞,普通名詞,一般,*,*,*,ケーキ,ケーキ,ケーキ,ケーキ,ケーキ,ケーキ,ケーキ,外 O は 助詞,係助詞,*,*,*,*,ハ,は,は,は,ワ,ワ,ハ,和 O 、 補助記号,読点,*,*,*,*,,、,、,、,,,,記号 O * 2 3D 0/1 0.049907 けた外れ 形状詞,一般,*,*,*,*,ケタハズレ,桁外れ,けた外れ,けた外れ,ケタハズレ,ケタハズレ,ケタハズレ,和 O に 助動詞,*,*,*,助動詞-ダ,連用形-ニ,ダ,だ,に,だ,ニ,ダ,ダ,和 O * 3 4D 0/1 0.000000 美味しかっ 形容詞,一般,*,*,形容詞,連用形-促音便,オイシイ,美味しい,美味しかっ,美味しい,オイシカッ,オイシー,オイシイ,和 O た 助動詞,*,*,*,助動詞-タ,終止形-一般,タ,た,た,た,タ,タ,タ,和 O * 4 -1D 0/0 0.000000 ヽ(´ー`)ノ 補助記号,AA,顔文字,*,*,*,,ヽ(´ー`)ノ,ヽ(´ー`)ノ,ヽ(´ー`)ノ,,,,記号 O EOS
一目で見てわかる違いは文末の顔文字でしょう。作者の細かい配慮が伺えます。また、「形状詞」という品詞もUniDicならではの存在でしょう。これは、形容動詞の語幹に当たるもので本質的には名詞と同じですが、口語では特に頻出するキーワードだけに直観的な分類と言えます。
参考までにUniDicの他にもnaist-dicという定評のある辞書が公開されていますし、また辞書そのものを動的に鍛える方法を公開している方もいます。自分の研究でも100MB単位の評価文書を解析していますが、課題はまだまだいっぱいです。いつかは当方でも辞書の強化に挑戦してみたいですね。