|
|
形態素解析 (Morphological Analysis) とは、自然言語処理の基礎技術のひとつで、自然言語で書かれた文章を形態素 (Morpheme, おおまかにいえば「単語」) の列に分割し、品詞 (Part-of-speech) を見分ける作業である。
以下は「お待ちしております」という文章を形態素解析した例である (形態素解析ツールには「茶筅」を使用した)。
| 文字列 | 読み | 原形 | 品詞の種類 | 活用の種類 | 活用形 |
|---|---|---|---|---|---|
| お待ち | オマチ | お待ち | 名詞-サ変接続 | ||
| し | シ | する | 動詞-自立 | サ変・スル | 連用形 |
| て | テ | て | 助詞-接続助詞 | ||
| おり | オリ | おる | 動詞-非自立 | 五段・ラ行 | 連用形 |
| ます | マス | ます | 助動詞 | 特殊・マス | 基本形 |
| 。 | 。 | 。 | 記号-句点 |
| Table of contents |
|
2 日本語以外の言語の形態素解析 3 代表的な形態素解析の手法 4 フリーで入手可能な日本語の形態素解析エンジン 5 関連 |
たとえば「うらにわにはにわとりがいる」という文章には、以下のように異なる読み方が存在する (本当はもっとある):
この問題は日本語よりも英語で顕著である。
たとえば単語 "time" は「時間」という名詞としての意味のほかにも「〜倍する」という動詞としての意味もあるため、これをどちらの意味にとるかによって文の意味がまったく
違うものになってしまう。
品詞を見分けることは形態素解析の次の段階である構文解析にとって非常に重要であるが、英語では品詞の種類が文の構造と密接に関連しているため、これらをいっぺんにやってしまう方法も研究されている。
形態素解析はふつう、その言語のすべての単語が収められた辞書をつかっておこなわれる。
しかし辞書にない単語が文中に現れた場合はどうするか。
このような単語は未知語と呼ばれる。
日本語では漢字の列やカタカナの列はたとえ未知語であってもある程度単語として認識することができる。
しかしそれが使えない場合、代表的な方法は「知っている単語が現れるまでよみとばす」というものだが、これは後の解析を狂わせてしまい、結果として頑健な解析ができなくなってしまう恐れがある。
話し言葉や電子メールなどで使われる言葉は、新聞などで使われている日本語からはかなりかけ離れたものが多い。
たとえば「そんなことは知らないでしょう」が「んなこた知らんしょ」に変化したりする。
また電子メールなどでは従来の辞書には載っていない略語やフェイスマークが使われていることも多い。
さらにこういった文章は新聞とはちがってきちんと校正されていないため、書き手のミススペルが入っている場合が多々ある。
このような文章でも解析できることを頑健な解析と呼ぶ。
このような文章に対応するためには形態素解析の手法を根本から見直す必要があるが、言語資源の不足のためあまり研究はされていない。
英語を含む多くの言語では、単語はふつう空白文字によってわかち書きされる。このため文を形態素に区切るのは日本語に比べるとやや簡単である (が、品詞を見分ける問題は依然として残る)。
しかしドイツ語では複数の名詞がひとつの単語として表現されるため、わかち書きを解析する問題が発生する。
中国語や韓国語は日本語と同様にわかち書きの問題が存在する。
また英語や日本語では単語が活用するのは動詞および副詞などに限られるため、単語の活用形もふくんだものをすべて辞書に収めることができるが、ロシア語、フィンランド語などでは活用はほぼすべての単語に対して起こるため、これらの言語では現実的でない。
基本的には辞書をもちいてその単語が属する品詞を調べていくという方法をとる。
日本語では品詞の接続には制限が存在する(たとえば動詞のあとに格助詞がくることはできない、例: 「ドアを開けるを」は不可) ため、この特徴をうまく利用することによって単語のわかち書き問題をある程度解決することができる。
具体的にこの特徴をどのような形で利用するかについては、以下の2つの方法がある:
日本語の形態素解析における諸問題
日本語を形態素解析する際においては、以下の4つが大きな問題となる:単語のわかち書きの問題
単語のわかち書きを解析することはかな漢字変換の基礎となる技術である。しかし完璧な正解を得るにはその文章がおかれている文脈や書き手の意図をくみとらねばならないため非常に難しい。
品詞を見分ける問題
未知語の問題
ルーズな文法の問題
日本語以外の言語の形態素解析
代表的な形態素解析の手法
現在、日本語や英語などで普及しているのはおもに隠れマルコフモデル (HMM, Hidden Markov Model) による統計的な方法である。HMM は多くの言語における形態素の「つながり具合」を比較的簡単にモデル化できることがわかっている。具体的にはそれぞれの単語間のつながりをすべて列挙し、それに対してスコアを付与する。文全体でこのスコアの合計がもっとも高くなるような品詞列を答えとする。フリーで入手可能な日本語の形態素解析エンジン
関連