自然言語処理の前処理
2022/01/14
その他形態素解析
自然言語の文章を最小の構成要素(形態素)に分解し、各形態素を品詞、活用ごとに分類する処理を形態素解析という。
犬も歩けば棒に当たる
→ 犬(名詞)/も(副助詞)/歩け(動詞)/ば(接続助詞)/棒(名詞)/に(格助詞)/当たる(動詞)
特に日本語は、英語などと異なり単語ごとにスペースで区切られていないため、形態素解析が自然言語処理の精度に大きく影響する。
ストップワード
多くの文章に出現する、「は」、「の」、「です」などの極めて一般的な単語をストップワードという。自然言語処理の際にはノイズとして除外される事が多い。
ステミング
語形が変化する単語の、共通の部分のみを取り出す処理をステミングという。語幹化ともいう。
レンマ化
ステミングと似たものとして、レンマ化という単語を正規化する処理がある。一般に、ステミングではルールに従って活用語尾が除去されるのに対し、レンマ化では辞書を参照して基本形を取得する