自然言語処理の前処理

2022/01/14

その他

形態素解析

自然言語の文章を最小の構成要素(形態素)に分解し、各形態素を品詞、活用ごとに分類する処理を形態素解析という。

犬も歩けば棒に当たる
→ 犬(名詞)/も(副助詞)/歩け(動詞)/ば(接続助詞)/棒(名詞)/に(格助詞)/当たる(動詞)

特に日本語は、英語などと異なり単語ごとにスペースで区切られていないため、形態素解析が自然言語処理の精度に大きく影響する。

ストップワード

多くの文章に出現する、「は」、「の」、「です」などの極めて一般的な単語をストップワードという。自然言語処理の際にはノイズとして除外される事が多い。

ステミング

語形が変化する単語の、共通の部分のみを取り出す処理をステミングという。語幹化ともいう。

レンマ化

ステミングと似たものとして、レンマ化という単語を正規化する処理がある。一般に、ステミングではルールに従って活用語尾が除去されるのに対し、レンマ化では辞書を参照して基本形を取得する


著者画像

ゆうき

2018/04からITエンジニアとして活動、2021/11から独立。主な使用言語はPython, TypeScript, SAS, etc.