自然言語

2022/01/14

その他

自然言語とは

情報伝達ために日常的に人間が用いている言語。(日本語, 英語, フランス語, etc.)コンピュータが認識出来る機械語と対比して自然言語と呼ばれる。

より厳密には、情報を文字列や波形データに対応させたもの。

Notion Image

文字情報に変換する過程で多くの情報が排除される(抽象化)。受け手はスポットライトのあたった対象の影から実体を想像するようなものなので、情報が正しく伝わらないこともある。また、人によって単語の定義にゆらぎがあり、情報の誤伝達が起こることもある。

Notion Image

文章を作る

自然言語で文章を作るには以下の2ステップが必要。

  • 伝えたい情報の中から単語を切り出す
  • 単語を組み合わせて文章を作る
  • 例えば、以下に示す画像を見て文章にする場合を考える。

    Notion Image

    このとき、「りんご」「ぶどう」、「柿」という単語(概念)を画像から切り出して、「りんごとぶどうと柿がある」などと組み合わせることで文章ができる。

    それ以外にも、りんごが大好きな人は「りんご」だけに注目して、「りんごがある」という文章を作るかもしれないし、全部まとめて「果物がある」という文章を作るかもしれない。また、時間軸の動きの概念を加えて、「りんごとぶどうと柿が非弾性衝突した瞬間である」という文章を作るかもしれない。

    「りんごがある」という文章からは「ぶどう」と「柿」もあることは伝わらない。「果物がある」という文章からは具体的に何の果物なのかが伝わらない。そして、「りんごがある」「果物がある」という文章からは、それらが実は「非弾性衝突」していることは伝わらない。

  • 「りんごがある」
  • Notion Image
  • 「果物がある」
  • Notion Image
  • 「りんごとぶどうと柿が非弾性衝突した瞬間である」
  • Notion Image

    このように、切り出した(注目した)単語以外の情報は排除されるので、自然言語で文章を作る際には捨てられる情報があることに注意されたい。

    ただし、だからといって詳細に伝えればよいかと言うとそうでもなく、「りんご」の表面に小さな凹凸があることは伝える必要はないかもしれない。

    適切な情報伝達のためには、適切に抽象化する必要ある。


    著者画像

    ゆうき

    2018/04からITエンジニアとして活動、2021/11から独立。主な使用言語はPython, TypeScript, SAS, etc.