Doc2Vec

2022/04/25

AI

Doc2Vecとは

Doc2VecはWord2Vecを応用したモデルで、単語だけでなく文書もベクトル化できる。Doc2Vecには、「dmpv」と「DBOW」の2種類あり、それぞれWord2Vecの「CBOW」と「skip-gram」に似たモデルである。

dmpv

dmpvはWord2VecのCBOWに似たモデル。「文章IDと前後の単語からその中間の単語を予測する」というタスクを解く。

Notion Image

CBOWの入力層に文章IDをOne-hotベクトル化したものを追加したモデル。

Notion Image

大量の文章を用いてモデル内の重みを更新することで、「文章IDと前後の単語からその中間の単語を予測する」という偽のタスクを解けるようにモデルを学習する。このモデルは文章と単語間の関係を学習しており、モデルの重みWV×NW_{V \times N}を文章ベクトル、単語ベクトルとして利用できる。

DBOW

DBOWはWord2VecのSkip-gramと似たモデル。「文章IDからその文章を構成する単語を予測する」というタスクを解く。

Notion Image

入力値として文章IDをOne-hotベクトル化したものを、正解値としてその文章を構成する単語をOne-hotベクトル化したものを使用する。

Notion Image

大量の文章を用いてモデル内の重みを更新することで、「文章IDからその文章を構成する単語を予測する」という偽のタスクを解けるようにモデルを学習する。このモデルは文章と単語間の関係を学習しており、モデルの重みWV×NW_{V \times N}を文章ベクトルとして利用できる。


著者画像

ゆうき

2018/04からITエンジニアとして活動、2021/11から独立。主な使用言語はPython, TypeScript, SAS, etc.