TF-IDFとは
TF-IDFは、TF(Term Frequency)とIDF(Inverse Document Frequency)を用いて単語を重み付けする手法。
TFは同じ文章内での出現頻度が高い単語ほど重みが大きくなるように、IDFは他の文章中での出現頻度が低い単語ほど重み大きくなるように調整する役割を担う。
TF-IDFによる各文章d中の単語tの重みは、以下の式で表される。
tfidf(t,d)=tf(t,d)×idf(t) tf(t,d)は文章dの内の単語tの出現率、idf(t)は単語tが出現する文章の割合の逆数であり、以下の式で表される。
tf(t,d)=∑s∈dns,dnt,d idf(t)=logdf(t)N nt,d:文章d内での単語tの出現回数
∑s∈dns,d:文章d内のすべての単語の出現回数の和
df(t):単語tが出現する文章の数
なお、scikit-learnでのidf(t)の定義は若干異なっている。
idf(t)=logdf(t)N+1 idf(t)=logdf(t)+1N+1+1