統計学基礎

データの種類

データ分析で利用するデータは、以下のように大別できる。

Notion Image

また、分類に応じて、以下の表に示すように許される演算が決まっている。

データ分類測定尺度許される演算主な代表値
量的データ比率尺度+- × ÷幾何平均
同上間隔尺度+-算術平均
質的データ順序尺度> =中央値
同上名義尺度カウント最頻値

記述統計と推測統計

記述統計は得られたデータの特徴を記述、要約する統計手法であるのに対して、推測統計は得られた標本データから母集団の特徴を推測する統計手法である。

Notion Image

記述統計

記述統計量

データの傾向を定量的に把握するためにデータを集約したものを、記述統計量あるいは要約統計量という。代表的な記述統計量には、合計、平均値、中央値、最頻値、分散、標準偏差などがある。主に量的データに対して計算されるが、質的データに対しても最頻値などを求めることができる。

さまざまな記述統計量の例

代表値意味
平均データの重心x=1ni=1nxn\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_n
分散データのばらつきの程度s2=1ni=1n(xix)s^2=\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\overline{x}\right)
標準偏差データのばらつきの程度 (分散の平方根)s=s2s=\sqrt{s^2}
最小値データの中で最も小さい値詳細は付録Aを参照
最大値データの中で最も大きい値詳細は付録Aを参照
中央値データを昇順に並べたときに中央の位置にある値詳細は付録Aを参照
第一四分位数データを昇順に並べたときに25%の位置にある値詳細は付録Aを参照
第三四分位数データを昇順に並べたときに75%の位置にある値詳細は付録Aを参照
四分位範囲第1四分位数から第3四分位数までの範囲詳細は付録Aを参照
四分位偏差四分位範囲を二等分した値詳細は付録Aを参照
最頻値データの中で最も多く出現する値{1,2,2,2,3,4,4,5} → 最頻値は2
歪度データの分布が正規分布と比べてどのくらい歪んでいるかを表す値省略
尖度データの分布が正規分布と比べてどのくらい尖っているかを表す値省略
共分散2変数の関係性の強さを表す値sxy=i=1n(xix)(yiy)s_{xy}=\sum_{i=1}^{n}\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)
相関係数2変数の関係性の強さを表す値 (共分散をそれぞれのデータの標準偏差で除した値)r=sxysxsy=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2r=\frac{s_xy}{s_x s_y} =\frac{\sum_{i=1}^{n}\left(x_i-\overline{x}\right)\left(y_i-\overline{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_i-\overline{x}\right)^2\sum_{i=1}^{n}\left(y_i-\overline{y}\right)^2}}

データの可視化

記述統計量を用いるとデータの傾向を定量的に把握できるが、その一方で、捨ててしまっている情報も多いため、適宜データの分布の形状を確認する必要がある。例えば、ピークが複数ある次のような分布の場合、平均値ではデータの特徴を表現できない。

Notion Image

データの分布を把握するためによく用いられるものにヒストグラムがあるが、その他にも箱ひげ図を始めとしたさまざまなデータの分布の可視化手法がある。

Notion Image

2変数のデータの関係を把握するための可視化手法としては、散布図がよく用いられる。

Notion Image

ここで、rは相関係数でしばしば次のように解釈される。

  • 0.7<r10.7<|r|\le1 \rightarrow 強い相関
  • 0.4<r0.70.4<|r|\le0.7 \rightarrow 中程度の相関
  • 0.2<r0.40.2<|r|\le0.4 \rightarrow 弱い相関
  • 0<r0.20<|r|\le0.2 \rightarrow ほぼ相関なし

  • 外れ値・異常値・欠損値

    データの意味を正しく読み取るためには外れ値、異常値、欠損値を確認する必要がある。

  • 外れ値:他のデータと比較して極端に大きい(あるいは極端に小さい)値
  • 異常値:外れ値のうち、測定や記録のミスなど原因がわかっている値
  • 欠損値:何らかの理由によりデータが記録されていないもの
  • 次の表はある動物園での動物ごとの食事量のデータである。気になる値として、「3月10日のキリンの600kg(他のデータと比較して一桁大きい)」、「3月3日と10日のライオンの0kg(他のデータと比較して極端に小さい)」、「3月5日の欠損」、「3月8日以降のパンダの欠損」が挙げられる。

    Notion Image

    調査の結果、「3月10日のキリンの600kg」は入力ミス(異常値)で正しくは60kgであること、「3月3日と9日のライオンの0kg」は内蔵の調整のため週に一度絶食日を設けていて正しい値(異常値ではない)であること、「3月5日の欠損」は食事量を測定する機器が故障していてデータを記録できなかったこと、「3月8日以降のパンダの欠損」は3月8日にパンダが他の動物園に移動したためということがわかった。

    このようにデータを読み解く際には、データ取得の背景を調べることが極めて重要になる。

    確率

    確率分布

    推測統計では、母集団から抽出された標本を、ある確率分布から生成された値であると仮定してモデル化する。

    Notion Image

    測定回数が少ないと母集団の確率分布からのズレが大きく、測定回数が多くなるほど母集団の確率分布に近づくいていく。

    Notion Image

    統計学で頻出する最も重要な分布が正規分布(ガウス分布)で、次の式で表される。

    f(x)=12πσ2exp((xμ)22σ2)f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

    正規分布N(μ,σ2)N(\mu,\sigma^2)は平均μ\muと標準偏差σ\sigmaの2つのパラメータをもち、図にプロットすると次の図のような形となる。

    Notion Image

    正規分布には次のような特徴がある。

  • 平均μ\muを中心とした釣鐘型の分布
  • 平均μ\mu付近の値が最も現れやすく、平均μ\muから離れた値ほど現れにくい
  • 身長や体重のような正規分布で近似できる現象が多い
  • また、正規分布に従う確率変数の実現値は、μσ\mu-\sigmaからμ+σ\mu+\sigmaの範囲に68%、μ2σ\mu-2\sigmaからμ+2σ\mu+2\sigmaの範囲に95%、ーμ3σ\mu-3\sigmaからμ+3σ\mu+3\sigmaの範囲に99.7%の確率で収まる。

    Notion Image

    大数の法則

    互いに独立(ある測定が別の測定に影響しない)な確率変数の平均値は、測定回数が大きくなるにつれて真の値に近づいていく。例えば、何回もサイコロを振って出た目の平均を取る場合、サイコロを振る回数が多くなるほどその平均は母集団平均の3.5に近づく。

    Notion Image

    中心極限定理

    任意の同一の確率分布に従う確率変数の和(あるいは平均値)は、確率変数の数が大きくなるにつれて正規分布に近づいていく。例えば、何回もサイコロを振って出た目の平均を取る場合、サイコロを振る回数が多くなるほどその平均の確率分布は正規分布N(μ,σ2)N(\mu,\sigma^2)に近づく。

    Notion Image

    サイコロ(一様分布)に限らず、さまざまなランダムな要素が足し合わされるような状況では自然と正規分布が現れる。

    推測統計

    点推定

    点推定では、母平均や母分散などの特性値(母数)を1つの値で推定する。サンプルサイズが多くなるほど標本は母集団に近づくいていくため、標本平均は母平均に、標本分散は母分散に近づいていく。ただし、一般に標本の大きさは有限なので真の母数の値とは一致しない。

    あるハンバーガーチェーン店のポテトの重量を推定する場合の例を考える。ポテトすべてを測るには多大なコストがかかるため、ポテトの母集団からn個のデータを標本として抽出し、重量を測定してその平均と分散を計算する。サンプルサイズが十分に大きければ、抽出した標本から求めた標本平均や標本分散と母平均や母分散が一致することになる。

    Notion Image

    標本平均XXと標本分散S2S^2は、それぞれ以下の式で表現できる。

    X=1ni=1nXn\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_n
    S2=1ni=1n(xiX)S^2=\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\overline{X}\right)

    詳細な説明は省略するが、標本平均X\overline{X}は推定量として「望ましい」性質を満たしているのに対し、標本分散S2S^2は推定量として「望ましい」性質を満たしておらず、標本分散S2S^2では母分散σ2\sigma^2を過小評価してしまう。そこで、母分散σ2\sigma^2を推定する際は必ず、標本分散S2S^2の代わりに不偏分散U2U^2を用いる。

    U2=1n1i=1n(xiX)U^2=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_i-\overline{X}\right)

    不偏分散の導入の詳細な説明については確率統計の教科書を参照されたい。

    区間推定

    区間推定では、標本から得られた値から母平均などの母数を推定する。前述のように、「正規分布に従う確率変数の実現値はμ2σ\mu-2\sigmaからμ+2σ\mu+2\sigmaの範囲に約95%の確率で収まる」。ここでは、より正確に「正規分布に従う確率変数の実現値はμ1.96σ\mu-1.96\sigmaからμ+1.96σ\mu+1.96\sigmaの範囲に95%の確率で収まる」と表現する。この事実から、以下のように式を変形して信頼区間を求める。

    μ1.96σ<X<μ+1.96σ\mu-1.96\sigma<X<\mu+1.96\sigma」が95%の確率で成立する

    ⇒ 「X1.96σ<μ<X+1.96σX-1.96\sigma<\mu<X+1.96\sigma」が95%の確率で成立する

    ⇒ 信頼区間[X1.96σ,X+1.96σ][X-1.96\sigma,X+1.96\sigma]に95%の確率で母平均が含まれる

    例として、あるハンバーガーチェーン店のポテトの重量を推定する(母分散σ2\sigma^2が既知)場合を考える。ポテトすべてを測るには多大なコストがかかるため、ポテトの母集団から1個のデータを標本として抽出し、重量を測定する。母分散σ2\sigma^2が既知なので、測定した重量XXから信頼区間を計算できる。

    Notion Image

    上の例では標本として1個のポテトしか抽出しなかったため、信頼区間の範囲が大きくなり、実用上使いにくい。そこで標本としてn個(下の図ではn=10)のポテトを抽出すると信頼区間の範囲を狭めることができる。「正規分布の再生成」と「独立な確率変数の和と積の期待値、分散の簡単な計算」から、標本平均の分布はN(μ,σ2/n)N\left(\mu,\sigma^2/n\right)に従い、信頼区間の幅はサンプルサイズnの平方根に反比例して小さくなる。

    Notion Image

    続いて、あるハンバーガーチェーン店のポテトの重量を推定する(母分散σ2\sigma^2が未知)場合の例を考える。母分散が未知なので、母分散σ2\sigma^2の代わりに不偏分散U2U^2用いる。サンプルサイズが十分大きい場合、不偏分散U2U^2は母分散σ2\sigma^2に一致するので、母分散σ2\sigma^2を不偏分散U2U^2置き換えるだけで良いが、サンプルサイズの大きさが十分でない場合、正規分布の代わりにスチューデントのt分布を用いる必要がある。スチューデントのt分布は正規分布に似たつりがね型の分布で、正規分布より裾が広く平べったい形をしており、自由度(あるいは標本数)を無限大にすると正規分布と一致する。

    Notion Image

    ※ t分布表より、t(n1;0.025)=t(9;0.025)=2.262t(n-1;0.025)=t(9;0.025)=2.262

    なお、標本のサンプルサイズを大きくしていくと、中心極限定理の存在により母集団が正規分布に従うという仮定が不要になる。

    Notion Image

    仮説検定

    仮説検定では、必要になる数学的道具は推定の場合と同じだが、設定した仮説が正しいかどうか判定することを目的としている。仮説検定の流れは以下のようになる。

  • 帰無仮説H0H_0(否定したい仮説)と対立仮説H1H_1(主張したい仮説)を設定する。
  • 帰無仮説H0H_0が正しいと仮定したときに、実際に観測された値がどの程度の確率で起きるか(p値)を計算する。
  • 求めたp値が、帰無仮説を棄却するかどうか判断するためのしきい値(有意水準)と比較して小さければ、帰無仮説H0H_0を棄却して対立仮説H1H_1を採択する。大きければ、帰無仮説H0H_0は棄却されない(帰無仮説H0H_0が間違っているとはいえず、判断を保留する)。
  • 例として、あるハンバーガーチェーン店のポテトは公式では重量はμ0\mu_0と表記されていて、公式の重量が実際の重量と比較して差がないか検定する(母分散σ2\sigma^2が既知)場合を考える。ポテトすべてを測るには多大なコストがかかるため、ポテトの母集団から10個のデータを標本として抽出し、重量を測定する。母分散σ2\sigma^2が既知なので、帰無仮説が正しいという仮定の下で「観測した重量」が得られる確率(p値)を計算できる。その後、しきい値(有意水準)と比較して帰無仮説を棄却するかどうか判定する。

    Notion Image

    続いて、公式の重量が実際の重量と比較して差がないか検定する(母分散σ2\sigma^2が未知)場合を考える。母分散が未知なので、母分散σ2\sigma^2の代わりに不偏分散U2U^2用いる。サンプルサイズが十分大きい場合、不偏分散U2U^2は母分散σ2\sigma^2に一致するので、母分散σ2\sigma^2を不偏分散U2U^2に置き換えるだけで良いが、サンプルサイズの大きさが十分でない場合、正規分布の代わりにスチューデントのt分布を用いる必要がある。

    Notion Image

    信頼区間と仮説検定

    前述の通り、信頼区間と仮説検定は目的が異なるだけで使う数学的道具は同じである。95%信頼区間がμ0\mu_0を含むかどうかと、「帰無仮説H0H_0μ=μ0\mu=\mu_0 v.s. 対立仮説H1H_1μμ0\mu\ne\mu_0」の仮説検定で得られたp値が0.05を下回るかどうかは等価である。

    付録A - 四分位数と四分位範囲

    最小値、第1四分位数(Q1Q_1)、中央値(Q2Q_2)、第三四分位数(Q3Q_3)、最大値はデータを大きさ順で並べたときにそれぞれ、一番最初、25%(前半データの真ん中)、50%、75%(後半データの真ん中)、一番最後の位置にある値である。四分位範囲と四分位偏差はそれぞれ、Q3Q1Q_3-Q_1(Q3Q1)/2(Q_3-Q_1)/2で表される。仮にサイコロを9回あるいは10回振った場合は下図のようになる。

    Notion Image

    参考資料


    著者画像

    ゆうき

    2018/04からITエンジニアとして活動、2021/11から独立。主な使用言語はPython, TypeScript, SAS, etc.