統計学基礎
データの種類
データ分析で利用するデータは、以下のように大別できる。
また、分類に応じて、以下の表に示すように許される演算が決まっている。
データ分類 | 測定尺度 | 許される演算 | 主な代表値 |
量的データ | 比率尺度 | +- × ÷ | 幾何平均 |
間隔尺度 | +- | 算術平均 | |
質的データ | 順序尺度 | > = | 中央値 |
名義尺度 | カウント | 最頻値 |
記述統計と推測統計
記述統計は得られたデータの特徴を記述、要約する統計手法であるのに対して、推測統計は得られた標本データから母集団の特徴を推測する統計手法である。
記述統計
記述統計量
データの傾向を定量的に把握するためにデータを集約したものを、記述統計量あるいは要約統計量という。代表的な記述統計量には、合計、平均値、中央値、最頻値、分散、標準偏差などがある。主に量的データに対して計算されるが、質的データに対しても最頻値などを求めることができる。
さまざまな記述統計量の例
代表値 | 意味 | 式 |
平均 | データの重心 | |
分散 | データのばらつきの程度 | |
標準偏差 | データのばらつきの程度 (分散の平方根) | |
最小値 | データの中で最も小さい値 | 詳細は付録Aを参照 |
最大値 | データの中で最も大きい値 | 詳細は付録Aを参照 |
中央値 | データを昇順に並べたときに中央の位置にある値 | 詳細は付録Aを参照 |
第一四分位数 | データを昇順に並べたときに25%の位置にある値 | 詳細は付録Aを参照 |
第三四分位数 | データを昇順に並べたときに75%の位置にある値 | 詳細は付録Aを参照 |
四分位範囲 | 第1四分位数から第3四分位数までの範囲 | 詳細は付録Aを参照 |
四分位偏差 | 四分位範囲を二等分した値 | 詳細は付録Aを参照 |
最頻値 | データの中で最も多く出現する値 | {1,2,2,2,3,4,4,5} → 最頻値は2 |
歪度 | データの分布が正規分布と比べてどのくらい歪んでいるかを表す値 | 省略 |
尖度 | データの分布が正規分布と比べてどのくらい尖っているかを表す値 | 省略 |
共分散 | 2変数の関係性の強さを表す値 | |
相関係数 | 2変数の関係性の強さを表す値 (共分散をそれぞれのデータの標準偏差で除した値) |
データの可視化
記述統計量を用いるとデータの傾向を定量的に把握できるが、その一方で、捨ててしまっている情報も多いため、適宜データの分布の形状を確認する必要がある。例えば、ピークが複数ある次のような分布の場合、平均値ではデータの特徴を表現できない。
データの分布を把握するためによく用いられるものにヒストグラムがあるが、その他にも箱ひげ図を始めとしたさまざまなデータの分布の可視化手法がある。
2変数のデータの関係を把握するための可視化手法としては、散布図がよく用いられる。
ここで、rは相関係数でしばしば次のように解釈される。
外れ値・異常値・欠損値
データの意味を正しく読み取るためには外れ値、異常値、欠損値を確認する必要がある。
次の表はある動物園での動物ごとの食事量のデータである。気になる値として、「3月10日のキリンの600kg(他のデータと比較して一桁大きい)」、「3月3日と10日のライオンの0kg(他のデータと比較して極端に小さい)」、「3月5日の欠損」、「3月8日以降のパンダの欠損」が挙げられる。
調査の結果、「3月10日のキリンの600kg」は入力ミス(異常値)で正しくは60kgであること、「3月3日と9日のライオンの0kg」は内蔵の調整のため週に一度絶食日を設けていて正しい値(異常値ではない)であること、「3月5日の欠損」は食事量を測定する機器が故障していてデータを記録できなかったこと、「3月8日以降のパンダの欠損」は3月8日にパンダが他の動物園に移動したためということがわかった。
このようにデータを読み解く際には、データ取得の背景を調べることが極めて重要になる。
確率
確率分布
推測統計では、母集団から抽出された標本を、ある確率分布から生成された値であると仮定してモデル化する。
測定回数が少ないと母集団の確率分布からのズレが大きく、測定回数が多くなるほど母集団の確率分布に近づくいていく。
統計学で頻出する最も重要な分布が正規分布(ガウス分布)で、次の式で表される。
正規分布は平均と標準偏差の2つのパラメータをもち、図にプロットすると次の図のような形となる。
正規分布には次のような特徴がある。
また、正規分布に従う確率変数の実現値は、からの範囲に68%、からの範囲に95%、ーからの範囲に99.7%の確率で収まる。
大数の法則
互いに独立(ある測定が別の測定に影響しない)な確率変数の平均値は、測定回数が大きくなるにつれて真の値に近づいていく。例えば、何回もサイコロを振って出た目の平均を取る場合、サイコロを振る回数が多くなるほどその平均は母集団平均の3.5に近づく。
中心極限定理
任意の同一の確率分布に従う確率変数の和(あるいは平均値)は、確率変数の数が大きくなるにつれて正規分布に近づいていく。例えば、何回もサイコロを振って出た目の平均を取る場合、サイコロを振る回数が多くなるほどその平均の確率分布は正規分布に近づく。
サイコロ(一様分布)に限らず、さまざまなランダムな要素が足し合わされるような状況では自然と正規分布が現れる。
推測統計
点推定
点推定では、母平均や母分散などの特性値(母数)を1つの値で推定する。サンプルサイズが多くなるほど標本は母集団に近づくいていくため、標本平均は母平均に、標本分散は母分散に近づいていく。ただし、一般に標本の大きさは有限なので真の母数の値とは一致しない。
あるハンバーガーチェーン店のポテトの重量を推定する場合の例を考える。ポテトすべてを測るには多大なコストがかかるため、ポテトの母集団からn個のデータを標本として抽出し、重量を測定してその平均と分散を計算する。サンプルサイズが十分に大きければ、抽出した標本から求めた標本平均や標本分散と母平均や母分散が一致することになる。
標本平均と標本分散は、それぞれ以下の式で表現できる。
詳細な説明は省略するが、標本平均は推定量として「望ましい」性質を満たしているのに対し、標本分散は推定量として「望ましい」性質を満たしておらず、標本分散では母分散を過小評価してしまう。そこで、母分散を推定する際は必ず、標本分散の代わりに不偏分散を用いる。
不偏分散の導入の詳細な説明については確率統計の教科書を参照されたい。
区間推定
区間推定では、標本から得られた値から母平均などの母数を推定する。前述のように、「正規分布に従う確率変数の実現値はからの範囲に約95%の確率で収まる」。ここでは、より正確に「正規分布に従う確率変数の実現値はからの範囲に95%の確率で収まる」と表現する。この事実から、以下のように式を変形して信頼区間を求める。
「」が95%の確率で成立する
⇒ 「」が95%の確率で成立する
⇒ 信頼区間に95%の確率で母平均が含まれる
例として、あるハンバーガーチェーン店のポテトの重量を推定する(母分散が既知)場合を考える。ポテトすべてを測るには多大なコストがかかるため、ポテトの母集団から1個のデータを標本として抽出し、重量を測定する。母分散が既知なので、測定した重量から信頼区間を計算できる。
上の例では標本として1個のポテトしか抽出しなかったため、信頼区間の範囲が大きくなり、実用上使いにくい。そこで標本としてn個(下の図ではn=10)のポテトを抽出すると信頼区間の範囲を狭めることができる。「正規分布の再生成」と「独立な確率変数の和と積の期待値、分散の簡単な計算」から、標本平均の分布はに従い、信頼区間の幅はサンプルサイズnの平方根に反比例して小さくなる。
続いて、あるハンバーガーチェーン店のポテトの重量を推定する(母分散が未知)場合の例を考える。母分散が未知なので、母分散の代わりに不偏分散用いる。サンプルサイズが十分大きい場合、不偏分散は母分散に一致するので、母分散を不偏分散置き換えるだけで良いが、サンプルサイズの大きさが十分でない場合、正規分布の代わりにスチューデントのt分布を用いる必要がある。スチューデントのt分布は正規分布に似たつりがね型の分布で、正規分布より裾が広く平べったい形をしており、自由度(あるいは標本数)を無限大にすると正規分布と一致する。
※ t分布表より、
なお、標本のサンプルサイズを大きくしていくと、中心極限定理の存在により母集団が正規分布に従うという仮定が不要になる。
仮説検定
仮説検定では、必要になる数学的道具は推定の場合と同じだが、設定した仮説が正しいかどうか判定することを目的としている。仮説検定の流れは以下のようになる。
例として、あるハンバーガーチェーン店のポテトは公式では重量はと表記されていて、公式の重量が実際の重量と比較して差がないか検定する(母分散が既知)場合を考える。ポテトすべてを測るには多大なコストがかかるため、ポテトの母集団から10個のデータを標本として抽出し、重量を測定する。母分散が既知なので、帰無仮説が正しいという仮定の下で「観測した重量」が得られる確率(p値)を計算できる。その後、しきい値(有意水準)と比較して帰無仮説を棄却するかどうか判定する。
続いて、公式の重量が実際の重量と比較して差がないか検定する(母分散が未知)場合を考える。母分散が未知なので、母分散の代わりに不偏分散用いる。サンプルサイズが十分大きい場合、不偏分散は母分散に一致するので、母分散を不偏分散に置き換えるだけで良いが、サンプルサイズの大きさが十分でない場合、正規分布の代わりにスチューデントのt分布を用いる必要がある。
信頼区間と仮説検定
前述の通り、信頼区間と仮説検定は目的が異なるだけで使う数学的道具は同じである。95%信頼区間がを含むかどうかと、「帰無仮説: v.s. 対立仮説:」の仮説検定で得られたp値が0.05を下回るかどうかは等価である。
付録A - 四分位数と四分位範囲
最小値、第1四分位数()、中央値()、第三四分位数()、最大値はデータを大きさ順で並べたときにそれぞれ、一番最初、25%(前半データの真ん中)、50%、75%(後半データの真ん中)、一番最後の位置にある値である。四分位範囲と四分位偏差はそれぞれ、、で表される。仮にサイコロを9回あるいは10回振った場合は下図のようになる。