統計学入門メモ(1章 統計学の基礎)
基礎統計学I 統計学入門を読み進めています。 自分の認識や、調べたこと、行間や補足のメモを残していきます。 知識の整理が目的ですので、本に記述されていない内容を含んでいたりします。
1章 統計学の基礎
1.1 統計学とは
記述統計学と統計的推測
記述統計学
- 対象全てのデータが存在し、そのデータの規則性や法則をわかりやすく説明する学問
- データが存在することが前提。さらに、すべての情報があることが必要(全数調査)
- 例
- 平均
- ヒストグラムなどのグラフ化
- ここで言う全てのデータが
母集団
統計的推測
- 集めたデータ≒
標本
から母集団
の特徴を推測する学問 - 大きく
推定
と仮説検定
に分かれる - 例
- 選挙の当選確実
- 視聴率
平均への回帰
- データに偏りがあっても、最終的には平均に近づいていくこと
- 遺伝学者ゴルトンのスイート・ピーの趣旨の直径の測定
親をx軸、子をy軸とすると、直線の傾きは1/3になった。
- 直径の小さい親から生まれた子供の直径は、親の直径より大きく、逆に直径の大きい親から生まれた子供の直径は、親の直径より小さかった。
- 遺伝の影響が限りなく強い(いわゆる、相関係数が1)場合は、親と子の直線の傾きは1になるはず、それが1/3になったということは、遺伝の影響よりも偶発的なぶれ(分散)が大きかった。
- このように、分散が大きいような集合の平均を繰り返しとっていった場合、最終的には全体の平均に近づいていく。これを
平均への回帰
という。 平均への回帰
を意識していないと、「改善効果があった」と勘違いすることがある(回帰の誤謬
)
標本分布
標本
の統計量の分布母集団
から標本
を抽出することは理論上何回でも可能であり、それらの統計量はばらつきがあるため分布として記述できる。
1.2 統計データと統計手法
- 量的データ
- 定量的なデータ
- 例:長さや重さ、金額、時間など
- 質的データ
- 量的データ以外。カテゴリー等
- 対応する数字(ダミー変数)を与えることで量的データとして扱うこともある
- 例:男女、天気、地域など
- 時系列データ
- 同一の対象に対する、異なった時点での観測値
- クロスセクションデータ
- 同一の時点に対する、異なった対象での観測値
- パネルデータ
- 時系列データ×クロスセクションデータ
1.3 統計データの分析プロセス
- 仮説(何を対象にどのようなことを分析するか)を決める
- データが存在しない場合は収集する
- 原データ
- 実験や調査から得られる生のデータ
- 統計資料
- 行政機関や研究機関などが作成した、原データに統計処理を行った後の資料
- 以下の定義に注意しないと、誤った結論につながる
- 誰が行ったものか
- 全数調査 or 標本調査
- 調査対象
- 時期
- 地域
- 分類
- etc
- 原データ
- 統計分析
- 様々な統計手法を用いる理由を理解していくことが重要
- 結果の解釈
- 今後勉強していく部分