壁とかパズルとか

パズルと将棋とボルダリングとダイビングが趣味です。

統計学入門メモ(1章 統計学の基礎)

基礎統計学I 統計学入門を読み進めています。 自分の認識や、調べたこと、行間や補足のメモを残していきます。 知識の整理が目的ですので、本に記述されていない内容を含んでいたりします。

1章 統計学の基礎

1.1 統計学とは

記述統計学と統計的推測

記述統計学

  • 対象全てのデータが存在し、そのデータの規則性や法則をわかりやすく説明する学問
  • データが存在することが前提。さらに、すべての情報があることが必要(全数調査)
  • ここで言う全てのデータが母集団

統計的推測

  • 集めたデータ≒標本から母集団の特徴を推測する学問
  • 大きく推定仮説検定に分かれる
    • 選挙の当選確実
    • 視聴率

平均への回帰

  • データに偏りがあっても、最終的には平均に近づいていくこと
  • 遺伝学者ゴルトンのスイート・ピーの趣旨の直径の測定
    • 親をx軸、子をy軸とすると、直線の傾きは1/3になった。
    • 直径の小さい親から生まれた子供の直径は、親の直径より大きく、逆に直径の大きい親から生まれた子供の直径は、親の直径より小さかった。
    • 遺伝の影響が限りなく強い(いわゆる、相関係数が1)場合は、親と子の直線の傾きは1になるはず、それが1/3になったということは、遺伝の影響よりも偶発的なぶれ(分散)が大きかった。
  • このように、分散が大きいような集合の平均を繰り返しとっていった場合、最終的には全体の平均に近づいていく。これを平均への回帰という。
  • 平均への回帰を意識していないと、「改善効果があった」と勘違いすることがある(回帰の誤謬)

標本分布

  • 標本の統計量の分布
  • 母集団から標本を抽出することは理論上何回でも可能であり、それらの統計量はばらつきがあるため分布として記述できる。

1.2 統計データと統計手法

  • 量的データ
    • 定量的なデータ
    • 例:長さや重さ、金額、時間など
  • 質的データ
    • 量的データ以外。カテゴリー等
    • 対応する数字(ダミー変数)を与えることで量的データとして扱うこともある
    • 例:男女、天気、地域など
  • 時系列データ
    • 同一の対象に対する、異なった時点での観測値
  • クロスセクションデータ
    • 同一の時点に対する、異なった対象での観測値
  • パネルデータ
    • 時系列データ×クロスセクションデータ

1.3 統計データの分析プロセス

  • 仮説(何を対象にどのようなことを分析するか)を決める
  • データが存在しない場合は収集する
    • 原データ
      • 実験や調査から得られる生のデータ
    • 統計資料
      • 行政機関や研究機関などが作成した、原データに統計処理を行った後の資料
      • 以下の定義に注意しないと、誤った結論につながる
        • 誰が行ったものか
        • 全数調査 or 標本調査
        • 調査対象
        • 時期
        • 地域
        • 分類
        • etc
  • 統計分析
    • 様々な統計手法を用いる理由を理解していくことが重要
  • 結果の解釈
    • 今後勉強していく部分

練習問題

参考資料