1.データの整理
データのとる値をいくつかの区間に区切って階級を定め、各階級に度数を対応させた表。
各階級の真ん中の値を階級値という。
度数分布表を柱状のグラフで表したもの
2.データの代表値
\(\overline{x}=\frac{1}{n}(x_1+x_2+ \cdots\cdots +x_n)\)
例題
次のデータの平均値を求めよ。
\(8, 5, 5,6, 7\)
解答
平均値\(\overline{x}=\frac{1}{5}(8+5+5+6+7)\)
\(=6.2\)
データにおける最も個数の多い値。
度数分布表における度数が最も大きい階級の階級値
例題
次のデータの最頻値を求めよ。
解答
度数分布表において、度数が最も大きい階級は「\(6 \sim 9\)」であるからその階級値\\(7.5\)が最頻値となる。
データを値の大きさの順に並べたとき中央の位置にくる値。
データの大きさが偶数のときは,中央に並ぶ2つの値の平均値。
例題
次のデータの中央値を求めよ。
①\(3, 7, 8, 9, 5\)
②\(2, 7, 9, 6, 2, 5\)
解答
①データを並び替えると
\(3, 5, 7, 8, 9\)
より、中央値は 7
②データを並び替えると
\(2, 2, 5, 6, 7, 9\)
より、中央値は \(\frac{5+6}{2}=5.5\)
3.四分位数
データの最大値から最小値を引いた差の値
例題
ある都市のA市における月ごとの降水日数
\(7, 4, 9, 7, 10, 13, 14, 7, 4, 12, 13, 5\)
のデータの範囲を求めよ。
解答
\(14-4=10\)(日)
四分位数:データの値を大きさの順に並べたとき,4等分する位置にくる値。
小さい方から順に,第1四分位数\(Q_1\),第2四分位数\(Q_2\),第3四分位数\(Q_3\)という。
※(第2四分位数\(Q_2\))=(中央値)
四分位範囲:第3四分位数\(Q_3\)と第1四分位数\(Q_1\)の差\(Q_3-Q_1)\)
四分位偏差:四分位範囲の半分\(\frac{ Q_3-Q_1}{2}\)
例題
データ\(21, 38, 41, 52, 58, 60\)における
第1四分位数\(Q_1\),
第2四分位数\(Q_2\),
第3四分位数\(Q_3\),
四分位範囲
四分位偏差
を求めよ。
解答
第1四分位数\(Q_1\):\(38\)
第2四分位数\(Q_2\):\(46.5\)
第3四分位数\(Q_3\):\(58\)
四分位範囲:\(58-38=20\)
四分位偏差:\(\frac{20}{2}=10\)
4.箱ひげ図
箱ひげ図:データの最小値,第1四分位数,中央値第3四分位数,最大値を,箱とひげ(線)で表した図。
外れ値:データの中で,他の値から極端に離れた値。
例題
次のデータの最大値,最小値,平均値,四分位数を求め, 箱ひげ図をかけ。
\(21, 32, 36, 38, 41, 45, 52, 58, 64\)
解答
最小値:\(21\)
最大値:\(64\)
平均値:\(43\)
中央値\(Q_2\):\(41\)
第1四分位数\(Q_1\):\(34\)
第3四分位数:\(Q_3\):\(55\)
5.分散と標準偏差
偏差:変量\(x\)の各値と平均値との差
\(x_1-\overline{x}, x_2-\overline{x}, \cdots\cdots , x_n-\overline{x}\)
分散\(s^2\):偏差の2乗の平均値
\(s^2=\frac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots\cdots+(x_n-\overline{x})^2\}\)
\(s^2=\overline{x^2}-(\overline{x})^2\)
標準偏差\(s\):分散\(s^2\)の正の平方根
標準偏差\(s=\sqrt{s^2}\)
例題
データ\(5, 2, 8, 4, 6\)における分散\(s^2\),標準偏差\(s\)を求めよ。
解答
平均値\(\overline{x}=\frac{1}{5}(5+2+8+4+6)=5\)
より
分散\(s^2=\frac{1}{5}((5-5)^2+(2-5)^2+(8-5)^2+(4-5)^2+(6-5)^2\)
\(=4\)
標準偏差\(s=\sqrt{4}=2\)
※\(x^2\)のデータの平均値\(\overline{x^2}\)
\(=\frac{1}{5}(5^2+2^2+8^2+4^2+6^2)\)
\(=29\)
よって
分散\(s^2=29-5^2=4\)でも可
6.相関関係
散布図:2つの変量からなるデータを平面上に図示した図
2つの変量からなるデータにおいて
① 一方が増加すると他方も増加する傾向がある → 正の相関
② 一方が増加すると他方が減少する傾向がある → 負の相関
③ ①②のどちらでもない → 相関がない
7.相関係数
2つの変量\(x, y\)において,\(x\)の偏差と\(y\)の偏差の積\((x_k-\overline{x})(y_k-\overline{y})\)
\(s_{xy}=\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots\cdots+(x_n-\overline{x})(y_n-\overline{y})\}\)
例題
次の表は,ある地域における,午前10時から午後3時までの気温\(x\)と湿度\(y\)を1時間ごとに観測した結果である。
このとき,\(x,y\)の共分散\(s_{xy}\)を求めよ。
解答
\(\overline{x}=\frac{1}{6}(18+20+20+22+24+22)\)
\(=21\)
\(\overline{y}=\frac{1}{6}(77+69+66+58+52+50)\)
\(=62\)
共分散\(s_{xy}=\frac{1}{6}\{(18-21)(77-62)+ (20-21)(69-62)\)
\(+ (20-21)(66-62)+ (22-21)(58-62)\)
\(+ (24-21)(52-62)+ (22-21)(50-62)\}\)
\(=-17\)
\(x\)と\(y\)の共分散\(s_{xy}\)を,\(x\)の標準偏差\(s_x\)と\(y\)の標準偏差\(s_y\)の積で割った値
相関係数\(r=\frac{s_{xy}}{s_xs_y}\)
\(=\frac{(xとyの共分散)}{(xの標準偏差)×(yの標準偏差)}\)
※\(-1 \leq r \leq 1\)
正の相関が強い:相関係数\(r\)が\(1\)に近い値となる
負の相関が強い:相関係数\(r\)が\(-1\)に近い値となる
相関がない:相関係数\(r\)が\(0\)に近い値となる
例題
次のデータ\(x,y\)における相関係数を求めよ。
また、これらの間にはどのような相関関係があると考えられるか。
\(x\)の平均値:\(6\)
\(y\)の平均値:\(4\)
\(x\)と\(y\)の共分散:\(-4\)
\(x\)の分散:\(9.6\)
\(y\)の分散:\(2.4\)
解答
相関係数\(r=\frac{-4}{\sqrt{9.6 \times 2.4 }}\)
\(=-0.833 \cdots\)
よって、負の相関がある
8.仮説検定
得られたデータをもとに,ある主張が正しいかどうかを仮説を立てて判断する手法
コメント