【数学Ⅰ】データの分析~基本公式・例題一覧

1.データの整理
度数分布表

データのとる値をいくつかの区間に区切って階級を定め、各階級に度数を対応させた表。

各階級の真ん中の値を階級値という。

ヒストグラム

度数分布表を柱状のグラフで表したもの

2.データの代表値
平均値

\(\overline{x}=\frac{1}{n}(x_1+x_2+ \cdots\cdots +x_n)\)

例題

次のデータの平均値を求めよ。

\(8, 5, 5,6, 7\)

解答

平均値\(\overline{x}=\frac{1}{5}(8+5+5+6+7)\)

\(=6.2\)

最頻値

データにおける最も個数の多い値。

度数分布表における度数が最も大きい階級の階級値

例題

次のデータの最頻値を求めよ。

解答

度数分布表において、度数が最も大きい階級は「\(6 \sim 9\)」であるからその階級値\\(7.5\)が最頻値となる。

中央値(メジアン)

データを値の大きさの順に並べたとき中央の位置にくる値。

データの大きさが偶数のときは,中央に並ぶ2つの値の平均値。

例題

次のデータの中央値を求めよ。

①\(3, 7, 8, 9, 5\)

②\(2, 7, 9, 6, 2, 5\)

解答

①データを並び替えると

\(3, 5, 7, 8, 9\)

より、中央値は 7

②データを並び替えると

\(2, 2, 5, 6, 7, 9\)

より、中央値は \(\frac{5+6}{2}=5.5\)

3.四分位数
範囲

データの最大値から最小値を引いた差の値

例題

ある都市のA市における月ごとの降水日数

 \(7, 4, 9, 7, 10, 13, 14, 7, 4, 12, 13, 5\)

のデータの範囲を求めよ。

解答

\(14-4=10\)(日)

四分位数・四分位範囲・四分位偏差

四分位数:データの値を大きさの順に並べたとき,4等分する位置にくる値。

小さい方から順に,第1四分位数\(Q_1\),第2四分位数\(Q_2\),第3四分位数\(Q_3\)という。

※(第2四分位数\(Q_2\))=(中央値)

四分位範囲:第3四分位数\(Q_3\)と第1四分位数\(Q_1\)の差\(Q_3-Q_1)\)

四分位偏差:四分位範囲の半分\(\frac{ Q_3-Q_1}{2}\)

例題

データ\(21, 38, 41, 52, 58, 60\)における

第1四分位数\(Q_1\),

第2四分位数\(Q_2\),

第3四分位数\(Q_3\),

四分位範囲

四分位偏差

を求めよ。

解答

第1四分位数\(Q_1\):\(38\)

第2四分位数\(Q_2\):\(46.5\)

第3四分位数\(Q_3\):\(58\)

四分位範囲:\(58-38=20\)

四分位偏差:\(\frac{20}{2}=10\)

4.箱ひげ図
箱ひげ図・外れ値

箱ひげ図:データの最小値,第1四分位数,中央値第3四分位数,最大値を,箱とひげ(線)で表した図。

外れ値:データの中で,他の値から極端に離れた値。

例題

次のデータの最大値,最小値,平均値,四分位数を求め, 箱ひげ図をかけ。

\(21, 32, 36, 38, 41, 45, 52, 58, 64\)

解答

最小値:\(21\)  

最大値:\(64\)

平均値:\(43\)

中央値\(Q_2\):\(41\)

第1四分位数\(Q_1\):\(34\)

第3四分位数:\(Q_3\):\(55\)

5.分散と標準偏差
偏差・分散・標準偏差

偏差:変量\(x\)の各値と平均値との差
\(x_1-\overline{x}, x_2-\overline{x}, \cdots\cdots ,  x_n-\overline{x}\)

分散\(s^2\):偏差の2乗の平均値
\(s^2=\frac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots\cdots+(x_n-\overline{x})^2\}\)
\(s^2=\overline{x^2}-(\overline{x})^2\)

標準偏差\(s\):分散\(s^2\)の正の平方根
標準偏差\(s=\sqrt{s^2}\)

例題

データ\(5, 2, 8, 4, 6\)における分散\(s^2\),標準偏差\(s\)を求めよ。

解答

平均値\(\overline{x}=\frac{1}{5}(5+2+8+4+6)=5\)

より

分散\(s^2=\frac{1}{5}((5-5)^2+(2-5)^2+(8-5)^2+(4-5)^2+(6-5)^2\)

\(=4\)

標準偏差\(s=\sqrt{4}=2\)

※\(x^2\)のデータの平均値\(\overline{x^2}\)

\(=\frac{1}{5}(5^2+2^2+8^2+4^2+6^2)\)

\(=29\)

よって

分散\(s^2=29-5^2=4\)でも可

6.相関関係
散布図

散布図:2つの変量からなるデータを平面上に図示した図

相関関係

2つの変量からなるデータにおいて

① 一方が増加すると他方も増加する傾向がある → 正の相関

② 一方が増加すると他方が減少する傾向がある → 負の相関

③ ①②のどちらでもない → 相関がない

7.相関係数
共分散

2つの変量\(x, y\)において,\(x\)の偏差と\(y\)の偏差の積\((x_k-\overline{x})(y_k-\overline{y})\)

\(s_{xy}=\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots\cdots+(x_n-\overline{x})(y_n-\overline{y})\}\)

例題

次の表は,ある地域における,午前10時から午後3時までの気温\(x\)と湿度\(y\)を1時間ごとに観測した結果である。

このとき,\(x,y\)の共分散\(s_{xy}\)を求めよ。

解答

\(\overline{x}=\frac{1}{6}(18+20+20+22+24+22)\)

\(=21\)

\(\overline{y}=\frac{1}{6}(77+69+66+58+52+50)\)

\(=62\)

共分散\(s_{xy}=\frac{1}{6}\{(18-21)(77-62)+ (20-21)(69-62)\)

\(+ (20-21)(66-62)+ (22-21)(58-62)\)

\(+ (24-21)(52-62)+ (22-21)(50-62)\}\)

\(=-17\)

相関係数

\(x\)と\(y\)の共分散\(s_{xy}\)を,\(x\)の標準偏差\(s_x\)と\(y\)の標準偏差\(s_y\)の積で割った値

相関係数\(r=\frac{s_{xy}}{s_xs_y}\)

\(=\frac{(xとyの共分散)}{(xの標準偏差)×(yの標準偏差)}\)

※\(-1 \leq r \leq 1\)

正の相関が強い:相関係数\(r\)が\(1\)に近い値となる

負の相関が強い:相関係数\(r\)が\(-1\)に近い値となる

相関がない:相関係数\(r\)が\(0\)に近い値となる

例題

次のデータ\(x,y\)における相関係数を求めよ。

また、これらの間にはどのような相関関係があると考えられるか。

\(x\)の平均値:\(6\)

\(y\)の平均値:\(4\)

\(x\)と\(y\)の共分散:\(-4\)

\(x\)の分散:\(9.6\)

\(y\)の分散:\(2.4\)

解答

相関係数\(r=\frac{-4}{\sqrt{9.6 \times 2.4 }}\)

\(=-0.833 \cdots\)

よって、負の相関がある

8.仮説検定
仮説検定

得られたデータをもとに,ある主張が正しいかどうかを仮説を立てて判断する手法

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次