Rによるやさしい統計
6章 2つの平均値を比較する
独立な2群の平均値の差の検定
対応のある2群の平均値の差の検定
6.1 2つの平均値を比較するケース
男女で心理学テストの平均値に差があるかを検討したい。
統計が好き・嫌いで統計テストの平均値に差があるかを検討したい。
統計の指導を受けたことにより成績が向上するかを検討したい。
6.2 独立な2群の検定
分散既知 あるいは 大標本の場合 (z-検定)
確率変数の和の平均と分散の期待値の公式より,標本平均の差の標本分
布は,
[
\bar{x_1} - \bar{x_2} \sim n(\mu_1-\mu_2, \sigma2(\frac{1}{n_1}+\frac{1}{n_2}))
]
標準化することで,
[
\bar{Z} =
\frac{\bar{X_1} - \bar{X_2} -
(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}
\sim N(0,1)
]
分散未知の場合 (t-検定)
母分散を不偏分散で推定する。
標本平均の不偏分散を ( \hat{\sigma_1} ), ( \hat{\sigma_2} )
\) とすると,標本平均の差の不偏分散は,その加重平均となる:
[
\hat{\sigma}_pooled = \frac{(n_1-1)\hat{\sigma_1}^2 +
(n_2-1)\hat{\sigma_2}^2}
{(n_1-1) + (n_2 -1)}
]
母分散の推定量 ( \hat{\sigma}_{pooled} ) のことを,2群をプールし
た分散という。
[
\bar{t} =
\frac{\bar{X_1} - \bar{X_2}}{\sqrt{\hat{\sigma}pooled2\frac{1}{n_1}+\frac{1}{n_2}}}
\sim t{(n_1-1)+(n_2-2)}
]
例題
統計テスト1の得点の平均値に男女で有意な差があるでしょうか?
有意水準5%,両側検定してください。
データの準備
(指導法データ <- read.csv("data/shidouhouU8.csv"))
class(指導法データ)
SID name sex math stat psych_test stat_test1 stat_test2 method
1 1 大村 男 嫌い 好き 13 6 10 C
2 2 本多 男 嫌い 好き 14 10 13 B
3 3 川崎 男 好き 好き 7 6 8 B
4 4 多村 男 好き 好き 12 10 15 A
5 5 松中 男 嫌い 嫌い 10 5 8 B
6 6 小久保 男 嫌い 嫌い 6 3 6 C
7 7 柴原 男 嫌い 嫌い 8 5 9 A
8 8 井手 男 嫌い 嫌い 15 9 10 D
9 9 田上 男 嫌い 嫌い 4 3 7 D
10 10 松田 男 好き 嫌い 14 3 3 D
11 11 高谷 女 好き 好き 9 11 18 A
12 12 杉内 女 嫌い 好き 6 6 14 A
13 13 和田 女 好き 好き 10 11 18 A
14 14 新垣 女 嫌い 嫌い 12 9 11 C
15 15 大隣 女 嫌い 好き 5 7 12 B
16 16 水田 女 好き 嫌い 12 5 5 D
17 17 斉藤 女 嫌い 嫌い 8 8 7 C
18 18 柳瀬 女 嫌い 嫌い 8 7 12 C
19 19 佐藤 女 嫌い 嫌い 12 7 7 B
20 20 馬原 女 嫌い 嫌い 15 9 7 D
[1] "data.frame"
男女別
(統計1男 <- subset(指導法データ, sex=="男")$stat_test1)
(統計1女 <- subset(指導法データ, sex=="女")$stat_test1)
[1] 6 10 6 10 5 3 5 9 3 3
[1] 11 6 11 9 7 5 8 7 7 9
t-検定 (等母分散)
母分散が等しいことを前提としているので,2群の分散が等しいことを
示す var.equal=TRUE を指定する。
t.test(統計1男, 統計1女, var.equal=TRUE)
Two Sample t-test
data: 統計1男 and 統計1女
t = -1.8429, df = 18, p-value = 0.08188
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.2800355 0.2800355
sample estimates:
mean of x mean of y
6 8
t-検定 (異なる母分散)
2群の分散が等しくないいことを
示す var.equal=FALSE を指定する。
帰無分布は同じく t-分布であるが、自由度が異なる
(統計学入門,12.2.4)
t.test(統計1男, 統計1女, var.equal=FALSE)
Welch Two Sample t-test
data: 統計1男 and 統計1女
t = -1.8429, df = 16.321, p-value = 0.08359
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.2969668 0.2969668
sample estimates:
mean of x mean of y
6 8
6.3 t-検定の前提条件
- 標本抽出が無作為に行われていること
- 母集団の分布が正規分布であること
- 2つの母集団の分散が等質であること
3つの条件は,帰無分布が t-分布になるために必要です。
6.3.1 分散の等質性の検定
- 2つの母集団の分散の等質性を,
- それぞれの母集団からの2つの標本を用いて,
- 「ふたつの母分散は等しい」という帰無仮説の検定をおこなう
- R では, var.test
例題
クラスA,Bの統計学のテストの平均点に有意な差があるでしょうか?
有意水準5%で検定を行ってください。
データ
(クラスA <- c(54, 55, 52, 48, 50, 38, 41, 40, 53, 52))
(クラスB <- c(57, 63, 50, 60, 61, 69, 43, 58, 36, 29))
var.test(クラスA, クラスB)
[1] 54 55 52 48 50 38 41 40 53 52
[1] 57 63 50 60 61 69 43 58 36 29
F test to compare two variances
data: クラスA and クラスB
F = 0.24157, num df = 9, denom df = 9, p-value = 0.04588
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.06000201 0.97255026
sample estimates:
ratio of variances
0.2415677
6.4 対応のある (z,t)-検定
対応のあるデータの検定量
統計テスト1の得点を ( X_1 ),
統計テスト2の得点を ( X_2 ),
対応する得点差を ( D = X_2 - X_1 ), とすると,それらの標本平
均にたいし,下式が成り立つ:
[
\bar{D} = \bar{X}2 - \bar{X}1
]
得点差の標本平均の計算
指導法データ <- read.csv("data/shidouhouU8.csv")
(統計テスト1 <- 指導法データ$stat_test1)
(統計テスト2 <- 指導法データ$stat_test2)
(変化量 <- 統計テスト2 - 統計テスト1)
c(mean(統計テスト2) - mean(統計テスト1), mean(変化量))
[1] 6 10 6 10 5 3 5 9 3 3 11 6 11 9 7 5 8 7 7 9
[1] 10 13 8 15 8 6 9 10 7 3 18 14 18 11 12 5 7 12 7 7
[1] 4 3 2 5 3 3 4 1 4 0 7 8 7 2 5 0 -1 5 0 -2
[1] 3 3
得点差の標本平均が従がう分布
- ( X_i \sim N(\mu{i}, \sigma2{i}) ) を仮定すれば,
- ( D \sim N(\mu{D}, \sigma2{D}) ) となり,
- 標本分布は,( \bar{D} \sim N(\mu{D}, \frac{\sigma2{D}}{n}) ) となる。
- ( \bar{D} ) を標準化して, ( n )を標本数として,
[
Z = \frac {\bar{D} - \mu{D}} {\sigma{D} \sqrt{n}} \sim N(0,1)
]
- (\mu_D ) が既知ならば,z-検定
- (\mu_D ) が未知ならば,不偏分散を用いたt-検定
例題:
「指導法データ」の統計テスト1と統計テスト2の得点について、指導
の前後で統計テストの得点が変化したといえるでしょうか。有意水準
5%、両側検定で検定してください。
t.test(変化量)
One Sample t-test
data: 変化量
t = 4.8399, df = 19, p-value = 0.0001138
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
1.702645 4.297355
sample estimates:
mean of x
3
#+begin_src R :session t :results output :exports both