추론통계(귀무가설과 대립가설, 유의 확률, t-검정, 분산분석)
기술 통계(Descriptive statistics)란 측정이나 실험을 통해 수집한 데이터를 그래프나 숫자 등으로 요약하고 표현하여 데이터의 특성을 규명하는 통계적 방법이다. 다시말해, 데이터의 특성을 이해하기 쉽게 기술하는 통계로 평균, 중앙값, 분산, 사분위수 등을 규명하고 파이그래프, 막대그래프, 히스토그램 등의 그래프로 보여준다.
추론 통계란 소수의 대상을 가지고 연구하는 것이 경제적이고 효율적인 경우 모집단에서 추출한 표본 데이터를 가지고 해당 모집단의 특성 등을 추론하는 통계적인 방법이다. 모집단의 전수조사가 가능한 경우 문제가 되지 않지만 그렇지 않은 경우가 많기에 추론 통계가 사용된다.
아래에는 추론 통계와 관련된 다양한 개념에 대해 알아보도록 하겠다.
< 추론 통계 >
1. 귀무가설과 대립가설
귀무가설이란 차이가 없거나 의미 있는 차이가 없는 경우의 가설이다. 기호로는 H0로 표시한다.
대립가설이란 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용이다. 기호로 H1으로 표시한다.
귀무가설과 대립가설의 관계는 '귀무가설이 채택되면 대립가설은 기각'되고 '귀무가설이 기각되면 대립가설이 채택'되는 관계를 가진다.
2. 유의 수준과 유의 확률
유의 수준(Significance level)이란 가설 검정에서 가설 채택 여부를 결정하는 기준값이다. 일반적으로 a로 표시하고 1-신뢰도 값을 갖는다.
유의 확률(p-value)는 집단간의 차이가 우연히 일어났을 확률로 유의 수준과 비교되는 값이다. 우연히 발생할 확률이 유의수준(기준값)보다 큰 경우 귀무가설이 채택된다.
즉, 유의 확률이 유의 수준보다 크거나 같은 경우 귀무가설이 채택, 유의 확률이 유의 수준보다 작은 경우 대립가설이 채택된다고 이해하면 된다.
3. 점추정과 구간추정
표본으로부터 모집단의 모수를 추정하는데 점추정, 구간추정 두가지 경우가 있다. 점추정이란 모수가 특정한 값일 거라 추정하는 것이고 구간추정은 모수가 특정한 구간에 있을 것이라고 추정하는 것이다.
4. 검정 대상 집단 확인( t - 검정 )
t.test() 함수를 활용해 t-검정을 수행할 때 검정 대상 집단의 종류를 확인해야 한다.
첫번째로, 일표본, 대응이표본, 독립이표본 여부를 확인한다. 일표본이란 하나의 모집단에서 추출한 표본의 통계량으로 모집단의 모수를 추정하는 경우로 가정하고 있는 값과의 차이가 있는지 검증하기 위해 사용한다. 다음으로 대응이표본이란 하나의 모집단에서 표본을 추출하여 데이터를 관측한 후 같은 표본에서 다시 데이터를 관측하는 경우로 하나의 모집단의 전후 비교를 위해 사용한다. 마지막으로 독립이표본은 독립된 두 모집단에서 각각 표본을 추출하여 데이터를 관측하고 두 모집단의 차이를 검증하는 경우에 사용된다.
두번째로, 두 집단의 분산이 같은지 여부를 확인한다.
세번째로, 양측 검정(paired = two.sided)인지 단측 검정(paired = less(샘플이 주어진 평균보다 작다), greater(샘플이 주어진 평균보다 크다)인지 확인한다. 두 집단이 다른 경우
5. t.test() 함수
t.test(x, y, mu, atlernative=' ', paired=' ', var.equal=' ', conf.level=' ')
x, y는 데이터가 들어간다. mu 자리에는 일표본이냐 이표본이냐에 따라 다른데 일표본 검증의 경우 가정하고 있는 평균 값이 들어가고 이표본의 경우 평균의 차이값이 들어간다. alternative에는 양측 검정(two.sided)인지 단측 검정(less, greater)인지, paired에는 대응이표본(TRUE)인지 독립이표본(FALSE)인지가 들어간다. var.equal 자리에는 표본의 두 정규분포 분산값이 동일한지의 여부에 관한 정보를 넣어주고 conf.level에는 신뢰구간의 값(default = 0.95, 1-유의수준)을 넣어주게 된다.
6. 분산분석
t-검정은 두개의 집단을 분석하는 경우에 사용되는데 세개 이상의 집단을 비교하는 경우 분산분석을 사용한다. 분산분석에는 일원분산분석, 이원분산분석이 있다. 일원분산분석(One-way ANOVA)이란 종속변수가 1개이고 범주형 독립변수도 1개인 경우에 사용하는 분석이다. 이는 한 가지 변수의 변화가 관심있는 종속변수에 미치는 영향을 알아보는데 활용된다. 이원분산분석(Two-way ANOVA)는 종속변수가 1개이고 범주형 독립변수가 2개 이상인 경우 집단간 차이가 유의한지 검증하는데 사용되는 분석이다.
<실습>
1. 일표본 검증
감기 환자의 치유 기간이 7일보다 작은지 검정하려고 한다. A 병원에서 치료한 환자들의 데이터만을 수집하였다.
data <- c(5,6,7,5,5,9,10,3,3,3.5,8,8,7,2,3,3.5,6,6,6,6)
t.test(data, mu=7, alternative='less') # 일표본, 단측검정(작은쪽으로만 검정)
'''
One Sample t-test
data: data
t = -2.8719, df = 19, p-value = 0.004881
alternative hypothesis: true mean is less than 7
95 percent confidence interval:
-Inf 6.442908
sample estimates:
mean of x
5.6
'''
검정 결과 p-value가 0.05보다 작으므로 귀무가설은 기각하고 대립가설을 채택한다.
2. 대응 이표본 검증
한 집단의 몸무게를 측정하고 다이어트 약을 복용한 후에 몸무게를 다시 측정하여 몸무게가 줄어들었는지 검증한다. before 데이터가 더 큰지 검정하는 것이므로 alternative = 'greater'로 설정한다.
before <- c(68.12,56.94,57.36,54.64,64.33,48.49,68.72,56.19,61.6,58.75,67.31,49.7,
58.39,58.08,65.67,54.5,59.14,55.61,60.21,62.91)
after <- c(65.9,54.79,57.82,54.64,64.84,47.34,67.87,54.58,60.65,58.79,65.71,48.81,57,
56.52,64.13,53.94,57.22,55.32,61.61,63.22)
t.test(before, after, alternative='greater', paired = TRUE, var.equal=TRUE)
'''
Paired t-test
data: before and after
t = 3.5634, df = 19, p-value = 0.001037
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.4107714 Inf
sample estimates:
mean of the differences
0.798
'''
검정 결과 p-value가 0.05보다 작으므로 귀무가설은 기각하고 대립가설을 채택한다.
3. 독립이표본 검증
서울시 12세 남학생 몸무게와 부산시 12세 남학생 몸무게를 비교하여 차이를 검정한다.
Seoul <- c(43.12, 40.94, 42.36, 50.50, 43.49, 43.72, 40.19, 46.6, 43.75, 42.31, 44.7,
43.39, 33.08, 40.67, 49.5, 34.14, 40.61, 35.21, 37.91)
Busan <- c(41.74, 42.35, 40.62, 28.64, 49.64, 40.94, 43.25, 40.3, 56.03, 43.77, 51.3,
44.26, 42.6, 32.19, 39.72, 49.2, 33.03, 40.45, 36.03, 38.1)
t.test(Seoul, Busan, alternative='two.sided', paired = FALSE, var.equal=FALSE)
'''
Welch Two Sample t-test
data: Seoul and Busan
t = 0.1087, df = 34.067, p-value = 0.9141
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.481119 3.874592
sample estimates:
mean of x mean of y
41.90474 41.70800
'''
검정 결과 p-value가 0.05보다 작지 않으므로 귀무가설을 채택하고 대립가설은 기각한다.
4. 일원분산분석
aov() 함수를 사용하여 종(Species)별 꽃받침 길이(Sepal.Length) 데이터 차이가 유의한지 검정한다.
anova_result <- aov(Sepal.Length ~ Species, data=iris)
summary(anova_result)
'''
Df Sum Sq Mean Sq F value Pr(>F)
Species 2 63.21 31.606 119.3 <2e-16 ***
Residuals 147 38.96 0.265
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
'''
검정 결과 p-value(2e-16)가 0.05보다 작으므로 귀무가설은 기각하고 대립가설을 채택한다.