t-test T-검증, 분산분석 ANOVA 개념
★ T-검증(t-test)의 개념
t-검증은 이분변수와 연속변수로 결합된 변수관계를 검증할 때 사용한다. 한마디로 t-검정은 두 집단의 평균 간에 통계적으로 유의미한 차이가 있는지 검증할 때 사용하는 분석기법이다. 보다 자세히 말해서 두 집단의 평균값에 차이가 있을 때 이 차이가 정말 집단간 차이에서 발생한 차이인지 아니면 우연(chance)이나 오차(error)로 말미암아 발생한 차이인지를 통계적으로 가려내는 것이다.
★분산분석 ANOVA의 개념
때로 연구자는 여러 집단들간의 평균차이에 관심을 갖는다. 과연 세 집단 이상의평균은 어떻게 비교할까? 우선 단순히 f-검정을 여러 번 사용할 수 있다. 그러나 비교 집단이 5개로 늘어나면 10번, 여섯 개로 늘어나면 15번에 걸쳐 t-검증을 반복해야한다. 이는 여간 번거로운 일일 뿐만아니라 이와 같은 검증에서는 통계적 오류가 발생할 가능성이 높아진다. 이는 여간 번거로운 일일 뿐만아니라 이와 같은 검증에서는 통계적 오류가 발생할 가능성이 높아진다. 즉 t-검증을 여러 번 반복하는 과정에서 실제로는 집단간에 차이가 없는데도 불구하고 차이가 있는 것처럼 계산될 확률(α -오류)이 커지기 때문이다.
이렇게 여러 집단의 평균들 간에 통계적으로 유의미한 차이를 검증할 때 사용하는 통계기법을 분산분석(analysis of variance)이라고 하며 간단히 ANOVA라고도 부른다. 즉 분산분석은 다분변수와 연속변수로 결합된 변수관계를 검증할 때 사용한다.
원리 : 우선은 분산을 분석하고 그 결과에서 차이가 발견되면 따로 집단 간 평균들을 비교하는 2단계의 분석을 거치게 되는 것이다.
1. 각 집단들의 분산이 작으면 그 차이가 우연이나 오차에서 온것이 아니라고 자신할 수 있는 반면 각 집단들의 분산이 크면 그 자신감이 감소하게 된다. 평균차이는 같은데 분산이 차이있을 경우이다. 이렇게 각 집단들의 분산을 합한 수치를 가리켜 집단내평균제곱(mean squares within group, MSW) 또는 집단내분산이라고 한다.
2. 각 집단들의 분산은 같은데 평균차이가 다른 경우이다. 예1) 1,800 1,900 2,000 (각 평균) 예 2) 1,800 2,000 2,000 (각 평균) 이라면 예2에 속한 집단들 간의 차이에 더 확신을 가진다. 평균 차이가 크기 때문이다. 이렇게 각 집단들이 퍼져있는 정도 즉 집단들 간의 평균차이를 계산한 수치를 가리켜 집단간평균제곱(mean squares between groups, MSB)라고 한다.
<정리>
- 집단내분산(MSW) ↑ 평균들의 차이에 대한 자신감 ↓ (반비례)
- 집단간분산(MSB) ↑ 평균들의 차이에 대한 자신감 ↑ (비례)
집단간분산(MSB)과 집단내분산(MSW)을 가지고 역시 여러 집단들간의 평균차이를 통계적으로 판단할 수 있는 점수를 얻을 수 있다. 바로 이 점수를 가리켜 F값(F-value)이라고 한다. 두 분산의 비율과 자유도가 주어져 있을 때 F분포표에 의존해 통계적 유의성을 판단하기 때문에 이 통계치를 F값이라고 부르며 이러한 검증방법을 F-검증(F-test)이라고 부른다.
sig.유의도가 0.05 보다 크면 두 집단의 부난에 통계적 차이가 없는 것이고 작으면 차이가 있다라는 정도만 알고 넘어가기