Star_project
교차분석 본문
t-test : t-분포
ANOVA : F분포
1. 교차검정 : 카이제곱분포 사용 , 카이제곱 검정
설명변수가 범주형 자료인 경우 사용
각 범주에 따른 결과변수의 분포를 설명하거나,
A, B, C가 20 : 40: 40 의 비율로 분포되어있다.
or
범주형 변수가 2개 이상인 경우 두 변수가 상관이 있는지를 검정
X 변수와 X1 X2 X3 가 y 변수와 상관이 있는지 카이제곱 분포의 통계량을 통해서 t-value를 구한 후 검정할 수 있음.
교차표를 만들어서 볼 수 있음. value_counts , crosst:??
카이제곱 검정에서 사용해야함.
2. 교차분석 개념
명목/ 서열 수준의 두 변수 간의 관계
적합성, 독립성, 동질성 검정.
카이제곱 검정통계량이 높으면 T-value 값이 낮아짐.
관찰빈도와 기대빈도 간의 차이를 검정함.
관찰빈도 : 자료로부터 얻은 빈도분표
기대빈도 : 두 변수가 독립일 때 이론적으로 기대할 수 있는 빈도 분포
상관성이 있는지 없는지 파악 : 교차분석
환자군,대조군 독립이라면 4:6 비율이 환자군에서도 4:6, 대조군에서도 4:6
관계가 있다면 4:6 비율이 아님. 다른 분포
3. 카이제곱 검정의 세 가지 검정
적합성 검정 : 각 범주에 따른 데이터의 빈도분포가 이론적으로 기대하는 분포를 따르는지를 검정함
독립성 검정 : 두 개 이상의 범주형 변수에 대해서, 그 변수들의 관계 따라 값들의 분포가 유의미한 차이를 보이는지 검정함
x 변수에 따라서 4:6인지 아닌지 .
동질성 검정 : 부모집단의 관측값들이 정해진 범주 내에서 서로 비슷하게 나타나고 있는지를 검정
4. 적합성 검정
실험에서 얻어진 관측값들이 예상한 이론과 일치하는지 아닌지를 검정하는 방법
관측값들이 어떠한 이론적 분포를 따르고 있는지 관찰할 수 있음
모집단 분포에 대한 가정이 옳게 됐는지 관측 자료와 비교하여 검정하는 것
ex. 주사위를 굴렸을 때, 각 주사위의 값이 1/6의 확률로 등장하는 게 맞는지 검정
H0: 각 주사위의 눈의 값은 1/6 확률과 일치한다. ex 222222 1/6 ㄹㅏ면 귀무가설이 맞음
H1: 일치하지 않는다. ex. 143235 일치하지 않음
기대빈도와 관찰빈도의 차이를 빼주고 제곱을 카이제곱 통계량.
카이제곱 통계량이 높을수록 귀무가설 기각.
통계량이 커지면 분포에서 p-value는 작아진다.
5. 독립성 검정
모집단이 두 개의 변수 A B에 의해 범주화 되었을 때, 이 두 변수들 사이의 관계가 독립인지 아닌지 검정하는 것
교차표를 활용함
ex. 고객의 지역과 보험 가입 여부가 주어졌을 때 지역에 따른 보험 가입 비율의 차이가 존재하는지 검정
귀무가설 : 지역과 보험가입률은 독립이다.
대립가설 : 지역과 보험가입률은 독립이 아니다
독립이면 | Y | N | |
충청도 | 1 | 1 | 1 |
경기도 | 2 | 2 | 2 |
서울시 | 3 | 3 | 3 |
상관성에 초점. 두 변수가 상관성을 가지고 있는지
독립이 아니면 | Y | N | |
충청도 | 1 | 3 | 1 |
경기도 | 2 | 2 | 2 |
서울시 | 3 | 1 | 3 |
6. 동질성 검정
모집단이 임의의 변수에 따라 R개의 속성으로 범주화되었을 때, R개의 부분 모집단에서 추출한 표본이 C개의 범주화된 집단의 분포가 서로 동일한지 검정
교차표를 활용하며, 계산법과 검증법은 모두 독립성 검정과 같은 방법으로 진행됨
ex. 남학생의 TV 프로그램 선호도와 여학생의 TV 프로그램 선호도가 동일한지 검정
귀무가설 : TV 프로그램의 선호도는 성별에 관계없이 동일하다
대립가설 : TV 프로그램의 선호도는 성별에 관계없이 동일하지 않다
7. 동질성 검정과 독립성 검정의 차이
동질성 검정은 범주 A에 대해 범주 B의 유형들이 같은 빈도로 나타는지를 검정하는 것
독립성 검정은 독립적인지 (혹은 상관성이 있는지)를 검정하는 것