선형회귀분석
자료 유형에 따른 분석 방법의 결정
구분 | 독립변수 X (설명변수) | ||
범주형 | 연속형 | ||
종속변수 y (반응변수) |
범주형 | 카이제곱 검정 | 로지스틱회귀 분류 분석 |
연속형 | T검정, ANOVA 검정 | 회귀분석 |
5.1 회귀분석 개념
하나 혹은 그 이상의 원인이 종속변수에 미치는 영향을 추적하여 식으로 표현하는 통계기법
변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위해 사용하는 분석 방법
독립 변수의 개수가 하나인 경우 단순선형회귀분석, 독립변수의 개수가 두 개 이상이면 다중선형회귀분석으로 분석함
5.2. 선형회귀분석
직선. 종속변수와 독립변수 간의 선형관계가 있는지 궁금.
잔차가 최소가 되는 최소제곱법을 사용함.
5.2.1. 선형회귀분석의 가정
독립변수와 종속변수 간의 선형성(선형회귀분석에서 가장 중요한 가정)
오차의 정규성 : 오차의 분포가 정규분포를 만족해야 함. Q-Q plot, Shapiro-Wilk 검정 등을 활용하여 정규성 확인
오차의 등분산성 : 오차의 분산은 독립변수 값과 무관하게 일정해야 함
오차의 독립성 : 예측값의 변화에 따라 오차항이 특정한 패턴을 가지면 안 됨
5.2.2. 회귀분석 시 검토사항
1) 모형이 데이터를 잘 적합하고 있는가 : 모형의 잔차를 그리고 회귀진단을 수행해 판단함
2) 회귀모형이 통계적으로 유의한가:
H0 : 회귀모형은 유의하지 않다.(b1 = b2 = b3 = ..bk =0) ;b 베타
(아노바 테스트에서 했었음 A=b=c=0)
H1 : 회귀모형은 유의하다(적어도 하나의 bi는 0이 아니다.
회귀분석의 결과로 산출되는 F-통계량의 p-value 가 유의수준보다 작으면 회귀식이 통계적으로 유의하다고 볼 수 있음
3) 모형은 데이터를 얼마나 설명할 수 있는가 : 결정계수(R-square)를 확인함
추정된 회귀식이 전체 데이터에서 설명할 수 있는 데이터의 비율을 의미함
다변량 회귀분석의 경우 포함된 독립변수의 유의성에 관계없이 독립변수의 수가 많아지면 결정계수가 높아지는 경향을 보임
이를 보완하기 위해 수정된 결정계수를 활용하여 모형의 설명력을 판단함
4) 모형 내의 회귀계수가 유의한가 : 회귀계수에 대한 t통계량의 p-value 가 0.05 보다 작으면 회귀계수가 통계적으로 유의하다고 볼 수 있음
(기울기를 의미하기 때문에 두 변수의 차이는 t통계량 사용)