Star_project
로지스틱 회귀분석 본문
구분 | 독립변수 X (설명변수) | ||
범주형 | 연속형 | ||
종속변수 y (반응변수) |
범주형 | 카이제곱 검정 | 로지스틱 회귀 (분류분석) |
연속형 | T검정, ANOVA검정 | 회귀분석 |
로지스틱 회귀 : 독립변수가 연속형, 종속변수가 범주형일때, 즉 목저은 범주형 변수를 연속형 변수로 설명하는 것. 종속변수가이산형일때, 0 , 1, 2 일때 연속형 변수는 어떠한 특징을 갖는지 .
사건의 발생 가능성을 예측
종속변수의 발생 가능성을 예측
분류기법이라고도 함. 종속변수가 이산형 변수(범주의 개수가 두개인 경우)일 때 사용. 1, 0으로 분류, (예, 남자, 여자)
종속변수가 2개 이상 범주인 경우 다항로지스틱 회귀 사용
https://www.javatpoint.com/logistic-regression-in-machine-learning
Logistic Regression in Machine Learning - Javatpoint
Logistic Regression in Machine Learning with Machine Learning, Machine Learning Tutorial, Machine Learning Introduction, What is Machine Learning, Data Machine Learning, Applications of Machine Learning, Machine Learning vs Artificial Intelligence etc.
www.javatpoint.com
이산형 범주인 데이터는 왼쪽과 같이 y 값이 1과 0 으로 나뉘는 그래프 분포를 보임. 회귀분석을 사용하기가 매우 까다로움. ols 기법 최소제곱법을 이용해서 직선을 찾아도 데이터를 설명하기 어려움. 그래서 이 직선을 로짓변환을 통해서 시그모이드 함수와 같은 형태로 만들어줌. 1과 0을 가진 이산형변수에 적합한 모델을 만들기 위해서 이 곡선이 데이터를 잘 설명할 수 있음.
오즈(Odds)
1과 0일 확률의 비율
참일 확률 / 거짓일 확률
참일확률이 거짓일 확률보다 얼마나 큰가?
오즈 비율로 logit을 취하면 ln 자연로그를 취함. 직선의 방정식으로 풀면 로지스틱이라는 함수가 됨.
방정식을 재정리하면 p값이 f(x)값이 되고 아래와 같은 수식을 취하게됨.
그러면 곡선그래프가 됨!!
http://faculty.cas.usf.edu/mbrannick/regression/Logistic.html
Logistic Regression
Logistic Regression What is the logistic curve? What is the base of the natural logarithm? Why do statisticians prefer logistic regression to ordinary linear regression when the DV is binary? How are probabilities, odds and logits related? What is an odds
faculty.cas.usf.edu
Logistic Regression
Logistic Regression What is the logistic curve? What is the base of the natural logarithm? Why do statisticians prefer logistic regression to ordinary linear regression when the DV is binary? How are probabilities, odds and logits related? What is an odds
faculty.cas.usf.edu
베타 : 회귀계수
로지스틱 회귀분석 해석방법
베타1 값을 구하기 위해서 x1을 구해야 함.
로지스틱 회귀계수는 b1과 같다
1인경우 | x1==0 에 비해 1인 경우 1배 증가한다. 0% 증가한다. 종속변수가 Ture 일 확률이 0% 증가함. -> 효과없음 |
1보다 클 경우 | x1==0 에 비해 x1==1인 경우 종속변수가 1.5배 됨. 종속변수가 Ture 일 확률이 50% 증가함. |
1보다 작을 경우 | x1==0 에 비해 x1==1인 경우 종속변수가 0.5배. 종속변수가 Ture 일 확률이 50% 감소함. |
결론 : Input값이 1단위 증가했을 때 성공확률(정확히 말하면 오즈비)의 증가량 |
회귀계수만 보면 의미해석 어려움. exp 구하고 오즈비 구해서 회귀계수를 해석할 수 있다.
TN | FP |
FN | TP |
혼동행렬표(confusion matrix)
를 통해서 평가지표 계싼
TP(True Positive) | 긍정예측을 성공 즉, 환자라고 예측해서 실제 환자임을 맞춤 |
TN(True Negative) | 부정예측 성공 즉, 비환자라고 예측하여 실제 비환자임을 맞춤 |
FP(False Positive) | 긍정예측을 실패 즉, 환자라고 예측해서 실제 비환자임 |
FN(False Negative) | 부정예측을 실패 즉, 환자라고 예측해서 실제 환자임 |
평가지표
Accuracy(정확도)
Sensitiviy(민감도, 재현도)
Precision(정밀도)
Specifify(특이도)
F1-score