Star_project
아노바 분석 본문
팀명 : 뚜벅이 .. 지치지 않고 끝까지 가는 의미
프로젝트 한줄 요약 : 이상목을 탐지하기 위해서 분류 기준을 세우고, 그 분류기준으로 실시간
들어올 이상목을 감지하기
실시간으로 이상치를 찾는 것이 궁극적 목적
머신러닝으로 모델을 훈련 시켜야 함. 그때 RNN을 쓰려고 함.
순환신경망을 훈련 시키려면 정답이 있어야. 정답이 현재 시점에 없음.
정답과 정답이 아닌 것을 분류하는 작업을 지금 하는 것.
조장:
<ANOVA analysis>
1. f 분포 -> 3개이상의 집단 비교
예) 3반 수학 시험
75 77 79 평균
평균이 다르니까 성취의 차이가 있는 반이다.
아니다. 그정도 차이 충분히 날 수 있다 .컨디션 등. 본질의 차이는 아니다.
3개의 반을 비교하지만 더 큰 집단의 비교를 하는 것.
더 큰 집단(세 학교)를 대표할 수 있는가.
더 큰 집단을 대표할 수 있는지를
통계적으로 유의미한 차이를 있는지 없는지를 검정 = 아노바 분석
<종류>
1) 범주형 데이터 - 여자/ 남자 검정 - 카이제곱 검정
2) 한 75점 평균 공부못하는 반이라고 하는 것이 타당한지 한 집단을 검정
3) 두 집단을 검정 예) a가 더 잘해. - t 검정, t 분포
4) 비교 집단이 3개 넘어가면 - f 분포 - 아노바 검정
수피순스명카
수치형 피어슨
순서형 스피어만
명목적(범주형) 카이제곱
[연속형 검정-> 아노바 (수분량)]
평균적으로는 차이가 있지만 본질적인 차이인지, 충분히 그럴 수 잇는 정상적인 범위인지
검정하는 것.
이상한 값이 나왔으면 이상한 것이 있다!!!
★지표 : P-value (= p-unc) 확률값.
가정(귀무가설) : 42개의 센서 나무들은 차이가 없다.
차이가 나타날 확률을 p-value로 보는 것.
이상적으로 보면 모집단이
전제 : 모집단이 같다. 이런 차이가 날 확률.
모집단이 같은데 평균이 차이남.
이정도의 확률
우연히 나올 수 있는 확률이 높음. 0.38 이정도는 충분히 나올 수 있어.
예) 주사위
---- ---- ---- ----
p-value가 높을 수록 모집단이 같다라는 가정의 유의함.
이상한 것이 들어있을 수록 p-value가 낮아짐.
95% 0.05 밑으로 떨어지면 모집단이 같을 확률이 5%로 미만.
★결론 : 0.05 미만이면 모집단이 다르다!★
결과 ) 모집단이 같은데 다른 확률이 나올 확률 0.05
거꾸로. 0.05 밑이면 모집단이 다르다. => 귀무가설을 기각한다.
0.00 이니까 이상치가 섞여있다!
7.5...E-295 0에 현저히 가까움....
------
서로 다른 집단이다!!
사후검정 방법 ) 어느 집단이 유의미한 차이가 있는지를 보여줌
tukeyhsd
차이가 없다.
있다.
전제) 등분산성 검정
이상치하고 정상목 2개정도만 해보기
레이블링 중 이상치를 찾는 방법을 해라...