Star_project
첫 날 수업 본문
- [협약 기업 프로젝트]
데이터 보면 업무부터 분석해야한다. => 그후 DB에 넣기
데이터 분석방법보다는 수업을 들으면서
이 과정에서 해야하는 것
1. 다중회귀 (안되면 다중회귀!)
빅데이터란?
주어진 환경에 의심해보기
데이터가 주어지면 무엇부터 할 것인지 고민하기
인공지능 시험 생산성본부에서 함.
(쉬는 시간)
데이터 분석활동과 DIKW 피라미드
Data, Information, Knowledge, Wisdom으로 이루어진 계층도
문헌 정보관리, 정보 시스템, 지식 관리 영역에서 흔히 인용됨
1. 기술 통계란 현재 가지고 있는 데이터를 기반으로 객관적 사실만을 나타내는 통계를 의미합니다.
2. 반면, 추측 통계학은 현재 가지고 있는 데이터로부터 더 큰 집단의 특징을 추측하는 통계학입니다.
대표 예) 선거. 샘플을 뽑아서 95% 신뢰수준에 오차 +- 3%
결측치 처리 해야함. 기술통계, 추측 통계 모두
기술통계 배워야하는 이유
[이콘비즈]
산림회사
시장 상황 : 개발회사는 5% 마진
하동 송림공원
강원도 고성
설치를 함. 화재까지..
나무관련 오래된 나무들 특별히 관리되는 나무들 각 지자체
나무를 관리하기 위해 사람이 눈을 관찰.
나무가 다 죽음.. 나무
나무사... 나무병원만 가로수 나무 관리 할 수 있음. 산림기사 가진 사람이 일정경력 + 시험 > 나무의사
건강검진 병해충 감염되었는지 안되었는지 미리 예방
--------------------
병이 든 나무는 : 데이터가 불규칙적임
이번주에 할 것은 감염목 1개 찾기
텍스트 데이터를 DB에 넣기 -> 정상나무 데이터 분석 -> 감염목 찾기
---------------------
산불방지 헬기회사 협업 드론 사업
스몰데이터 빅데이터 차이
사회현상을 알아야 분석
(쉬는 시간)
아까보여준 데이터
데이터(Data) : 텍스트 데이터
정보(Information) : 나무마다 설치되어있는데 a나무 데이터 b 나무 데이터 비교 => 차이 A는 B에 비해서 물이 많다. 수분함량 차이
지식(Knowledge) : 비교를 해보니까 A라는 나무는 물이 없다. 패턴이 이상하다. => 이상하다라는 것을 알아냄
지혜(Wisdom) : 정보를 확장해서 적용하는 것. => 이상하다는 것을 머신러닝 돌리면 이런 패턴을 보이면 병이든 나무 확인
=> 다른 나무 병에도 적용할 수 있는가?
---
[편의점 매출에 영향을 주는 변수]
시간 유동인구 상권 경영
[빵집] (재고의 유통기한의 문제)
흐린날 -> 튀긴 것들
맑은날 -> 샌드위치
[중국집]
비오는날 -> 짬뽕,... 맑은날 -> 짜장면, 볶음밥..
[미세먼지] -> 삼겹살..
----
나무데이터는 날씨에 영향
기상청 데이터 크롤링하기
★★★★다중회귀 분석 하기★★★★
상관관계가 있는지 없는지
수업시간에는 다중회귀분석을 보스턴 주택가격으로 배움!!
회귀선, 그래프, 편차 제곱 : 상쇄안시키려고 제곱을 시키는 것.
(쉬는 시간)
스몰 : 샘플, 표본분석 데이터 남녀 군집분석 excel
군집 연관 분류 예측 hadoop spark hive
3차산업 정보화사회 Information
4차산업 지능정보사회
제조 + IOT 센서
센싱데이터 무선 -> 도중에 안오거나 바뀌어서 들어옴 bit가 바뀜
파일 -> rule 예외처리 업무분석필수 -> DB -> 알고리즘, 분석
이번주에 할 것은 심플함.
다음 데이터는 복잡함. 센서 한 시간에 한 번씩 수집
중복데이터면 없애햐함. 한 시간 내에 중복이면 없애야 함. 시간은 다른데 데이터는 같을 수 있음. =/ 중복데이터 아니다.
log 심플한 것
db는 양이 많으면서 중복이 많아 전처리 해야 함. 쿼리로 할지 프로를 돌릴지. => 데이터 분석
splunk
1000만원
데이터를 가져다가 어떻게 처리 분석방법까지 recommend
[데이터의 3V와 3A 특성]
물리적 특성
Volume
Varity
velocity
분석적 특성
Accuracy
Aglity
Action
비즈니스적 특성
V
[데이터의 본질적.근본적 변화]
사전처리 -> 사후처리
표본조사 -> 전수조사
질 -> 양
인과관계 -> 상관관계
[몇 가지 유명한 분석사례]
머니볼 스카우트
구글 독감트렌드
넷플릭스 영화추천
대형매장 고객동선
의료 & 산업 (치료법 데이터)
---------------------------------------
(점심 시간)
1. CMMI 능력 성숙도 통합 모델(Capability Maturity Model Integration, CMMI)은 소프트웨어 개발 및 전산장비 운영 업체들의 업무 능력 및 조직의 성숙도를 평가하기 위한 모델을 말한다. CMMI는 기존 능력 성숙도 모델(CMM)을 발전시킨 것으로서, 기존에 소프트웨어 품질보증 기준으로 사용되언 SW-CMM과 시스템 엔지니어링 분야의 품질보증 기준으로 사용되던 SE-CMM을 통합하여 개발한 후속 평가 모델이다. CMMI는 1~5단계까지 있으며, 5단계가 가장 높은 수준이다. CMMI는 소프트웨어 개발 및 전산장비 운영 분야의 품질 관련 국제 공인 기준으로 사용되고 있다.
예) 인도 2명씩
2. '애자일(Agile)'이란 용어는 소프트웨어 개발 방식의 하나로 통용되던 말이다. 작업 계획을 짧은 단위로 세우고 시제품을 만들어 나가는 사이클을 반복함으로써 고객의 요구 변화에 유연하고도 신속하게 대응하는 개발 방법론이다.
3. 분석기법간 비교
(1) 기술통계분석 (2) 추론통계분석 (3) 머신러닝분석 (4) 딥러닝 분석
(1) 기술통계분석★★
빈도수, 비율, 평균★, 표준편차★, 왜도, 결측치★, 노이즈★ 제거 전처리기법 + 시각화기법
(2) 추론통계분석
평균 비율 차이, 독립성 적합도, 분산 상관 시계열 분석 등, 비교집단간 특성차이
(3) 머신러닝분석
군집, 연관, 분류, 예측분석, 텍스트마이닝
(4) 딥러닝
최적의 값을 찾음.
센서가 200도를 유지하지 못함.. .50도 불나면 인식 영하 40도, 80도 이상은 에러
----------
날씨
- 미세먼지, 조도, 온도, 습도
인공지능 -> 답이 없어서 최선이라는 결과가 나올때까지 데이터분석 과정 무한 반복
문제인식 -> 자료리뷰 -> 데이터모델링(가설수립) -> 데이터수집 가공 -> 분석 평가 해석 -> 실행방안 수립 (액션 아이템)
----------
[데이터분석 과제 기획 방향 PPT]
1. 비용을 맞춰라
예) 엘리베이터가 느리다 항의
자기 회사 뉴스 나오면 크롤링 계속 돌리면서 자기 회사 이름 제품에 대해 부정단어가 나오는지 안나오는지 계속 체크 그래서 대응이 빨라짐.
텍스트 마이닝, 긍정어 부정어 사전
2. 요인분석은 다수 변수들을 변수들 간의 관계(상관관계)를 분석하여 공통차원들을 통해 축약하는 통계기법이다.
3.LDA
텍스트 마이닝 후에 단어를 쪼갠 후에 LDA 분석
- 선형판별분석(Linear Discriminant Analysis : LDA)에 대해서 살펴보고자 합니다. LDA는 데이터 분포를 학습해 결정경계(Decision boundary)를 만들어 데이터를 분류(classification)하는 모델입니다.
LDA 긍정어 부정어 사전 만드는 등의 텍스트 마이닝의 끝
4. 변수가 3개 이상이면 삼원변량분석 대신에 다중회귀분석
5. 아노바분석
분산 분석(分散分析, analysis of variance, ANOVA, 변량 분석)은 통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다.
6. 미세먼지가 많으면 호흡기 환자 수가 늘어날까?
농촌은 먼지 많은데? 비포장도로 여서 먼지 많은데 이사지수
이산질소 디젤
R-squared 0.64...
경차가 영향을 준다
(쉬는 시간)
통계적으로 고객의 니즈에 의해서 마사지가 된다. 예) 맥킨지 컨설팅 보고서 삼성전자의 업무 대비 사람들이 60프로가 많다.
---------
프로젝트 피드백 - 새로오신 강사님이
[맥주팀 피드백] > 우리조처럼 글들(자소서)이 나와야함. 어떤 문장에서 그 멘트가 나왔는지/ 탑10 랭킹 보여주기 / 블로그 포스팅.. 가져오기
시간이 부족해서 못했다.. => 최소한 했다라고도 보여주는 게 옳다
크롤링에 정점을 찍고 각종 데이터 모았음을 어필하기..
[job4 피드백]
==> 보면 hadoop spark 가 없어서 두 달치가 비어있는 것이 맞음 5달 다 못한 것 같음.. 3달치면 할 수 있을 것 같음..
완성도는 데이터 분석은 이쪽이 더 높음
문제점 : 다른 통계를 배웠다는 것을 어필할 수 없음....
1. 배웠으면 티를 내야...
2. 안배웠어도 배운 것처럼 하기
~하려고했는데 못했다 하지말것 (점점점..)
Hadoop ? 대용량 만큼이 들어가야한다.
피드백 중점 : LDA 분석하기
예) 엔지니어 직무 자소서를 LDA로 분석해서 유의미한 결과 내기!!
데이터를 많이 모았다면.. => PPT에 넣기 (있어보임....)
-------
두 팀 : 너무 약하다.. 함. . . ㅎ. .. ㅎ..
PPT 쓰는 법도 다시 배우라 함...
SWOT 분석 같이 왜 이 프로젝트 했냐.. 에 대해서가 약함. 힘이 없음 .. ㅎ .. ㅎ.. .ㅎ.. .
사업모델 수익구조 사업 개요 차업개요 보유역량 창업아이템 역량, 경쟁사 분석, 스토리를 넣기..
1. 주제 선정 이유
2. 배경설명
3. 분석 (예측 모델링) _ 선행연구
자소서를 다른 사람 것을 가져오는 것이 좋다라는 뉴스기사 등
합격자 자소서가 많이 팔리는데 입사한 사람과 맞기 때문에 확률이 높다! 라는 기사를 찾아서 써야 함.
2.1. 분석( 예측모델링)- ERD
2.1. 분석( 예측모델링)- 데이터 수집
2.1. 분석( 예측모델링)- 데이터 저장
2.1. 분석( 예측모델링)- 변수설명 (테이블 컬럼 설명)
변수설정
로지스틱 회귀분석 실제 영향을 미치는 변수를 사전 조사
결정계수 ,상관 계수 상반기를 train 하반기는 test 데이터
결과 비교
performance() 함수 이용
통계적으로 증명 p-value
-------
콘텐츠 시장 정의 OTT 서비스 시장 트렌드 넷플릭스의 장단점 기업분석 함
4P
Product Place Price Promotion
비즈니스 모델을 넣으려면 4P 또는 SWOT 분석을 넣어주어야함. 없으면 그냥 만든 것임.
스토리가 있어야 하마.
웨이브의 장단점 SWOT
웨이브 비정형 데이터 분석
콘텐츠 비교 키워드 비교 작품선정 기준 소개 오리지널 콘텐츠 소개 요인 분석 콘텐츠 비교분석
DB 쓴거 보여주기 성공요인
데이터 부록
150-200 장 발표용 ppt 만들어서 냄...
챗봇
-------
hadoop spark hive
aws 기존 개념으로는 설치가 안됨.
analyis Process
어떤걸 분석했는지 Hadoop, spark, hive, python, jupyter 시각화는 뭘로 이런식으로
데이터를 어디서 가져왔고 어떻게 처리했으며 모델링 회귀 Regression
classification 분류
Refrernce Site 까지
--------
[업무 분석]
위성 사진 위치정보 gps : 센서 설치 위치. 제일 처음에 어디에 설치했는데 알려면은 gps가 있어야 함. 위도 경도
나무의 수종 : 어떤 나무인지
센서 : 온도, 전압, 상 중 하 토양, (조도는 기상청 것을 씀)
기상청 : 온도, 습도, 조도= 일사량, 강수량, 미세먼지,
센서를 달았으면? 인터넷 쓰고 싶으면 중계기(wifi 같은...)
유선인터넷 LTE 등 연결해서 데이터 전송. 중계기에서는 어떤 데이터? 센서에서 중계기에게 데이터를 줌. 유선으로 서버로 감.
[2021-02-21 data]
저 데이터를 디비에 넣을 적에는 data type으로 넣어야지. 구글에게 물어보기..
KGSM KGSG KGSS
KGS 강원도 고성
M 꼭대기 안테나
G 일반
S 송주 안테나
수목 센서
화재 센서
화재 센서 데이터도 데이터가 날라옴.
나무가 날라옴 제거 저장을 해놓아야 함. 화재도 분석해봐 하면? 저장안했는데요? x
run : 살아있다.
tcp ip 를 주로 씀. 잘 받았는지 안받았는지 알아야해서!
tcp pi 프로토콜에 대해서 학습해야 함.
ioc는 센싱 그러면 tcp ip에 대해서 학습 필요
안테나가 3개임.
센서 보낼 때 시간
첫 주는 로그 분석 한달치
병이 난 나무
rnn cnn 할 것
----
4개 숫자 들어옴
[3] , 101001, -99, -99, 숫자, 숫자, 숫자, 숫자, 5.6
3번 안테나 시간, 결측값, 결측값, 상, 중, 하, 토양, 5.6 : 전압
mysql db 백업
ods 표준 파일로 열면 더블클릭해도 엑셀로 열림.. 편리함. 안깨져서
코드 북을 만들어서 전달할테니 보면 됨.
내일 : 기상청 크롤링 할 것.