Ch1. 통계 모형 Preview
본격적으로 모델링을 시작하기에 앞서 간단한 주의사항 및 분석모형에 대한 소개를 하고 넘어가도록 하겠습니다. 흔히 사람들이 분석과정에서 실수하는 경우는 다음과 같은 상황입니다. 힘들게 어려워 보였던 예측 모형 및 알고리즘을 공부하고 이를 써먹어 보기 위하여 바로 모델에 적합시키려고 하는 경우입니다. 물론 복잡한 모형을 적용시키면 결과가 잘 나올거 같고 멋도 있어 보일 수 있지만, 전혀 그렇지 않습니다. 데이터 분석은 요리와 비슷합니다. 어떤 요리를 할지 결정하고, 가져온 재료를 보지는 않죠. 데이터도 마찬가지입니다. 결국 분석 모형은 데이터에 맞는 분석모형을 적용시켜야지, 무작정 어려운 분석모형 적용시킨다고해서 결과가 다 나오는 것이 아닙니다.
그러므로 항상 데이터에 대한 특성을 충분히 이해하고 있어야 하며, 이런 상황에는 어떤 분석 모형을 적용시켜야 하는지 바로 생각이 떠올라야 할 것입니다. 해당 부분의 이해를 위하여 간단하게 통계 모형들에 대하여 다루고 넘어가도록 하겠습니다.
먼저, 분석모형을 선택하는 기준은 다음과 같습니다.
분석하고자 하는 바를 명확히 규명해야 합니다.
- 이는 가설을 세우는 과정과 같습니다.
가설에 맞는 데이터들에 대한 변수 척도 구분
- 변수의 척도에 따라 적용해야 되는 모형이 정해집니다.
- 모형은 우리가 정하는 것이 아닌, 데이터가 정해주는 것입니다.
분석하고자 하는 주제가 '차이'를 검정하고 싶은 것인지, '관계'를 검정하고 싶은 것인지에 따라 갈립니다.
차이를 보는 검정은 흔히 집단 간에 평균 차이를 검정하고 싶은 경우 입니다.
예시를 들자면, 인사관리 데이터에서 이직 여부(0: 이직 안함, 1: 이직)에 따라 직무 만족도가 다른지 검정
관계를 보고자 하는 검정은, 함수적 관계를 보고자하는 것과 같습니다.
예시를 들자면, 마케팅 투자비용이 마케팅 효과에 미치는 영향을 검정하고 싶은 경우입니다.
다음으로는 Response Variable(종속 변수)가 연속형이냐, 이산형이냐에 따라 결정됩니다.
종속 변수가 연속형일 때
- 차이를 보고자 할 때 : T 검정(T-test), 분산분석(Anova)
- 관계를 보고자 할 때 : 회귀분석(Regression)
종속 변수가 이산형일 때
- 연관을 보고자 할 때 : 카이제곱 독립성 검정(Chi square Independent Test)
- 관계를 보고자 할 때 : 로지스틱 회귀분석(Logisitc Regression)
분석모형별 가설 검정
통계 분석은 차이가 없는(즉 의미가 없는) 사실은 알아내고 싶은 사실이 아닙니다. 차이가 있는(즉 의미가 있는, 유의하다) 사실에 관심이 있으며, 의미가 있는 사실을 대립가설에 배치합니다.
분석모형 | 종속변수의 분포 | 귀무가설 |
---|---|---|
T 검정 | 연속형 | 집단 간 평균이 동일 |
분산분석 | 연속형 | 집단 간 평균이 동일 |
회귀분석 | 연속형 | 회귀 계수 = 0 |
로지스틱 회귀분석 | 이산형 | 회귀 계수 = 0 |
카이제곱 독립성 검정 | 이산형 | 집단 간 연관이 없음 |
댓글
댓글 쓰기