1.2 대학원에서 쓰이는 통계학
이 글은 제 나름대로 기준에서 통계학 및 데이터 분석을 어디까지 공부를 해야되나? 기준에 대해 언급해볼까 합니다. 이제까지 적지 않은 논문을 준비 중에 있는 대학원생들을 만났고, 그들과 많은 얘기를 나눠볼 수 있었습니다. 먼저, 이 글은 데이터 분석이 '주' 영역에 속하는 통계학, 산업공학 등의 관련 학과와는 상관이 없는 글입니다. 이미 관련 학과 대학원생 분들은 잘 하실 것이니깐요.
대표적으로 인문, 사회학 분야를 꼽을 수 있습니다. 이들 분야는 평소 데이터 분석을 다루지 않아도 되지만, 졸업 논문을 쓰려고 하면 결국 통계분석을 통해 주장하고 싶은 가설을 검정하고 결론을 내야 합니다. 대학원에서도 통계학을 강의하긴 하지만, 대체로 교수님들이 '이 정도는 다 알잔아?' 식으로 수업하기 때문에, 통계학 기반이 없는 원생들은 엄청 힘들어 하며 눈물을 흘리고는 합니다. 원생들도 물론 통계학을 열심히 공부하지만, 워낙 진입장벽이 높은 학문이기에 쉽지가 않습니다.
그렇게 고생을 하시는 분들을 위해 글을 써보고자 합니다.
먼저 말씀드릴 것은 보통 사회과학분야의 논문 스타일을 보면, 스타일이 다양하지 않습니다. 그 말은 즉, 공부를 집중하면 되는 부분을 축소시킬 수 있다는 것과 같습니다. 그 이유는 다음과 같습니다.
지도교수님의 제자들이 써오던 스타일, 주제들을 이어붙여서 쓰는 경우가 많다.
- 이런 경우, 설문지 포맷도 비슷하고 분석 과정도 비슷하게 흘러갑니다.
- 가끔 연구실 선배들이 쭉 써오던 방식대로 하지 않고, 새로운 도전을 하는 경우, 그 때는 좀 공부할 것이 많아질 가능성이 농후합니다.
'설문지 소개 => 요인 분석 혹은 계층 분석 => 회귀분석 + 구조방정식' 흐름을 따라갑니다.
- 공부할 것은 명확합니다. 회귀분석만 제대로 이해하면 대부분의 문제가 해결 될 것 입니다.
- 회귀분석은 통계에서의 가설검정을 제대로 이해하면 어려울 것이 없습니다.
- 무엇보다 가설검정과 회귀분석을 제대로 이해하면, 관련 논문들을 읽을 때 어려움이 많이 줄어드는 것이 가장 큰 장점입니다.
학위 논문을 쓰는 것은 매우 고된 일입니다. 주제 선정부터 결론을 낼 때까지 수 많은 수정과 작업이 요하고 정신적으로 소모도 크니깐요. 거기에 통계학을 해야만 논문을 완성시킬 수 있습니다. 통계학은 분명 진입장벽이 높은 학문이지만, 핵심 그러니깐 컨셉을 정확히 이해하고 공부를 하시면, 생각보다 쉽게 이해할 수 있습니다.
경우에 따라서, 위에 언급된 요인분석, 회귀분석말고 또 다른 분석을 해야되는 상황인 경우도 있습니다. 하지만, 대부분의 학문이 그렇듯이 통계학도 역피라미드 형태로, 탄탄한 기초를 베이스로 내용이 확장됩니다. 당연히 그 기초는 통계적 가설검정입니다.
통계학을 입문하기 전에 핵심을 알고, 진입장벽을 최대한 낮추는 것이 입문자입장에서 가장 신경써야 할 부분 아닌가 생각합니다. 해당 용어들에 대해서는 본 블로그에서 다룰 예정입니다.