1.1 데이터 분석에 대한 고찰
본격적인 포스팅을 시작하기에 앞서, 데이터 분석에 대해 생각을 해보는 시간을 가지고 시작하는 것이 좋을 것 같습니다.
지금 쓰는 글은 무조건적인 사실이기보다는, 평소에 제가 가지고 있는 생각을 쓰는 글이기에 가볍게 읽어주셨으면 합니다.
요즘 Big data, Data Scientist, Analyst 등의 단어를 자주 접할 수 있을 것입니다.
기술의 발전으로 인해 방대한 데이터를 분석할 수 있게 되었고, 오랜시간 기록되면서 누적되기만을 반복했던 데이터를 통해 새로운 기술을 개발하고, 인사이트를 얻을 수 있게 되었기 때문이지요.
여기서 기술의 발전은 컴퓨터 장비들의 발전이라고 생각하면 됩니다. 원래 머신러닝, 딥러닝 등 빅데이터 분석 기술의 이론과 알고리즘은 옛날부터 완성되어 있었습니다. 다만, 장비들이 뒷받침을 하지 못해 구현을 못하고 있었을 뿐입니다.
하지만 기술이 발전된 지금, 빅데이터 분석방법론들은 여러 분야에서 빠른 속도로 적용되며, 도입되고 있습니다. 여기서 제가 하고 싶은 말은 이렇게 요약할 수 있습니다.
빅데이터 분석이라고 새롭고 어려운 신기술이 아닌, 기존에 정립되어 있었던 통계학의 연장선일 뿐이다.
또한, 요즘 빅데이터 분석방법론 하면서, 여러 분석 알고리즘을 익히면서 공부하시는 분들을 많이 볼 수 있습니다. 하지만, 전 그런 공부법이 그리 좋다고 생각이 들지 않습니다. 그 이유는 알고리즘을 많이 안다고 해서 해결되는 문제들은 현실에서 많이 없다는 것입니다.
그럼 데이터 분석 학습을 어떻게 해결해야 될까요?
알고리즘을 습득하기 전에 선행되어야 하는 사항들은 다음 3가지로 정리할 수 있습니다.
데이터 분석의 목적과 경쟁 상대
분석의 목적은 당연히 돈입니다. 먹고 살려고 공부하고, 일합니다.
- 돈을 더 벌어올 수 있도록 예측 분석을 적용한다.
- 데이터를 정리하고, 분석하여 실무 프로세스에서의 구멍을 발견하고, 비용을 줄인다.
말이야 쉽고 멋있습니다. 하지만, 이걸 실제로 성공시키기에는 알고리즘만 적용시킨다고 할 수 있는게 아닙니다. 돈이 되는 분석을 하기 위해서는 현장에서 수년, 수십년간 쌓인 노하우와 프로세스를 이기는 것이 가장 중요합니다. 하지만 인간들이 이제까지 쌓아 올려 최적화시켜둔 실무 프로세스들은 언뜻 보기에는 비효율처럼 보여도, 생각보다 결과는 괜찮습니다. 즉 데이터 분석으로 이겨내기에는 만만한 상대는 아닙니다.
도메인에 대한 충분한 이해
그렇기에 실무(현장, 도메인)에 대한 이해가 완벽한 상태에서 데이터 분석을 적용시켜야 의미가 있는 분석이 됩니다. 예를 들어 이런 상황이라 할 수 있습니다. 요즘 데이터 분석에 대한 관심이 높은 상황에, 많은 대학교에서 빅데이터 분석학 커리큘럼을 구성하여, 대학원 코스를 구성하고 있습니다. 당연히 이런 대학원 학과에 관심이 가는 사람들도 많을 것입니다. 하지만 신생학과이기도 하고, 정보도 별로 없어 의혹은 생기고, 진학 전에 고민을 가지는 사람을 많이 봤습니다. 전 이런 분들께 이렇게 말해드리고 싶습니다.
통계학에 대한 충분한 이해
머신러닝이니 딥러닝이니 뭐니 해도, 어차피 다 확률을 기반으로 한 통계분석의 연장선입니다. 통계학에 대한 충분한 이해 없이는 머신러닝 및 딥러닝을 공부한다해도 그건 '흉내' 내는거지, 안다고 할 수가 없습니다. 예를 들어 이런 상황입니다. 딥러닝을 공부하시는 분들이라면, 시그모이드(sigmoid)라는 활성화 함수를 듣거나 알고 계실 것입니다. 하지만 이 활성화 함수가 통계학에서의 로지스틱 회귀분석, 즉 Odds Ratio에서 기반한 것은 모르는 분들이 있습니다. 이건 시그모이드 활성화 함수가 어떻게 만들어졌는지는 관심도 없고, 그냥 남들이 그렇다 하니깐 그렇구나 한 것이라고 할 수 있습니다. 그러니 빅데이터 분석학을 공부하기 전에 통계학을 깊이 있게 공부하시길 바랍니다.
어차피 통계학에 대한 충분한 이해 없이는 머신러닝, 딥러닝을 아무리 공부해도 잘 이해가 되지는 않을 것입니다.
데이터 분석의 경쟁 상대는 이제까지 실무에 적용되어 있는 노하우와 프로세스입니다.
이것을 극복하지 못하면, 데이터 분석은 안하니만을 못한 상황이 되기 마련입니다.(직접 겪어봤기에 밑줄까지 치면서 강조합니다.)
만약, 금융권에서 빅데이터 분석을 하고 싶다.
그럼 빅데이터 융합 대학원이 아닌, 경영, 경제, 산업공학과에서 금융을 연구하시는 교수님한테 가서, 빅데이터 분석을 하시길 바랍니다.
도메인에 대한 이해가 부족한 상황에서의 분석은 말그대로 삽질하는 거랑 다를게 없습니다. 그냥 간단하게 막대그래프, 파이차트 등 그려주면서 평균값이 몇입니다. 라고 보고 하는 것이 더 효과가 좋을 수가 있습니다. 그러니 꼭 일하고 싶은 분야에서의 도메인을 충분히 익히시길 바랍니다.
그래서 데이터 분석이 가뜩이나 어려운데, 효과를 보기도 힘들어? 그럼 공부를 해? 말아?
해야합니다. 몰라서 못하는 것이랑, 알며서 안하는 것이랑은 완전히 다른 문제입니다. 무엇보다 데이터 분석 방법론들을 공부하면서, 데이터를 보는 시각을 익히는 것이 더 중요합니다. 가끔 "세상 사는데 돈계산만 잘하면 되지, 그 어려운 수학은 왜 공부시키는 거야. " 라고 정신나간 소리를 하시는 분들을 볼 수 있습니다. 여러분들도 아시다시피, 수학을 공부시키는 이유는 돈계산이 아니라, 논리에 따라 생각하는 힘을 키우는 것에 있습니다. 데이터 분석도 마찬가지입니다. 데이터는 어느 분야를 막론하고 항상 마주하게 됩니다. 하지만 데이터를 눈에 보이는대로 결론 내고 그 수준에서 멈출 것인지, 아님 더 나아가 데이터에서 새로운 인사이트를 도출해낼 것인지. 그것은 데이터 분석방법론을 공부하면서 터득한 사고력과 센스가 뒷받침되어야 가능한 일입니다. 그러니 꼭 공부하시길 바랍니다.
마지막으로, 본 블로그에서는 위 3가지 사항에 대한 답을 다 알려주지 못합니다. 세상은 너무 복잡하고 다양하기 떄문에, 귀납법으로 정리하기에는 어려운 부분이 많습니다. 또한 저도 아직 공부해야 될 것이 많기 때문입니다. 하지만 마지막에 언급한 데이터를 보고 사고를 해내는 방법에 대해서는 제대로 다룰 수 있습니다. 그 부분을 집중 삼아 포스팅을 하도록 하겠습니다.