기본 콘텐츠로 건너뛰기

라벨이 인사 관리 데이터 분석인 게시물 표시

3.3.1 R을 활용한 데이터 핸들링(ifelse, subset, filter)

Ch3. 인사관리 데이터를 통한 데이터 핸들링 Ch3. 인사관리 데이터를 통한 데이터 핸들링 데이터 핸들링은 분석에서 가장 중요한 부분을 차지하며, 실제 분석에 들이는 시간의 80 ~ 90%는 데이터 핸들링이 차지하는 경우가 많습니다. 먼저, 데이터 핸들링을 할 때 주의해야할 점에 대해 설명을 하도록 하겠습니다. 변수의 특성(척도) 분석하고자 하는 변수가 명목형, 순서형, 연속형인지는 아무리 강조해도 모자릅니다. 변수의 분포 분석하고자 하는 변수의 분포를 보고 데이터 핸들링 방향을 설정해야 합니다. 앞으로 다루게 될 분석에서 쓰이는 선형모형들은 확률변수의 분포를 가정하고 진행하는 경우가 대부분입니다. 만약 분석하고자 하는 확률변수의 분포가 가정되어있는 분포와 같지 않다면 변환을 통해 분포를 맞추어 줘야합니다. 분포를 꼼꼼히 파악해야 데이터에서 인사이트를 발굴해 낼 수 있습니다. 의미 없는 분포를 가진 변수는 과감하게 버리고, 의미있는 데이터를 찾는데에 집중할 수 있는 열쇠가 됩니다. 집계된 데이터의 생성, 지표 생성 기본적으로 주어진 데이터를 Raw 데이터라고 합니다. 하지만 대부분의 경우 RAW 데이터에서 바로 모델링을 진행하는 경우는 없습니다. 데이터를 조건에 따라 뽑아야 될 때도 있고, 연속형 변수를 이산형 변수로 묶어줘야 할 때도 존재합니다. 데이터를 분석에 맞게 변경시키는것, 새로운 데이터 셋을 만들어 내는 능력이 필요합니다. 데이터 다운로드 링크: https://www.kaggle.com/liujiaqi/hr-comma-sepcsv # 코드 실행전에 처리되어 있어야 하는 데이터 전처리 DATA = read.csv('C:/R/HR_comma_sep.csv') DATA$left = as.factor(DATA$left) DATA$Work_accident = as.factor(DATA$Work_accident) DATA$promotion_last_5y...