기본 콘텐츠로 건너뛰기

[TEST 1] R을 활용한 데이터 핸들링 및 시각화

R 데이터 시각화 2편

Ch4. TEST_1 데이터 핸들링 및 시각화

데이터 다운로드 링크: https://www.kaggle.com/liujiaqi/hr-comma-sepcsv

# 코드 실행전에 처리되어 있어야 하는 데이터 전처리 
DATA = read.csv('C:/R/HR_comma_sep.csv')
DATA$left = as.factor(DATA$left)
DATA$Work_accident = as.factor(DATA$Work_accident)
DATA$promotion_last_5years = as.factor(DATA$promotion_last_5years)
1. [데이터 핸들링] time_spend_company변수를 활용하여, 다음에 해당되는 Work_period 변수를 만들어보시길 바랍니다. (ifelse 사용)
time_spend_averageWork_period
1~2년차New
3~5년차Middle
6년차 ~Expert
2. [데이터 핸들링] average_monthly_hours변수를 활용하여, 다음에 해당되는 Working_Time 변수를 만들어보시길 바랍니다. (ifelse 사용)
average_monthly_hoursWorking_Time
1분위수 미만Very Free
1분위수 ~ 중위수Free
중위수 ~ 3분위수Busy
3분위수 ~Very Busy
3. [데이터 추출] 1번, 2번 문제에서 만든 Work_period, Working_Time 변수를 활용하여, 다음 조건에 해당하는 데이터 셋을 추출해 주세요. (subset 활용)
추출 데이터 이름Working_Hard
Work_period3~5년차
Working_Time'Busy' or 'Very Busy'
4. [데이터 생성] 다음의 데이서 셋을 만들어 보세요. (ddply 이용)
5. [시각화] 다음의 그래프를 그려보세요.(ggplot2 이용)
6. 부서(sales) 중에 월평균 근무시간이 가장 높은 부서와, 직무 만족도가 가장 낮은 부서는 어느 부서인가요?