Ch5. TEST_2 영화감독 평가 지표 만들어내기
2장에서의 연습문제는 영화감독들에 대하여 평가지표를 만들어 보는 것입니다. 이제까지 저희가 한 것을 복습한다는 개념으로 진행하면 될 것 같습니다.
데이터 다운로드 링크: https://www.kaggle.com/PromptCloudHQ/imdb-data
# 데이터 불러오기
DATA=read.csv("C:\\R/IMDB-Movie-Data.csv")
library(plyr)
DIRECTOR=ddply(DATA,c("Director"),summarise,
MAX_RATING=max(Rating),
NUMBER_MOVIE=length(Rating),
Revenue=mean(Revenue..Millions.,na.rm=TRUE))
저희가 1장에서 다루었던 ddply 명령어를 이용하면 다음과 같은 집계된 데이터를 만들 수 있습니다. 저 같은 경우는 최고 평점, 만든 영화 수, 평균수익을 계산했습니다. 이처럼 여러분들이 계산해보고 싶은 감독평가지표를 만들어 감독 평가 기준을 정립해주시길 바랍니다. 더 나아가 이런 그래프까지 그릴 수 있으면 좋겠지요.
library(ggplot2)
ggplot(DIRECTOR,aes(x=NUMBER_MOVIE,y=Revenue)) +
geom_text(aes(label=Director,col = Revenue),size= 3 ) +
xlab("영화 수") + ylab("평균 수익") + xlim(-0.1, 9)
## Warning: Removed 104 rows containing missing values (geom_text).
추가적으로 진행해야 될 것은 다음과 같습니다.
- 더 나아가, ifelse문을 이용하여
- 평균수익이 얼마 이상이며, 만든 영화 수, 평균 평점 등 여러 계산된 지표들에 따라 감독들의 등급 책정이 가능 (S등급, A등급, B등급…)
데이터 분석에서 가장 중요한 것은 직접 고민해보며, 이렇게 저렇게 지표도 만들어보고 등급도 매겨보는 역량 즉 이런 과정이 데이터 핸들링의 궁극적인 목표
구체적으로 문제를 정해드리지 않는 이유는 여러분들이 직접 고민해보고 해보시길 하는 바람입니다. 2장은 이렇게 마치도록 하며, 다음 장에서는 시간 데이터를 다루는 법에 대해 다루도록 하겠습니다.