Ch1. R 기본 문법 소개 2편
- 변수 형태(상)
Strings 파악이 중요한 이유
- Strings에 따라 완전히 다른 분석결과가 나올 수 있습니다.
Ex) 순서형 변수를 명목형 변수로 취급하는 경우, 순서형에 속한 서열정보를 포기하여 분석하게 되는 경우가 발생합니다.
- 명령어에 따라 Error가 발생할 수 있습니다.
- 데이터를 변환하는 과정에서 값이 괴상하게 변경될 수 있습니다.
- 분석하고자 하는 변수들의 Strings에 따라 분석방법론이 정해지게 됩니다.
- 변수 형태(하)
정의
Discrete(이산형): 하나, 둘, 셋, 넷 등 셀 수 있는 변수
- 명목형 변수: 특성에 따라 명칭을 주어 구분을 지어주는 변수, 변수 값에 따라 서열 정보가 존재하지 않고 모두 동등한 것으로 판단합니다.
- 서열형 변수: 명목형 변수에서 서열 정보가 주입된 변수, 그에 따라 명목형 변수에 비해 정보량을 더 많이 포함하고 있습니다.
Continuous(연속형): 셀 수 없고 구간으로 정의된 변수, 정보량을 가장 많이 품고 있습니다.
R에서는 데이터의 타입을 다음으로 정리합니다.
Strings Type | 설명 |
---|---|
chr (Character) | 문자열 형태 |
int(Interger) | 숫자 |
num(Numeric) | 숫자 |
Factor | 명목형 변수 |
Posixct | 시간 변수(년/월/일 시:분:초) |
Tseries | 시계열 변수 |
매우 간단하지만, 분석 과정에서는 많은 실수가 발생할 수 있으며, 개인적으로는 분석가의 센스가 가장 중요하게 적용되는 부분이라고 생각합니다. 해당 부분에 대해 조금 더 자세히 다루도록 하겠습니다.
변수 척도 | 예시 | 정보량 |
---|---|---|
명목(Nominal, Discrete) | 학점이수 여부(F학점인지 아닌지) | ☆ |
순서(Ordinal, Discrete) | 공시성적(A+, A0, B+, B0, C+,…) | ☆☆ |
연속(Continuous) | 백분위점수(0 ~ 100) | ☆☆☆ |