Ch2. 확률분포
첫 번째 챕터에서 확률변수의 개념을 말씀드리면서 확률변수는 가능한 값들에 대한 확률이 알려져 있고 그것을 계산하는 계산하는 함수가 확률함수(Probability Function)라는 것을 말씀드렸습니다. 그렇다면 이러한 확률들은 어떻게 알 수 있을까요. 그 확률변수들이 가지고 있는 확률의 구조를 알아야 하며 이 확률 구조를 흔히 확률분포(Probability Distribution)라고 합니다.
- 이산형 확률변수 => 이산형 확률분포 => 확률질량함수(Probability Mass Function, Pmf)
- 연속형 확률변수 => 연속형 확률분포 => 확률밀도함수(Probability Density Function, Pdf)
일반적으로 확률을 계산하는 대부분의 분석들은 이 확률분포와 그에 따른 확률함수를 이용한 분석들입니다. 앞으로 배우게 될 추정과 검정과 같은 통계분석 역시 이 확률분포를 통해서 하게 됩니다. 그렇지만 실제 데이터에서 정확히 일치하는 확률분포를 고안해 내기는 쉬운 일이 아닙니다. 이산형 확률분포는 데이터의 수집 상황에 따라 결정될 수 있으나 연속형의 경우는 사실 뚜렷한 방법이 없기에 얻은 데이터를 기반으로 추측하는 것이 대부분입니다. 하지만, 사람들이 실험과 연구를 하다보니, 수 많은 확률분포에서 특정한 패턴을 나타내는 분포들을 발견하였고, 이를 정리하여 이론을 성립했습니다. 이제부터 해당 확률분포들에 대해 알아보도록 하겠습니다.
이산형 확률분포
이산형 확률분포는 데이터가 수집되는 상황에 따라 결정될 수 있다고 했습니다. 이 말은 곧 어떤 식으로 데이터를 수집하냐 혹은 어떤 방식으로 데이터를 분류하냐에 따라 우리가 가장할 수 있는 분포의 종류가 바뀔 수 있다는 의미입니다.
- 이항분포(binomial distribution)
이항분포는 확률변수가 배타적인 두 가지 범주를 갖고 각 시행은 독립적인 경우에서의 분포입니다. 이 시행을 베르누이 시행이라고도 합니다.
여기서 독립적이라는 것은 각 시행이 다른 시행에 전혀 영향을 미치지 않는다는 것입니다. 간단한 예로 팀원 중 10주 동안 무작위로 돌아가면서 당직을 서는데 남자가 당식을 서는 횟수에 관심이 있다고 합시다. 성별은 남자, 여자 두 가지 경우만 상호 배타적으로 존재하므로 조건에 부합합니다. 그런데 만약 한 번 뽑힌 사람을 다음 당직 때 후보에서 제외하게 된다면 이는 각 시행이 독립적이지 않습니다. 그렇지 않고 계속 동일한 후보군에서 무작위로 뽑게 된다면 각 시행은 독립적이라고 할 수 있을 것입니다.
조금 더 상황을 일반화시켜 봅시다. 시행은 총 n번의 독립적인 베르누이시행에서 관심 있는 범주가 나올 확률이 p라고 해봅시다. 이런 조건들이 이항분포를 결정짓는 '상황'이며, 여기서 이항분포는 관심 있는 범주가 나오는 횟수 y를 확률변수로하는 분포입니다.
그럼 이제 이항분포의 확률함수를 만들어 볼 수 있습니다.
이 pmf를 통해서 관심 있는 범주가(편의상 성공이라고 하겠습니다.) n개중 하나도 나오지 않을 확률부터 n개 중 n개를 성공할 확률을 구할 수 있습니다. 또한 이러한 형태의 이항분포의 평균과 분산은 각각 np, np(1-p)입니다. 이를 다음과 같이 표현합니다.
- 다항분포(multinomial distribution)
다항분포는 이항분포의 확장입니다. 이항분포가 n번 시행에서 확률변수가 가질 수 있는 범주가 성공/실패 두 가지였다면, 다항분포에서는 n번 시행에서 확률변수가 가질 수 있는 범주가k가지로 확장됩니다. K=3인 경우인 다음 표를 보겠습니다.
범주 1 | 범주 2 | 범주 3 | |
---|---|---|---|
확률변수:(각 범주의 갯수) | x개 | y개 | (n-x-y)개 |
P(Y): (각 범주가 나올 확률) | p1 | p2 | (1-p1-p2) |
위의 경우는 총 n개의 독립적인 시행 중 범주1이 x개 범주2가 y개 나올 확률을 나타내는 다항분포입니다. n번 의 시행이니 당연히 마지막 범주는 n-x-y개가 될 것이고 확률은 1-p1-p2가 될 것입니다. 즉, 확률변수가 2개입니다. 한 분포에 꼭 확률변수가 한 개만 있으리란 법은 없습니다. 이를 확장해서 범주가 k개 있는 경우를 상상하면 k-1개의 확률변수를 갖는 확률분포가 됨을 짐작할 수 있습니다. 마지막 범주는 위 표처럼 나머지 범주에 종속되기 때문이죠.
범주가 k개인 다항분포의 확률함수를 봅시다.
여기서,
식은 조금 복잡하지만 어렵게 생각하실 필요가 없습니다.
그리고 그 범주의 조합을 곱해주어서 해당 확률을 구하는 것이죠. 이 역시 데이터의 상황이 분포를 결정합니다.
- 포아송분포(Poisson Distribution)
포아송분포는 조금 복잡한 상황을 전제로 합니다.
이항분포 : n번 중 성공확률이 p일 때 성공 횟수를 확률변수로 하는 분포
포아송분포 : 일정 단위에서 평균 성공 수가 m일 때 성공 횟수를 확률변수로 하는 분포
여기서 일정 단위라고 함은 시간, 공간 등
예를 들어 어떤 공장에서 10시간(일정 단위)마다 평균적으로 2개의 불량품(평균 성공 수 m)이 발생된다면 불량품이 하나도 발생하지 않을 확률부터 수십, 수백개가 발생할 확률까지 성공 횟수에 따른 확률을 다루는 분포입니다.
포아송분포는우리 실생활에 정말 많이 적용될 수 있는 분포입니다. 빈도로 조사된 데이터는 전부 포아송분포를 적용하여 분석할 수 있기 때문이죠. 또한 포아송분포는 'n번 중 성공 횟수'의 분포인 이항분포와 매우 밀접한 관련이 있습니다. 이항분포의 평균은 np이고 이는 곧 '평균 성공 수'의 관점으로 바라 볼 수 있기 때문입니다. 포아송분포의 확률을 계산하는 확률함수는 다음과 같습니다.
포아송분포는 특이하게도 평균과 분산이 같습니다. 그래서 빈도 데이터에 적용하기가 적절하죠. 평균 빈도가 높다는 것은 그만큼 바운더리가 커진다는 것이고 바운더리가 커진다는 것은 분산이 크다는 의미라고 해석할 수 있습니다.