7장: 이항분포와 그에 관련된 분포들
Reporting Date: July. 15, 2024
모집단의 구성원들이 두 그룹으로 나누어져 있는 경우의 표본추출에서
광범위하게 쓰이는 확률모형과 그의 특징 및 관련된 다른 확률모형들을 다루고자 한다.
1 . 자 료 의 입 력
## 교재 출처 최하단에 표시 ##
# 예제 7 : 어떤 초등학교에서 10 년간 조사결과
# 평균적으로 4 % 의 학생이 색맹인 것으로 나타났다고 한다. (p.213)
# 올해에도 색맹인 학생의 비율이 예년과 같다고 할 때,
# 임의로 추출된 200 명의 학생 중 색맹인 학생이 10 명 이하일 확률은 얼마인가?
2 . 베 르 누 이 시 행 ( Bernoulli Distribution )
모집단의 각 구성원이 두 그룹 중 하나에 속하는 경우,
각각의 구성원이 특정 그룹에 속할 확률 p 와
속하지 않을 확률 1 − p 를 따르는 이산 확률 분포.
- 시 행 ( Trial ) : 매번 반복되는 추출( 실험 )
2 개의 가능한 결과 중, 하나는 성공 ( Success, S ),
다른 하나는 실패 ( Failure, F ) 로 이름을 붙인다.
이는 시행의 결과가 2 개 뿐임을 강조하며,
보통 우리가 관심이 있는 결과에 성공이란 이름을 붙인다.
각 시행은 독립으로,
각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않는다.
일반적으로 복원 추출 ( Sampling With Replacement )로 간주된다.
각 시행 후 다시 원래의 상태로 복귀하여, 다음 시행에 영향을 주지 않는다.
예제 7에 경우, 추출되는 학생은 색맹 ( S ) 또는 정상 ( F )으로 나눌 수 있다.
3 . 이 항 분 포 ( Binomial Distribution )
각 시도가 성공 또는 실패 두 가지 결과 중 하나를 가지는
독립적인 시행이 n 번 반복될 때, 성공 횟수를 나타내는 확률분포.
성공할 확률이 p 인 베르누이 시행을
n 번 반복할 때 일어나는 성공의 횟수가 X 라면,
이 확률변수 X 는 모수가 ( n, p )인 이항분포를 따른다.
모수 ( Parameter ) : 우리가 관심을 가지는 수치
확률변수 X 의 분포가 X ~ Bin ( n, p ) 일 때,
x = 0, 1, …, n에 대하여 확률질량함수( PMF ) 는 다음과 같다:
이 항 계 수 ( Binomial Coefficient )
주어진 수의 집합에서 특정한 수의 원소를 선택하는 방법의 수.
조 합 ( Combination ) 으로도 알려져 있다.
예제 7에서 주어진 정보를 바탕으로,
아래와 같이 이항 분포의 모수 ( 파라미터 ) 를 설정할 수 있다:
- 성공 확률: p = 0.04 ( 학생이 색맹일 확률 )
- 시도 횟수: n = 200 ( 추출된 학생 수 )
- 성공 횟수: k ≤ 10 ( 색맹인 학생 수 )
즉, 확률변수 X 를 200 명 중 색맹인 학생의 수 라고 하면,
X는 모수가 ( n, p ) = ( 200, 0.04 ) 인 이항분포를 따르게 된다.
이때, k ≤ 10 인 경우의 확률을 구해야 하므로,
누적 분포 함수 ( CDF ) 를 사용해야 한다:
원하는 확률을 계산하려면, 다음 식을 계산해야 한다:
다만, 위 식을 직접 계산하기에는 번거로운 면이 있다.
부록의 이항분포표에서도 n = 25 까지가 최대이기 때문이다.
이럴 경우, 아래에서 설명할 포아송분포로 근사하여 계산할 수 있다.
from scipy import stats
stats.binom.cdf(10, 200, 0.04)
## 출력된 값 > 0.8199789826230907
## 해석: 임의로 추출된 200명의 학생 중 색맹인 학생이
## 10명 이하일 확률은 약 0.820, 즉 약 82.0%이다.
3 - 1 . 이항분포의 기댓값과 표준편차
확률변수 X 의 분포가 X ~ Bin ( n, p ) 일 때,
기댓값, 분산, 표준편차는 아래와 같다:
4 . 초 기 하 분 포 ( Hypergeometric Distribution )
유한한 모집단에서 비복원 추출 ( Sampling Without Replacement ) 을
통해 성공과 실패를 구분하는 확률 분포이다.
이는 이항 분포와 유사하지만,
추출이 비복원 방식이라는 점에서 차이가 있다.
이 경우 각 추출과정이 서로 영향을 주게 되므로,
베르누이 시행의 독립성을 충족하지 못한다.
유한한 모집단에서 비복원 추출을 하는 경우,
성공의 횟수를 X 라고 할 때, 확률변수 X 의 분포를 초기하분포라고 한다.
그의 확률질량함수 ( PMF ) 는 아래와 같다:
- N : 모집단의 크기
- D : 모집단에서의 성공 횟수
- n : 추출된 표본의 크기
- X : 표본에서의 성공 횟수
위 초기하분포식에서 이항분포처럼
성공의 확률 p 를 다음과 같이 정의하면:
초기하분포의 기댓값, 분산, 표준편차는 아래와 같다:
초기하분포와 이항분포의 기댓값 ( 평균 ) 은 같은 형태 ( np ) 를 가진다.
분산과 표준편차에서는 모집단 크기와 표본 크기에 따른
조정이 포함된다는 점에서 차이가 있다.
이러한 조정을 유한모집단의 수정요인 ( FPC ) 이라고 한다.
이것은 통계적 추정에서 사용되는 보정 요소이다.
표본이 모집단에 비해 상대적으로 작을 때
(일반적으로 표본 크기가 전체 모집단의 5% 미만인 경우)
발생할 수 있는 추정의 오차를 줄이기 위해 이러한 수정요인을 사용한다.
결과적으로 베르누이 시행을 근사하게 따른다고 가정하고
이항분포와 동일하게 취급하게 된다.
5 . 포 아 송 분 포 ( Poisson Distribution )
특정 시간 동안 혹은 특정 공간에서 발생하는 사건의 수를 모델링하는 확률 분포.
주로 일어나는 사건의 횟수에 대한 확률을 예측하는 데 사용된다.
즉, 매 순간 사건 발생이 가능하지만,
매 순간 사건 발생의 확률이 매우 작은 경우를 의미한다.
- 119 구조대에 시간당 걸려오는 전화횟수
- 국내 발생하는 진도 4 이상 지진의 횟수
포아송분포를 적용하기 위해서는 3 가지 가정을 만족해야 한다.
1 . 주어진 구간에서 사건의 평균 발생횟수의 확률분포는
구간의 시작점에는 관계가 없고, 구간의 길이에만 영향을 받는다.
2 . 한 순간에 2 회 이상의 사건이 발생할 확률은 거의 0 에 가깝다.
3 . 한 구간에서 발생한 사건의 횟수는 겹치지 않는
다른 구간에서 발생하는 사건의 수에 영향을 받지 않는다.
확률변수 X 가 평균이 m ( λ ) 인 포아송분포를 따른다고 하면
확률질량함수 ( PMF ) 는 아래와 같다:
예제 7의 X 는 근사적으로 평균 m = 8 인 포아송분포를 따르게 된다.
( m ( λ ) = np = 200 × 0.04 = 8 )
부록의 포아송분포표에서 m = 8 열과 c = 10 행을 찾아보면,
원하는 확률인 P ( X ≤ 10 ) = 0.816 을 찾을 수 있다.
from scipy import stats
stats.poisson.cdf(10, 8)
## 출력된 값 > 0.8158857925585467
## 해석: 임의로 추출된 200명의 학생 중 색맹인 학생이
## 10명 이하일 확률은 약 0.816, 즉 약 81.6%이다.
참고용: Finite Population Correction Factor FPC
교제: 통계학: 파이썬을 이용한 분석