2024 - 1학기/데이터분석입문

7장: 이항분포와 그에 관련된 분포들

SHIN JI HAN 2024. 7. 15. 09:05
728x90
728x90
Reporting Date: July. 15, 2024

 


모집단의 구성원들이 두 그룹으로 나누어져 있는 경우의 표본추출에서
광범위하게 쓰이는 확률모형과 그의 특징 및 관련된 다른 확률모형들을 다루고자 한다.


 

 

 

1 .  자 료 의  입 력

## 교재 출처 최하단에 표시 ##

# 예제 7 :  어떤 초등학교에서  10 년간 조사결과
# 평균적으로  4 % 의 학생이 색맹인 것으로 나타났다고 한다. (p.213)

# 올해에도 색맹인 학생의 비율이 예년과 같다고 할 때,
# 임의로 추출된  200 명의 학생 중 색맹인 학생이  10 명 이하일 확률은 얼마인가?

 

 

 

2 .  베 르 누 이  시 행 ( Bernoulli  Distribution )

모집단의 각 구성원이 두 그룹 중 하나에 속하는 경우,

각각의 구성원이 특정 그룹에 속할 확률  p
속하지 않을 확률  1 p 를 따르는 이산 확률 분포.

  • 시 행 ( Trial ) :  매번 반복되는 추출( 실험 )

 

2 개의 가능한 결과 중,  하나는 성공 ( Success, S ),
다른 하나는 실패 ( Failure, F ) 로 이름을 붙인다.

이는 시행의 결과가  2 개 뿐임을 강조하며,
보통 우리가 관심이 있는 결과성공이란 이름을 붙인다.

 

각 시행은 독립으로,

각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않는다.

일반적으로 복원 추출 ( Sampling  With  Replacement )로 간주된다.
각 시행 후 다시 원래의 상태로 복귀하여,  다음 시행에 영향을 주지 않는다.

 

예제 7에 경우,  추출되는 학생은 색맹 ( S ) 또는  정상 ( F )으로 나눌 수 있다.


 

 

 

3 .  이 항 분 포 ( Binomial  Distribution )

각 시도가 성공 또는 실패  두 가지 결과 중 하나를 가지는
독립적인 시행이  n 번 반복될 때,  성공 횟수를 나타내는 확률분포.

 

성공할 확률이  p 인 베르누이 시행을 
n 번 반복할 때  일어나는 성공의 횟수가  X 라면,

이 확률변수  X 모수가  ( n, p )인 이항분포를 따른다.

모수 ( Parameter ) :  우리가 관심을 가지는 수치

 

확률변수 X 의 분포가  X ~ Bin ( n, p ) 일 때,
x = 0, 1,, n에 대하여 확률질량함수( PMF ) 는 다음과 같다:

 

이 항  계 수 ( Binomial  Coefficient )

주어진 수의 집합에서 특정한 수의 원소를 선택하는 방법의 수.
조 합 ( Combination ) 으로도 알려져 있다.

 

 

예제 7에서 주어진 정보를 바탕으로,
아래와 같이 이항 분포의  모수 ( 파라미터 ) 를 설정할 수 있다:

  • 성공 확률:   p = 0.04  ( 학생이 색맹일 확률 )
  • 시도 횟수:   n = 200  ( 추출된 학생 수 )
  • 성공 횟수:   k ≤ 10  ( 색맹인 학생 수 )


즉,  확률변수 X 를   200 명 중 색맹인 학생의 수 라고 하면,

X는 모수가  ( n, p ) = ( 200,  0.04 ) 인 이항분포를 따르게 된다.

이때,  k  ≤  10 인 경우의 확률을 구해야 하므로, 
누적 분포 함수 ( CDF ) 를 사용해야 한다:


원하는 확률을 계산하려면, 다음 식을 계산해야 한다:

다만, 위 식을 직접 계산하기에는 번거로운 면이 있다.
부록의 이항분포표에서도  n = 25 까지가 최대이기 때문이다.

이럴 경우, 아래에서 설명할 포아송분포로 근사하여 계산할 수 있다.

from scipy import stats
stats.binom.cdf(10, 200, 0.04)

## 출력된 값 > 0.8199789826230907

## 해석: 임의로 추출된 200명의 학생 중 색맹인 학생이 
## 10명 이하일 확률은 약 0.820, 즉 약 82.0%이다.

 

 

3 - 1 .  이항분포의 기댓값과 표준편차

확률변수 X 의 분포가  X ~ Bin ( n, p ) 일 때,
기댓값,  분산,  표준편차는 아래와 같다:


 

 

 

4 .  초 기 하 분 포 ( Hypergeometric  Distribution )

유한한 모집단에서 비복원 추출 ( Sampling Without Replacement )
통해 성공과 실패를 구분하는 확률 분포이다.

 

이는 이항 분포와 유사하지만,
추출이 비복원 방식이라는 점에서 차이가 있다.

이 경우 각 추출과정이 서로 영향을 주게 되므로,
베르누이  시행의 독립성을 충족하지 못한다.

 

유한한 모집단에서  비복원 추출을 하는 경우,
성공의 횟수를  X 라고 할 때,  확률변수  X 의 분포를 초기하분포라고 한다.

그의 확률질량함수 ( PMF ) 는 아래와 같다:

이때, n은 D 혹은 ( N − D ) 보다 작거나 같은 수로 가정한다.

 

  • N 모집단의 크기
  • D 모집단에서의 성공 횟수
  • n 추출된 표본의 크기
  • X 표본에서의 성공 횟수

 

 

 

위 초기하분포식에서 이항분포처럼
성공의 확률  p 를 다음과 같이 정의하면:

 

초기하분포의 기댓값,  분산,  표준편차는 아래와 같다:

초기하분포와 이항분포의 기댓값 ( 평균 ) 은 같은 형태 ( np ) 를 가진다.

분산과 표준편차에서는 모집단 크기와 표본 크기에 따른
조정이 포함된다는 점에서 차이가 있다.


이러한 조정을 유한모집단의 수정요인 ( FPC
) 이라고 한다.
이것은 통계적 추정에서 사용되는 보정 요소이다.

표본이 모집단에 비해 상대적으로 작을 때
(일반적으로 표본 크기가 전체 모집단의 5% 미만인 경우)
발생할 수 있는 추정의 오차를 줄이기 위해 이러한 수정요인을 사용한다.

결과적으로 베르누이 시행을 근사하게 따른다고 가정하고
이항분포와 동일하게 취급하게 된다.


 

 

 

5 .  포 아 송 분 포 ( Poisson  Distribution )

특정 시간 동안 혹은 특정 공간에서 발생하는 사건의 수를 모델링하는 확률 분포.

 

주로 일어나는 사건의 횟수에 대한 확률을 예측하는 데 사용된다.

즉, 매 순간 사건 발생이 가능하지만,
매 순간 사건 발생의 확률이 매우 작은 경우를 의미한다.

  • 119 구조대에 시간당 걸려오는 전화횟수
  • 국내 발생하는 진도 4 이상 지진의 횟수

 

 

포아송분포를 적용하기 위해서는  3 가지 가정을 만족해야 한다.

람다(Λ, λ: 그리스어 알파벳의 11번째 글자)

1 .  주어진 구간에서 사건의 평균 발생횟수의 확률분포
구간의 시작점에는 관계가 없고, 구간의 길이에만 영향을 받는다. 

2 .  한 순간에  2 회 이상의 사건이 발생할 확률은 거의  0 에 가깝다.

3 .  한 구간에서 발생한 사건의 횟수는 겹치지 않는
다른 구간에서 발생하는 사건의 수에 영향을 받지 않는다.

 

 

확률변수  X 평균이  m ( λ ) 인 포아송분포를 따른다고 하면
확률질량함수 ( PMF
) 는 아래와 같다:

위 x값의 범위는 사건 발생 횟수를 사전에 정확하게 알 수 없다는 점을 반영한다.

 

 

예제 7의  X 는 근사적으로 평균  m = 8 인 포아송분포를 따르게 된다.
( m ( λ )  =  np  =  200 × 0.04  =  8 )

부록의 포아송분포표에서  m = 8 열과  c = 10 행을 찾아보면,
원하는 확률인  P ( X ≤ 10 ) = 0.816 을 찾을 수 있다.

from scipy import stats
stats.poisson.cdf(10, 8)

## 출력된 값 > 0.8158857925585467

## 해석: 임의로 추출된 200명의 학생 중 색맹인 학생이 
## 10명 이하일 확률은 약 0.816, 즉 약 81.6%이다.

참고용: Finite Population Correction Factor FPC
교제: 통계학: 파이썬을 이용한 분석


728x90
반응형