9장: 표집분포
Reporting Date: July. 21, 2024
주어진 표본을 통해 모집단의 성격을 알아내는 과정을 추론 ( Inference )이라 한다.
그 통계적 추론에서 모집단의 특성을 추정하거나 가설 검정을 수행할 때,
사용되는 표집분포에 대해 다루고자 한다.
1 . 자 료 의 입 력
## 교재 출처 최하단에 표시 ##
# 예제 4: 0 ~ 9 까지 10 개의 정수값을 균등하게 갖는 모집단이 있다.
# (위 모집단의 분포를 이산균등분포라고 한다.)
# 예시: 전화번호 끝자리 번호의 분포
# (1) 여기에서 크기가 5 인 표본을 100 번 뽑아서
# (2) 매번 추출된 표본에서 표본평균을 구하고,
# (3) 그 평균들을 가지고 히스토그램을 그려라. (p.268)
2 . 통 계 량 ( S t a t i s t i c )
표본의 관측값들에 의하여 결정되는 양.
표본을 이용하여 모수에 대해 추론할 때, 표본에서 이용되는 적절한 양을 의미한다.
마찬가지로 표본상관계수나 표본표준편차도 표본으로부터 계산하므로 통계량이다.
표본에서 계산한 통계량은 모수의 값을 추측하는데 쓰이게 되는데,
이때 유념하여야 할 3가지 조건이 있다.
( 1 ) 표본은 단지 모집단의 한 부분에 불과하다.
그러므로, 표본으로부터 계산된 통계량의 값은 모수의 참 값과는 일반적으로 같지 않다:
( 2 ) 통계량의 값은 추출된 표본의 영향을 받는다:
( 3 ) 다른 표본을 추출할 때마다 통계량의 값은 변한다:
3 . 표 집 분 포 ( Sampling Distribution )
통계량의 확률분포.
여러 표본이 있을 경우, 통계량의 값들은 표집분포에 따라 변화하게 된다.
그리고 그 통계량이 편향 추정량인지 불편 추정량인지에 따라 표집분포의 성질이 달라진다.
3 - 1 . 불 편 추 정 량 ( Unbiased Estimator )
분포의 평균값이 추정하려는 모수와 일치하는 추정량.
불편추정량의 경우, 표집분포의 평균 (중심) 은 모수와 같다:
통계량의 분포는 모집단의 분포 ( 분산 ) 와 표본의 크기 n 에 영향을 받는다:
표집분포에서 사용되는 표본 크기 n 은 통계량의 분산과 추정의 정확성에 중점을 둔다.
아래에서 설명할 중심극한정리의 n 과는 다른 역할을 가진다.
3 - 2 . 편 의 추 정 량 ( Biased Estimator )
분포의 평균값이 추정하려는 모수와 일치하지 않는 추정량.
편의추정량의 경우, 표집분포의 평균은 모수와 다르다:
이 경우, 편향 ( Bias ) 도 고려해야 한다:
따라서, 추정량의 편향을 최소화하는 것이 중요하다.
3 - 3 . 임 의 표 본 ( Random Sample )
일반적으로 크기가 큰 모집단으로부터 임의추출된
크기가 n 인 표본 X₁, …, Xn.
위 표본은 서로 독립이고,
모두 모집단의 분포와 동일한 분포를 갖는 것으로 간주된다.
3 - 4 . 표 본 평 균 ( Sample Mean )
모평균 ( 모집단의 평균 ) 에 대한 추론에서 중요한 역할을 한다.
모평균은 모집단의 중심을 나타내는 수치로서 가장 많이 사용된다.
표본평균은 다음과 같이 정의된다:
표본 평균의 기댓값 (평균) , 분산, 표준편차는 아래 식과 같다:
4 . 중 심 극 한 정 리 ( Central Limit Theorem, CLT )
표본의 크기 n 이 충분히 클 때, ( 보통 30 이상 )
모집단 분포 ( 연속이든 이산이든, 대칭이든 비대칭이든 ) 와 관계없이
표본 평균의 분포가 정규분포에 가까워진다.
이 정리는 많은 통계적 방법의 이론적 기초가 된다.
중심극한정리는 다음과 같이 정의된다:
중심극한정리에서 사용되는 표본 크기 n 은
표본 평균의 분포가 정규분포에 근사하게 되는 성질에 중점을 둔다.
예제 4
( 1 ) 크기가 5 인 표본을 100 번 뽑는다:
import numpy as np
a = np.random.randint(0, 100, size=5)
b = np.random.randint(0, 100, size=5)
np.random.seed(1) # seed의 숫자를 1로 고정한 경우
c = np.random.randint(0, 100, size=5)
np.random.seed(1) # seed의 숫자를 1로 고정한 경우
d = np.random.randint(0, 100, size=5)
print("a :", a)
print("b :", b)
print("c :", c)
print("d :", d)
## 해석: c, d에서 동일한 난수들이 추출됨을 확인할 수 있다.
( 2 ) 표본평균을 출력한다.
import numpy as np
m = []
np.random.seed(1234)
for i in range(100):
sample = np.random.randint(0, 10, size = 5)
m.append(np.mean(sample))
m = np.array(m)
print(m)
( 3 ) 그 평균을 가지고 히스토그림을 그려라.
import matplotlib.pyplot as plt
plt.hist(m, bins=7)
pit.xlabel('m')
pit.ylabel('Frquency')
plt.title('Historam of m')
## 해석: 정규분포와 유사한 종 모양 분포를 띄는 것을 통해
## 정규분포에 가까우리라 예상할 수 있다.
( 4 ) 데이터의 정규성을 보다 정확하게 평가하기 위해,
8 장에서 배운 정규확률그림을 그려본다.
import matplotlib.pyplot as plt
sm.qqplot(m, line='s')
plt.title("Normal Q-Q plot")
## 해석: 점들이 거의 직선상의 있으므로
## 어느 정도 정규분포를 따른다고 할 수 있다.