본문 바로가기

2024 - 1학기/데이터분석입문

10장: 통계적 추론

728x90
728x90
Reporting Date: July. 25, 2024

 

 


추출된 표본으로부터 모집단의 일반적인 특성을 추론해내는 것을
통계적 추론이라고 하며,
이는 표본의 크기가 클 때 더 정확하게 성립한다. 


 

 

 

1 .  자 료 의  입 력

## 교재 출처 최하단에 표시 ##

# 예제 13: 예제 1 에 주어진 자료에 근거해서 
# 중학교 1학년 남학생의 평균키에 대한 95% 신뢰구간을 구하라. (p.311)

import numpy as np 

height = np.array([163, 161, 168 , 161, 157, 162, 153, 159, 164, 170, 
                   152, 160, 157, 168, 150, 165, 156, 151, 162, 150, 
                   156, 152, 161, 165, 168, 167, 165, 168, 159, 156])
                   

#_____________________________________________________________________________

# 예제 14: 예제 8의 검정을 시행하고 그 결과를 비교하여라. (p.313)

# 예제 8: 앞의 예제 1에 주어진 중학생의 키 자료로부터 
# 그 도시의 중학교 1학년 남학생의 평균키(m)가 다른 도시의 중학교 1학년 
# 남학생의 평균키인 159 cm와 차이가 있다고 할 수 있는지 판단하라. (p.297)


#_____________________________________________________________________________

# 예제 15: 3 장의 예제 11 에 주어진 자료로부터 
# 평균교통소음정도(μ)에 대한 98% 신뢰구간을 구하고, 

# 평균교통소음정도가 60 을 초과한다고 주장할 수 있는지 
# 유의수준 5% 에서 가설검정을 실시하라. (p.314)

noise = np.array([55.9, 63.8, 57.2, 59.8, 65.7, 62.7, 60.8, 51.3, 61.8, 56.0, 
                  66.9, 56.8, 66.2, 64.6, 59.5, 63.1, 60.6, 62.0, 59.4, 67.2,
                  63.6, 60.5, 66.8, 61.8, 64.8, 55.8, 55.7, 77.1, 62.1, 61.0, 
                  58.9, 60.0, 66.9, 61.7, 60.3, 51.5, 67.0, 60.2, 56.2, 59.4, 
                  67.9, 64.9, 55.7, 61.4, 62.6, 56.4, 56.4, 69.4, 57.6, 63.8])

 

 

 

2 .  통 계 적  추 론 ( Statistical  Inference )

표본이 갖고 있는 정보를 분석하여  모수에 관한 결론유도하고,
모수에 대한 가설의 옳고 그름을 판단하는 것을 말한다.

 

모집단의 일부인 표본으로부터 전체 모집단의 성질을 추론해내는 것이므로
100 %  확실하다고 할 수는 없다.

따라서 통계적인 추론을 할 때에는
그 결론의 부정확한 정도를 반드시 언급하여야 하는데

이러한 정도를 수치로 표시할 수 있게 하는 도구로
앞에서 공부한 확률론과  표준분포 등이 이용된다. 

 

통계적 추론에는  두 가지 주요 방법이 있다:

  • 모수의   추정
  • 모수에   대한   가설  검증

 

 

 

3 .  모 평 균 의  추 정 ( Estimation  of  Parameters )

모수 중 하나로 포함되는,  모집단의 평균에 대한 점추정구간추정 다루고자 한다.

 

 

3 - 1 .  점 추 정 ( Point  Estimation )

추정하고자 하는 하나의 모수에 대해,

여러 개의 확률변수를 사용하여  하나의 통계량을 만들고,
주어진 표본으로부터 그 값을 계산하여  하나의 수치를 제시하는 과정.

    • 모수 ( Parameter )    :   모집단의 실제 값으로, 우리가 알고 싶어하는 대상.
    • 추정량 ( Estimator ) :   모수를 측정하기 위해 만들어진 통계량.
    • 추정치 ( Estimate )   :   주어진 관측값으로부터 계산된 추정량의 실제 값.


추정량
하나의 확률변수이므로,
추출된 표본의 따라 그 값이 달라진다.

수치들의 변화의 정도는  추정량의 정확도와 관계가 있다.
이 정확도를 측정하는 도구 중 하나가 표준오차 ( 추정량의 표준편차 ) 이다. 

 

 

3 - 2 .  표 준 오 차 ( Standard  Error,  SE )

추정량의 정확도평가하는 데 중요한 지표이며,
값이 작을수록 추정량모집단 모수더 정확하게 반영한다고 할 수 있다.

표본평균의 기댓값과 표준오차는, 모집단의 평균과 표준편차가 μ, σ 일 때 위와 같이 구할 수 있다.


표본평균을 가지고   μ 를 추정할 경우,
 n 클수록   표준오차작아져 좀 더 정확한 추정이 가능하다.

그러나 표준오차 계산 시  σ 가 주어지지 않는 경우가 있다.
이 경우,   σ 표본표준편차로 추정하여 사용할 수 있다.

 

 

 

 

 

3 - 3 .  구 간 추 정 ( Interval  Estimation )

추정량의 분포를 이용하여 표본으로부터 모수 값을
포함하리라고  예상되는 구간을 제시하는 것.

이때 제시되는 구간을 신뢰구간이라고 한다.

 

 

3 - 4 .  신 뢰 구 간 ( Confidence  Interval )

모집단의 어떤 모수추정하기 위해 계산된 범위.

신뢰구간은 ( L ,  U )의 형태로 이루어지며,
여기서  L 과  U 는 표본으로부터 계산된 통계량이다.

  • L ( Lower  bound ) :  신뢰구간의 하한값
  • U ( Upper  bound ) :  신뢰구간의 상한값

따라서 표본마다 계산되는 신뢰구간은 서로 다를 수 있다.



가장 확실한 신뢰구간은 항상 모수를 포함하는 구간이다.
그러나 이는 이론적으로는 가능하지만 실질적으로는 불가능하다.
그렇게 되기 위해서는 신뢰구간이 상당히 길어질 수 밖에 없다.

이 경우, 신뢰구간 CI 는 매우 넓어질 수밖에 없다.



항상 모수를 포함하는 신뢰구간은 실질적으로 너무 넓어서 유용하지 않다.

모수에 대한 정확한 정보를 얻으려면 신뢰구간을 가능한 한 줄일 필요가 있다.

신뢰구간이 좁을수록 추정의 정확성이 높아진다.



실용적인 측면에서 신뢰구간을 적절히 좁히기 위해,

 " 모든 표본에서 항상 모수를 포함해야 한다 " 는 엄격한 조건을 완화하고,
대부분의 경우에서 모수를 포함하도록 설정하는 것이 필요하다.

신뢰구간이 모수를 포함할 확률을 1 보다는 작은 일정한 수준에 유지하여 구간의 길이를 줄이는 것이 바람직하다.


이때에 모수를 포함할 확률신뢰수준 (
Level  of  Confidence )
또는 신뢰도라고 한다. 

 

 

3 - 5 .  모 평 균   μ 에  대 한  신 뢰 구 간 

여기에서는 신뢰구간을 계산하는 두 가지 경우를 설명한다:

 

( 1 )  모집단의 표준편차  알고 있는 경우:

 

정규분포 개념을 이용하여 신뢰구간을 계산한다:

신뢰수준  95 % 에 해당하는 정규분포의 임계값  를 사용하여 신뢰구간의 범위설정한다.
예시 :  α = 0.05 일 때,   Z ₀. /   =  Z ₀.₂₅  =  1.96

 

  • 정규분포는 평균 μ 와 표준편차 를 알 때,  그 분포의 형태가 완전히 결정된다.
  • 평균 μ 를 중심으로 좌우 대칭이며,   가 클수록 분포가 넓어진다.

이 특성 덕분에,  정규분포는 모수에 대해 많은 정보를 제공할 수 있다.
모집단이 정규분포를 따른다면,  표본 평균의 분포 역시 정규분포를 따른다.

 

위의 식에서 괄호 안에 부등식을 풀어 쓰면:

 

위 식을  μ 에 대해 정리하면:

 

따라서:

 

 

( 2 )  모집단의 표준편차  모르는 경우:

일반적인 경우에 관심있는 모집단은 그 분포표준편차가 알려져 있지 않다.
이런 경우, 9장에서 다룬 중심극한정리를 이용한다.

위 식은 약간의 수정이 필요한데, 이것은 11장을 참고하기를 바란다.

  • 이 경우에도,  확률  1 α 근사적으로 얻어진다.
  •  n 이 클 때는 

 

사용 상황에 따라 표준오차의 정의가 달라질 수 있다.

 

 

3 - 6 .  신 뢰 구 간 의  의 미

  • 이 그래프는 주어진 모수에 대해  95% 신뢰구간을 표시하였다.
  • 주어진 모수 (평균 100,  표준편차 10),  표본 크기 15를 사용하여 총 25개의 표본을 추출하였다.

위 그래프와 같은 방식으로 표본을 계속 추출하고 신뢰구간을 계산하면,
그 신뢰구간들이 모평균을 포함하는 비율이  95% 에 가까워지는 것을 확인할 수 있다.

 

 

3 - 7 .  표 본  크 기 의  결 정

많은 수의 표본을 추출하여 신뢰구간을 생성하는 것은 시간과 비용이 많이 소모된다.

따라서 우리가 원하는 정확도를  얻을 수 있는 범위 내에서
표본의 크기를 줄이는 것이 바람직하다.

 

오차가  d 이하가 될 확률이 최소한   100 ( 1 − α ) % 가 되려면:

 

표준화된 확률변수의 분포가 표준정규분포를 따르므로:

 

위 사실로부터 아래 식이 성립해야 하며:

 

이를  n 에 대하여 풀면 아래 식을 만족해야 한다:

적정한 표본의 크기는 위의 부등식을 만족하는 ' 최소의 정수 ' 가 된다.


만약 모집단이 정규분포라는 가정이 없다면

표본의 크기는  중심극한정리를 이용할 수 있도록  30 이상이 되어야 한다.


 

 

 

4 .  모 평 균 에  대 한  검 정

통계적 추론 중 하나인 모수에 대한
가설 검증
( Testing  Statistical  Hypotheses ) 에 대해 다루고자 한다.

 

 

4 - 1 .  가 설 ( H y p o t h e s e s )

가설검증에는 2 개의 가설이 있다.

  • 대립가설 ( Alternative  Hypothesis  ;  H )  :
  • 입증하여 주장하고자 하는 가설.

 

  • 귀무가설 ( Null  Hypothesis  ;  H )
  • 대립가설을 입증할 수 없을 때, 대립가설을 무효화하면서 받아들이는 가설.

 

 

4 - 2 .  오 류 의  종 류

가설검증에서 내리는 판단이란 다음  2 가지 형태 중 하나로 나타난다.

상황에 따라 다르지만, 일반적으로 제1종 오류에 더 주의를 기울이게 된다.

 

  • 1종 오류 ( Type  I  Error  ;  α ) :
  • 귀무가설이 참임에도 기각할 확률.
  • 예시  :  실제로 신약이 효과가 없는데,   효과가 있다고 결론 내리는 경우.

 

  • 2종 오류 ( Type  II  Error  ;  β ) :
  • 대립가설이 참임에도 기각할 확률.
  • 예시  :  실제로 신약이 효과가 있는데,   효과가 없다고 결론 내리는 경우.

 

 

4 - 3 .  검 정 통 계 량 ( Test  Statistic )

표본 데이터를 요약하여 귀무가설검정하는 데 사용하는 값.

귀무가설이라는 가정 하에 표본에서 계산된 값으로,
이 값이 귀무가설 하에서 얼마나 극단적인지를 평가한다.

 

 

4 - 4 .  기 각 역 ( Critical  Region )

귀무가설기각할 수 있는 값들의 집합.

 

검정 통계량이 기각역에

  • 속할 경우 귀무가설기각한다.
  • 아닐 경우 귀무가설을 기각하지 않는다.

c 이하이면 H₀ 을 기각한다.


가장 바람직한 기각역이란 아래
 두 확률을 최소화하는 것이 될 것이다.

  • α  :  제 1 종 오류를  범하게 될 확률.
  • β  :  2 종 오류를  범하게 될 확률.

 

위 두 확률은 다음과 같은 특징이 있다:

( 1α 와  β 는 서로 반비례 관계에 있다.

는 너무 크게 설정하지 않는 것이 좋다.
너무 큰   α  는  제1종 오류의 확률을 높여 잘못된 결론을 내릴 가능성을 높인다.

이를 방지하기 위해,  유의수준이라는 상한선을 둘 수 있다.

 

 

4 - 5 .  유 의 수 준 ( Significance  Level )

일반적으로 사용되는 유의수준은  0.05 ( 5% )   또는   0.01 ( 1% ) 이다.
이는 연구자가   제1종 오류의 확률을   낮추어  신뢰할 수 있는 결과를 얻기 위함이다.

  • 0.05  5%  )    :   가장 흔히 사용되는 유의수준.  제1종 오류를  5% 로 제한.
  • 0.01  1%  )    :    엄격한 기준으로,  제1종 오류를  1% 로 제한.
  • 0.10  ( 10% )    :    엄격한 기준으로,  제1종 오류를  10% 로 제한.

 

 

  • 양측 검정 ( Two — tailed  Test ) :
  • 유의 수준   α 두 방향 ( 양쪽 끝 ) 에 분배되어   α / 2 씩 기각역을 형성한다.

 

  • 단측 검정 ( One tailed  Test ) :
  • 유의 수준   α 한 방향에 집중되어 기각역을 형성한다.

 

 

4 - 6 .  모 평 균  μ 에  대 한  검 정

표본의 크기가 클 때  모평균 μ 에 대한
가설   :   μ = μ  을 검정하기 위한 검정통계량은 다음과 같다:

단 모집단의 표준편차 σ 가 주어져 있을 때 s를 σ 로 대체한다.


검정통계량은
   이 맞을 때   N ( 0 ,  1 ) 을 따른다.
각 대립가설에 대하여 유의수준 α 를 갖는 기각역은 다음과 같다:

 

 

4 - 7 .  유 의 확 률 ( Significance  Probability

주어진 검정통계량의 관측치로부터  을 기각하게 하는 최소의 유의수준.

  • P 값 ( PValue )

 

일반적으로 유의확률은 주어진 관측값을 경계점으로 하는 기각역의 유의수준으로 얻어진다.
Z   일 때   각 기각역의 형태에 따라   P값을 구하는 식을 정리하면 다음과 같다:


   

 

 

5 .  모 비 율 에  대 한  추 론

모집단에서 특정 속성을 가진 개체의 비율을 추정하거나 검정하는 것을 의미한다.

 

 

5 - 1 .  점 추 정

모비율에 대한 추정량으로 표본비율을 사용할 수 있다:

점추정량이 결정되면 그 추정량의 정확도를 알기 위해  표준오차를 계산할 필요가 있다.

모집단의 크기가 매우 커서 그에 비해 표본의 크기가 작은 경우,
의 분포는  반복 횟수 n ,  성공의 확률 이항분포가 된다.

따라서,   의 기댓값과 분산는 아래와 같다:

  • E ( X )  =  np
  • Var ( X )  =  npq

 


표본비율의 표준오차는 다음과 같이 계산된다:

이 식은 이항분포의 분산을 이용한 결과이다.

표본비율의  분산 은 아래 식과 같다:

표본비율의 표준오차는 이 분산의 제곱근으로 표현된다.

 

 

5 - 2 .  구 간 추 정

모비율  에 대한 구간추정을 하려면  P  의 추정량인   분포를 알아야 한다.

X 의 분포는 이항분포를 따르므로, 중심극한정리를 이용하여
표본 비율 의 분포를 근사적으로 정규분포로 취급할 수 있다:

분모, 분자를 n으로 나누었을 때, 위와 같은 식이 나온다.

 

 

위 구간이 p를 포함할 확률이 ( 1 − α ) 가 됨을 알 수 있다.

 

 

 

5 - 3 .  신 뢰 구 간

p 를 추정량인 p̂ 으로 대체하면, 원하는 신뢰구간을 구할 수 있다.

 

 

5 - 4 .  표 본 크 기 의  결 정

오차가  이하가 될 확률이 최소한   100 ( 1 − α )% 가 되려면:

표본 크기가 클 경우, 정규분포를 이용하여 위와 같은 식을 구할 수 있다.

 

따라서,  표본 크기는 아래 식을 만족해야 한다:

 

 

5 - 5 .  모 비 율  p  에  대 한  검 정

표본 크기가 클 때 모비율 p  에 대한 가설    p
검정하기 위한 검정통계량은 다음과 같다:

 

검정통계량은    이 맞을 때  N ( 0 ,  1 ) 을 따른다.
각 대립가설에 대하여 유의수준 α 를 갖는 기각역은 다음과 같다:


 

 

 

예제 13의  ( 1 )

height 에 대한  요약 통계량 계산하기.

xbar_h = np.mean(height);print(xbar_h) # 평균

var_h = np.var(height, ddof=1);print(var_h) # 분산 (자유도 1 사용)

sd_h = np.std(height, ddof=1);print(sd_h) # 표준편차 (자유도 1 사용)

median_h = np.median(height);print(median_h) # 중앙값

min_h = np.min(height);print(min_h) # 최솟값

max_h = np.max(height);print(max_h) # 최댓값

sum_h = np.sum(height);print(sum_h) # 합계

n = height.size;print(n) # 데이터 개수

 

 

예제 13의  ( 2 )

신뢰구간을 구하기 위해,  아래 2가지 함수를 사용한다.

  • 추정량의 표준오차를 구하는 함수.
  • 정규분포의 백분위수 함수.
from scipy import stats 

se_h = stats.sem(height);print(se_h) # 표본표준오차

z_alpha = stats.norm.ppf(1 - 0.05 / 2);print(z_alpha) # 95% 신뢰구간을 위한 z값

interval = z_alpha * se_h;print(interval) # 신뢰구간 계산을 위한 간격 계산

CI = [xbar_h - interval, xbar_h + interval];print(CI) # 신뢰구간

이로부터 95% 신뢰구간은 160.2 ± 2.1437 임을 알 수 있다.

 

 

예제 14

검정하고자 하는 가설은  H :   μ  =  159   대   H :   μ  ≠  159 이며,
표본의 크기는  30 이상이다.

zval = (xbar_h-159)/se_h;print(zval) # 가설 검정을 위한 z값

pval = 2 * (1 - stats.norm.cdf(zval));print(pval) # p값

## 해석: 계산된 p값이 상당히 커서 귀무가설을 기각할 수 없으므로
## 중학교 1학년 남학생의 평균키가 159와 차이가 난다고 판단할 수 있다.

P–값: 실제 계산값과 약간의 차이는 있으나, 거의 비슷한 값이 나오는 것을 확인할 수 있다. (0.2714 ≈ 0.2725)

 

 

예제 15의  ( 1 )

신뢰구간의 신뢰수준이 98% 이므로 
 α = 200 을 이용하여,   표준오차와   Z α / 2 를 계산하고, 

이로부터  오차범위값과  모집단   μ 에 대한  98% 신뢰구간을 구한다.

xbar_n = np.mean(noise);print(xbar_n) # 평균

sd_n = np.std(noise,ddof=1);print(sd_n) # 표준편차 (자유도 1 사용)

n = noise.size;print(n) # 데이터 개수

 

 

검정하고자 하는 가설은  H  :   μ  =  60   대   H :   μ  >  60 이며,
표본의 크기는  30 이상이다.

se_n = stats.sem(noise);print(se_n) # 표본표준오차

z_alpha = stats.norm.ppf(1 - 0.02 / 2);print(z_alpha) # 95% 신뢰구간을 위한 z값

interval = z_alpha * se_n;print(interval) # 신뢰구간 계산을 위한 간격 계산

Cl = [xbar_n - interval, xbar_n + interval];print(CI) # 신뢰구간

 

 

zval = (xbar_n-60) / se_n;print(zval) # 가설 검정을 위한 z값

pval = stats.norm.sf(np.abs(zval));print(pval) # p값

## 해석: P—값이 0.021로 0.05보다 작게 나왔으므로 
## 유의수준 5% 에서 귀무가설을 기각할 수 있다.

## 그러므로, 평균교통소음정도가 60 보다 크다고 할 수 있다.


Mapo금빛나루 | | 공유 마당 (copyright.or.kr)
P Hat Symbol (p̂) (wumbo.net)

참고용 블로그: 작은 숫자 특수문자 첨자 및 분수숫자 모음
교제: 통계학: 파이썬을 이용한 분석


728x90
반응형

'2024 - 1학기 > 데이터분석입문' 카테고리의 다른 글

12장: 두 모집단의 비교  (2) 2024.07.31
11장: 정규모집단에서의 추론  (0) 2024.07.28
9장: 표집분포  (8) 2024.07.21
8장: 정규분포  (2) 2024.07.18
7장: 이항분포와 그에 관련된 분포들  (4) 2024.07.15