SHIN JI HAN 2024. 7. 11. 21:10
728x90
728x90
Reporting Date: July. 11, 2024

 


5 장에서 다룬 표본공간의 근원사건들은 특성을 표현하는 형태로 다뤘다.
이제는 확률변수를 중심으로 실험의 수치적 결과에 대해 다루고자 한다.


 

 

 

1 .  확 률 변 수  ( Random  Variable )

각각의 근원사건들에 실수값을 "대응시키는 함수"이며  X, Y, 등으로 표시한다. 

 

확률변수가 가질 수 있는  "값의 개수" 가 유한하거나
무한이라도  "셀 수 있는 경우" 에 이를  "이산확률변수" 라고 한다.

또한, 연속적인 구간에 속하는 모든 값을 다 가질 수 있는  "연속확률변수" 도 있다.


 

 

 

2 .  이 산 확 률 분 포  ( Discrete  Probability  Distribution )

확률변수가 갖는 값들과 그에  "대응하는 확률값" 을 나타내는 것으로,
나열된 표나 수식으로 표현되며,  보통은  "확률변수  X 의 분포" 라고 한다.

 

2 - 1 .  확 률 질 량 함 수  ( Probability  Mass  Function,  PMF )

확률변수  X 가  k 개의 값  x,  x, …,  xk 를 가질 때, 
그에 대응하는 확률을  f(x),  f(x),   …,  f(xk) 라고 하면

 X 의 확률분포는 다음과 같다:

 

 

f ( x ) 는 확률변수  X 가 값  x 를 갖게 되는 확률  P ( X = x ) 을 나타낸다:

 

이산확률변수  X 의 확률변수는 다음 조건을 만족해야 한다:

모든 확률은  0 이상  1 이하의 값을 가진다.
확률변수가 가질 수 있는 모든 값에 대한 확률의 합은  1 이다.


 

 

 

3 .  이 산 확 률 변 수 의   평 균과   표 준 편 차

 

3 - 1 .  기 댓 값  ( Expected  Value )

E ( X ) 는 확률변수  X 의  "기댓값(평균)" 
또는  X 가 갖는 확률분포의  "모평균" 이라고 한다.

뮤( M , μ: 그리스 알파벳의 열두째 글자)

 

 

3 - 2 .  모 분 산  ( Population  Variance )

편차  ( 즉, 각 값이 기대값에서 얼마나 떨어져 있는지 )  를  "제곱" 하고,
그 제곱된 값을 각 값이 발생할 확률로  "가중평균" 하는 것이다.
 

 

V a r ( X ) =  ( 편차 ) ² × 확률:

시그마(Σ, σ: 그리스어 알파벳의 열여덟째 글자)

 

모 분 산 의  간 편 식:

기댓값을 알고 있다면, 직접적인 정의를 사용하지 않고 게산할 수 있다.

 

 

3 - 3 .  모 표 준 편 차  ( Population  Standard  Deviation )

모분산의 양의 제곱근으로 계산된다:

모표준편차 ( σ ) 의 단위는 확률변수 X와  "동일" 하다.

반면 모분산 ( σ² ) 의 단위는   의 단위를  "제곱" 한 것이므로,
퍼진정도를 측정하는데 적절하지 않다.

예를 들어,  X 의 단위가 센티미터( cm )라면,
모분산  σ² 의 단위는 제곱센티미터( cm² )가 된다.


 

 

 

4 .  두  확 률 분 포 의  결 합 분 포

하나의 실험에서도  2 개 이상의 측면에 대한 관측이 가능하다.
이 경우 그  2 가지 특성 간의 관계 여부 및 그 관계 정도에 대해 분석할 수 있다.

 

4 - 1 .  결 합 확 률 분 포 ( Joint  Probability  Distribution )

2 개 이상의 확률변수동시에 특정한 값을 가질 확률을 나타내는 분포이다.



2 개의 확률변수가  이산일 경우,

X
가 취하는 값을  x…,  xm 
Y
가 취하는 값을  y…,  yn 이라고 할 때

 

X 와  Y 의 결합확률분포는
모든  1 ≤ i ≤ m,  1 j ≤ n 에 대하여

 

위 식을 구하므로써 결정되며,  다음과 같이 표현할 수 있다:

 

 

4 - 2 .  주 변 확 률 분 포 ( Marginal  Probability  Distribution )

결합확률분포에서 한 확률변수를  "고정" 하고 다른 변수의 분포를 고려하는 분포이다.


이는  2 개 이상의 확률변수 중 하나에 대한  "단일 확률분포" 를 얻기 위해 사용한다:

 

각각의 주변확률을 이용해서 하나의 변수 때와 마찬가지로 구하면 된다:


 

 

 

5 .  공 분 산 과  상 관 계 수

 

5 - 1 .  공 분 산 ( Covariance )

두 확률변수  X   Y 가  함께 변하는 정도를 측정한다.

 


X, Y
가  같은 방향으로 변화할 경우,    (즉, 둘 다 증가하거나 둘 다 감소하는 경우)
( X − μX ​),  ( Y − μY ​) 의 부호가 일치할 확률이 상대적으로 커진다.
따라서, 이에 대한
기댓값은 양수가 된다.

X, Y가  다른 방향으로 변화할 경우,    (즉, 한 변수가 증가할 때 다른 변수는 감소하는 경우)
( X − μX ​),  ( Y − μY ​서로 다른 부호를 갖게 될 확률이 상대적으로 커진다.
따라서 이에 대한 기댓값은 음수가 될 것이다.

 

XY 의 공분산은 아래와 같이 정의된다:

 

 

5 - 2 .  상 관 계 수 ( Correlation  Coefficient

두 확률변수 간의 선형 관계의 강도와 방향을 측정한다.
이것은 공분산을 표준화한 형태로,   1 과  1  사이의 값을 가진다.

 

상관계수의 성질:

절댓값이 클수록 (1 또는 −1에 가까울수록) 점들은 기울기가 양수(또는 음수)인 직선에 가깝게 몰려 있다.
0보다 값이 클 경우, 점들이 좌하에서 우상방향으로  띠를 형성한다.
이때, 한 변수의 값이 크면 다른 변수의 값도 큰 경향을 가진다. 

정확한 선형관계  Y = aX + b 가 성립할 때,  상관계수의 값은   1  또는  1  이다.

 

X,  Y 의 상관계수는 각 확률변수에 상수가 더해지거나 감해지는 것에 영향을 받지 않는다.
상수가 곱해진 경우, 그 부호에만 영향을 받는다.

상수 c 와 d 의 부호가 다르면 상관계수의 부호가 반대가 된다.


 

 

 

6 .  두  확 률 변 수 의  독 립 성

2 개의 확률변수  XY 독립이 되기 위해서는
XY 가 취하는 모든 쌍의 값  ( xi,  yi ) 에 대해 아래 식을 만족해야 한다.

 


두 확률변수  XY 가 서로 독립일 때,
아래의 식이 성립한다:

단, 공분산과 상관계수가  0 이라는 사실이
항상 두 변수가 독립이라는 것을 보장하지 않는다.

이는 두 변수 간에 선형 관계가 없음을 의미하지만, 비선형 관계가 존재할 수 있다.

 

 

두 확률변수가 독립일 경우,
공분산이  0 이 되므로 합과 차의 분산을 쉽게 계산할 수 있다.

분산과 공분산의 정의를 이용하면:

 

공분산 항을 제외하여 다음과 같이 나타낼 수 있다:


Symbols (wumbo.net)
참고용 블로그: 작은 숫자 특수문자 첨자 및 분수숫자 모음

교제: 통계학: 파이썬을 이용한 분석


 

728x90
반응형