데이터사이언티스트 성장기

02. 확률분포 본문

수학/확률과 통계

02. 확률분포

dssj 2022. 9. 19. 20:41

확률변수란 어떤 한 실험에서 일정한 확률을 가지고 나올수 있는 변수 X에 수치를 부여한 것입니다. 이번에도 주사위 예시로 확률변수를 재정의 해보겠습니다.

 

확률변수란 어떤 한 실험 (주사위를 굴리는 실험)에서 일정한 확률 ( 각 면당 나올 확률은 1/6 )을 가지고 나올 수 있는 변수 X에 수치를 부여한 것 (나올 수 있는 면의 수는 1부터 6까지의 수로 표현) 입니다.

 

즉 주사위를 던졌을 때 나올 수 있는 숫자를 확률변수 X라고 하면 이 확률변수 X는 다음과 같이 표현할 수 있습니다.

2-1. 확률변수 X의 범위

 

 위 예시처럼 확률변수가 셀 수 있으며 특정 값들로 이루어진 경우를 이산확률변수라고 하며, 반대로 키,몸무게 등과 같이 확률변수가 될 수 있는 값이 셀 수 없는 범위의 형태로 이루어져있다면 연속확률변수라고 합니다.

 

확률변수는 그 값에 따라 확률도 따라 달라지게 되는데, 이렇게 이산확률변수와 연속확률변수에 따른 확률들을 정리하여 나타낸 모습을 각각 이산확률분포연속확률분포라고 합니다.

 

이산확률분포의 예시로 다시한번 주사위를 던질때의 상황을 가정해보겠습니다. 주사위를 두개 던졌을 때 각 주사위 숫자의 합과 그 합의 확률을 표로 정리하면 다음과 같습니다.

2-2. 주사위 눈금의 합들의 확률

 이 표를 히스토그램으로 나타내어 보겠습니다.

2-3. 히스토그램으로 나타낸 이산확률분포

여기서 주사위 수를 점점 늘려갈수록, 이산확률분포의 히스토그램 모형은 점점 더 가운데 값으로 모여 분포하게 됩니다. 이러한 모양의 분포도를 정규분포라고 합니다.

 

다음은 연속확률분포입니다.

연속확률변수의 분포를 히스토그램으로 나타내면 마찬가지로 정규분포의 모양을 띄게 됩니다.

2-4. 연속확률분포

위 분포도는 성인 남성의 키의 분포를 나타낸 그림입니다. 연속확률분포는 이산확률분포와 다르게 연속된 수, 즉 실수 전체에 분포되어있는 수들로 이루어지기 때문에 곡선의 모양으로 표현됩니다. 그에따라 이산확률분포와 달리 정확한 한 지점에서의 확률을 구할 수 없습니다. 

그래서 정확히 한 지점에서의 확률을 구하는 대신, 일정한 범위에 속할 확률을 구하게 됩니다. 이때 적분의 개념을 사용할 수 있습니다.

어떤 사건의 연속확률변수가 X일때, 그 확률 P는 연속확률분포 f(x)를 지정한 X의 범위내에서 적분한 값이 됩니다.

 

$$P(a \le X \le b) = \int_{b}^{a} f(x)\, dx$$

 

위 식을 사용하여 다음 그림처럼 정확한 한 지점의 값이 아닌 174 <= X <= 175 처럼 한 범위의 확률을 구하여 연속확률변수의 확률을 구할 수 있습니다.

2-5. 적분을 사용한 연속확률변수의 확률

 

 

 

참고 : 인공지능을 위한 수학 (이시카와 아키히코)

'수학 > 확률과 통계' 카테고리의 다른 글

04. 베이즈 정리  (0) 2022.10.10
03. 결합확률과 조건부확률  (0) 2022.09.26
01. 확률  (0) 2022.09.12
Comments