배움

[통계학] 5시간 만에 끝나는 통계학 기초강의_메타코드M_연속확률분포

개굴리 2024. 2. 3. 02:35

앞으로 두 강 남았다...!!! 열심히 달리자.

통계 기초 이론 5강 이산확률분포다.

5시간 만에 끝나는 통계 기초 이론

 

5강 연속확률분포는 총 대략 1시간 길이로 되어 있다.

핵심 부분이고 종류도 다양해서 그런 것 같다!

 

5.1 연속확률분포 : Uniform Distribution

 

균등분포
1. Uniform Distribution : 연속확률분포 중 가장 간단한 분포

 

2. 확률밀도함수 (PDF)

 

확률밀도 함수 그래프

출처 : 위키피디아

 

 * 확률값이 아니기 때문에 확률을 알기 위해서는 적분을 통해 cdf를 구해 알아야 함.

 

- 기댓값 : (a+b)/2  

- 분산 : (b_a)^2/12

 

5.2 연속확률분포 : 정규분포


 

1. 정규분포(가우스분포)

  -  연속확률분포 중 가장 널리 사용(거의 default 값)

  - 표본을 통한 통계적 추정 및 가설검정이론의 기본 *가장 많이 본 분포..!

  - 샘플 사이즈가 클 경우, 대부분 정규분포를 따름.

2. 확률밀도함수

 

 꽤 복잡해 보임.. 따라서 다른 확률변수와 비교할 수 있게 표준화함

X~N(0,1) : 0과 1 시아의 값으로 표준화시킴.

그럼에도 불구하고 확률을 계산하기 부담스럽기 때문에 확률분포표를 제공함.

 

정규분포의 특징

1. Bell Shaped : 평균을 중심으로 좌우 대칭의 종모양이다.

2. 평균 = 중앙 = 최빈값

3. 평균에 의해 분포의 위치가 결정 X~N( μ , σ² )

4. 표준편차에 의해 분포 모양이 결정

  - 표준편차가 크면 평평한 곡선이 됨

5. 확률변수 X가 어느 구간에 속할 확률은 그 구간과 분포함수로 이루어진 면적값이다.

6. 이항분포와 포아송분포는 일정조건이 만족될 때 정규분포로 근사가 가능하다.

  - 이항분포 : np > 5 and n(1-p) > 5

  - 포아송분포 : λ > 5

 

5.3 연속확률분포 : 표본분포

 

* 매우 중요! : 추정과 검정을 할 때, 표본분포가 반드시 들어감.

 

 1. 표본분포 (sampling distribution)
모집단에서 일정한 크기로 뽑을 수 있는 표본을 모두 뽑았을 때, 그 모든 표본의 통계량의 확률분포

 -> 표본 추출을 여러 번 진행! 그에 따른 여러 개의 통계량을 모아서 분포를 확인

 

2. 표본평균의 평균과 표준편차

 X1, ..., Xn 이 모평균 μ, 모표준편차 σ인 모집단으로부터의 확률표본 (i, i, d)일 때,

 

표본평균은

 

- 기대값 : 

 

- 분산 :  

* 통계 데이터는 원 데이터보다 밀집된 경향을 보이기 때문에 일반적으로 분산이 원 데이터의 분산보다 작을 수 있다.

 

중심극한정리(CLT)

평균이 μ, 표준편차 σ인 임의의 모집단으로부터 크기 n인 표본에서의 표본평균은 n이 크면 근사적으로 평균이 μ이고 분산이 σ²/n정규분포를 따름

 

->모집단이 정규분포라면 표본평균은 표본 개수와 상관없이 항상 정규분포를 따른다.

 

5.4 연속확률분포 : 카이제곱 분포

 

1. 카이제곱( χ2 )분포

 - 표본분산과 관련된 분포(통계량 관련!)

 - 확률변수 Z1, ..., Zk 가 각각 표준정규분포를 따르고 독립일 때 그들의 제곱합은 자유도가 k인 카이제곱분포 χ2(k)를 따름.

 

*자유도 k 하나만 있으면 구할 수 있음(포아송 분포와 유사) 

 

표본분산을 알고 모분산을 추정할 때 사용하는 분포

(표본의 크기가 클수록 치우침이 적어짐 - 정규 분포에 근사할 수 있음)

카이 제곱 분포의 일반적인 형태

 

카이제곱 분포의 특징

1. 단봉분포

2. 오른쪽에 꼬리를 가짐(positive skewed)

3. 항상 양수값을 가짐

   - 표본분산과 관련되어 있기 때문!

4. 자유도가 커지면 정규분포에 가까워짐

5. 모분산 추정 및 검정에 활용됨

6. 적합성, 동질성, 독립성 검정 등에 사용

  - 범주형 자료 검정시 : 혈액형, MBTI 등

5.5.1 연속확률분포 : t분포

 

1. t분포

- X의 분포가 정규분포일 때, 표분평균의 분포에서 모집단의 표준편차를 모를 경우, 모표준편차 대신 표본표준편차를 사용

- t 분포는 자유도에 의해 모양이 결정됨!

 

Z ~N(0,1), V~ χ2(k) 이고 Z와 V는 서로 독립일 때, 

X1, ..., Xn ~ N ( μ , σ² )일 때,

가장 많이 사용되는 공식

 

위의 식에서 기존 표본평균분포 공식을 기억한다면, 

μ : 표본평균의 기댓값

σ²/n : 표본평균의 분산

σ/ √n : 표본평균의 표준편차

을 생각할 때

 

모수에 대한 표준편차 σ 를 모르기 때문에 표본표준편차인 S를 집어넣음

그러면 자유도가 n-1인 t 분포를 따른다.

 

t분포의 특성

1. t분포는 정규분포보다 넓게 퍼져 있고 꼬리 부분이 더 평평함

2. Bell shaped

3. 표본크기가 커질수록 분포가 중심부근에서 점점 더 뾰족해짐

  - 표본 크기가 30 이상이 되면 정규분포에 근사

4. 주로 모평균 추정 혹은 모평균차이에 대한 추정 시 사용

  모표준편차를 모를 때 t 분포를 사용함.

5. 표본 크기가 30 이상일 경우에는 표준정규분포, 미만일 때는 t 분포이다.

 

5.5.2 연속확률분포 : F분포

 

1. F 분포

  F 분포는 두 정규 모집단의 분산을 비교하는 추론에 사용

  V1과 V2는 각각 자유도 k1, k2인 카이제곱분포를 따르는 독립인 확률변수일 때,

  V1 ~ χ2(k1), V2 ~ χ2(k2)

 

 

 

통계량을 사용할 경우, 

데이터를 통해 표준편차를 계산할 수 있다면, 위와 같이 F 분포를 구할 수 있음.

 n1 : V1의 자유도

 n2 : V2의 자유도

F distribution

 

 * 회귀 분석, ANOVA 분석 시 매우 유용한 분포 

 

이번 강의는 통계 분석 시 많이 사용하는 연속확률변수의 통계 분포들에 대해 설명해 주셨는데,

확실히 기초이다 보니 간략하게만 언급한 부분이 없잖아 있다.

향후, 더 자세한 심화 버전으로 강의도 나온다고 하니, 그 내용을 기대하며 헷갈리지 않게 오늘 배운 것들을 잘 정리해야겠다.


이외에 매 통계 강의 뒤에 예제가 있어서 풀어볼 수 있고, 풀이도 알려주셔서 바로 적용해 볼 수 있다.

통계 기초 강의 맛보기는 유튜브에서, 강의는 메타코드M 사이트에서 들을 수 있다.

데이터 분야에서는 어떻게 쓰이는지에 대해서도 알려주셔서 이해가 쉬웠다.


https://youtu.be/r7jTwciTdXo?feature=shared

 

https://mcode.co.kr/video/list2?viewMode=view&idx=45

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr