배움

[통계학] 5시간 만에 끝나는 통계학 기초강의_메타코드M_통계적 추정

개굴리 2024. 2. 4. 23:26

통계학 기초 강의

통계 기초 이론 6강 통계적 추정이다.

5시간 만에 끝나는 통계 기초 이론

 

6강 통계적 추정은 약 30분 길이로 되어 있다.

통계적 추정은 빅데이터 분석기사에서도 꽤 중요한 내용으로 나왔던 것으로 기억한다..!

 

6.1 통계적 추정

 

통계 inference의 꽃.

통게적 추정

 

1. 통계적 추정 : 표본의 통계량을 기초로 하여 모집단의 모수를 추정하는 방법론

 

2. 통계적 추정의 종류

  1) 점추정 : 모수의 단일한 값으로 추측하는 방식
     - 신뢰도를 나타낼 수 없음

     예) 대한민국 국민의 키 평균은 150cm이다!

 

  2) 구간 추정 : 모수를 포함한다고 추정되는 구간을 구하는 방식

    - 신뢰도를 나타낼 수 있음

     예) 대한민국 국민의 키 평균은 148~152cm 사이에 있을 것이다!

 

통계적 추정의 기준

 

1. 불편성 (Unbiasedness) : 모수의 추정량( θ ^)의 기댓값이 모수( θ )가 되는 성질
- 편향이 없는 성질, E( θ ^) = θ
- n-1로 나누어 주는 이유

2. 유효성 (Efficiency) : 추정량이 불편추정량이고 분산이 다른 추정량에 비해 가장 작은 분산을 갖는 성질
- 추정량 또한 확률변수로써 narrow한 분산을 가질 수록 좋음

3. 일치성 (Consistency) : 표본 크기가 커질 수록 추정량이 모수에 수렴하는 성질

4. 충분성 (Sufficiency) : 모수에 대해 가능한 많은 표본정보를 내포하는 성질

-> 위 네가지 성질은 수리 통계학에 의해 엄밀하게 공식적으로 하나하나 체크한다.

 

6.2 통계적 추정 : 점추정


 

1. 표준오차 (Standard Error) : 통계량의 표준편차 (𝜎/√n)
   - 표본크기가 클 수록 작아짐
   - 추정량의 표준편차가 작을 수록 좋음


2. 점 추정량
  1) 모평균 : 표본평균
  2) 모분산 : 표본분산
  3) 모표준편차 : 표본표준편차
  4) 모비율 : 표본비율

 

점 추정은 그렇게 많이 사용되지 않으니 빠르게 구간추정으로 넘어가보자.

6.3 통계적 추정 : 구간추정

 

1. 구간추정 : 표본에서 얻어지는 정보를 이용하여 모수가 속할 것으로 기대되는 범위(신뢰구간)를 택하는 과정
  - 통계적 추정은 일반적으로 신뢰구간의 추정을 활용
  - 모수 𝜃 대하여 P(a < 𝜃 < b) = 1 - 𝛼 일 때, 구간 (a,b)을 모수 𝜃 대한 100(1- 𝛼)% 신뢰구간이라고 한다.

 

2. 신뢰구간 : 모수를 포함할 것으로 추정한 구간

 

3. 신뢰수준 : 신뢰구간이 모수를 포함할 확률 ( 1 - 𝛼 )
 * 𝛼 : 오차율
  - 동일한 표본추출을 통해 구한 신뢰구간들 중 100 x ( 1- 𝛼 ) %는 모수를 포함

 예) 95% 신뢰수준이다 : 100개의 신뢰구간 중 95개는 모수를 포함하고 있다.

 

6.4 통계적 추정 : 모평균의 구간추정

모평균의 구간 추정은 시나리오를 나누어야 한다!

 

1. 모분산을 아는 경우

 가정) 모분산을 안다. 
    모집단의 평균이 𝜇, 분산이 𝜎2인 정규분포
    Z통계량을 사용
표준 정규분포

 

표준화를 진행시켜주어야 함.

 -> 특정 확률 변수(X_)에 기대값( 𝜇 )을 빼주고, 그 확률변수의 STD (𝜎/√n) 로 나눠주면 된다.

 

구간을 추정하기 위해서는 신뢰수준을 설정해야 함.

신뢰 수준을 설정한 뒤, P(Z≤z) = 0.05(예시) 에 대한 z 값을 구해야 함.

how? 표준정규분포표를 보면 알 수 있음

 

- 90% 신뢰구간( 𝛼 =0.1) : Z0.05 = - 1.64  / Z0.95 - 1.64
- 95% 신뢰구간( 𝛼 =0.05)  : Z0.025 = - 1.96
- 99% 신뢰구간( 𝛼 =0.01)  : Z0.005 = - 2.57

 

2. 모분산을 모르는 경우(좀 더 일반적)
  가정) 모분산을 모른다. 
     모집단의 평균이 𝜇, 분산이 𝜎^2인 정규분포
t통계량을 사용

 

Z = X_ - E(X_)/S.D(X_)

S.D(X_) =  𝜎/√n

여기서 우리는 𝜎를 모르기 때문에, S 표본표준편차로 대체하였음.

대체를 했기 때문에 t통계량을 사용해야함.


  - 표본 크기가 클 경우 Z통계량을 사용

 

  어쨋거나, Z통계량을 써도 t 통계량을 써도 표준확률분포표, t확률분포표를 봐야함.

 

**두 가지 방법을 사용할 때 유념해야하는 부분이 있는데,

 

표준정규분포표는 P(Z z)=p

예) Z0.95 = 1.64

그래프 상으로는 뒷면적에 대한 확률을 제공한다.

 

t확률분포표는 P(T≥t)=p

그래프 상으로는 앞면적에 대한 확률을 제공한다.

 

 

 

 

이번 강의는 통계 분석 시 많이 사용하는 통계에 그렇게 많이 나오는 유의수준, 신뢰구간, Z통계량과 t 통계량에 대해 설명해 주셨는데,

중간에 정신이 약간 혼미해졌다..후..

 

그래도 차근차근 설명해주시고 예제에 증명도 넣어 주셔서 복잡한 수식을 풀어가는 과정이 있다보니 한결 수월하게 이해가 되었다.

한 번만 보면 이해가 가기 어려우니 시간 날 때마다 틈틈히 봐서 내 것으로 온전히 만들어야 겠다.


이외에 매 통계 강의 뒤에 예제가 있어서 풀어볼 수 있고, 풀이도 알려주셔서 바로 적용해 볼 수 있다.

통계 기초 강의 맛보기는 유튜브에서, 강의는 메타코드M 사이트에서 들을 수 있다.

데이터 분야에서는 어떻게 쓰이는지에 대해서도 알려주셔서 이해가 쉬웠다.


https://youtu.be/r7jTwciTdXo?feature=shared

 

https://mcode.co.kr/video/list2?viewMode=view&idx=45