데이터분석가 7

[통계학] 5시간 만에 끝나는 통계학 기초강의_메타코드M_통계검정

통계학 기초 강의 통계 기초 이론 마지막강! 통계 검정이다. 7강 통계검정은 약 30분 길이로 되어 있다. 통계검정은 내가 설정한 가설에 대해 통계적으로 타당한지 확인해볼 수 있는 중요한 장이라고 볼 수 있다. 6.1.1. 통계검정 : 가설 1. 가설 검정 설정한 가설이 옳을 때 표본에서의 통계량과 통계량의 분포에서 이론적으로 얻은 특정 값을 비교하여, 가설의 기각/채택 여부를 판정하는 방법 - 확률적 오차 범위를 넘어서면 가설을 기각한다 - 유의수준( 𝛼 ) : 기각/채택의 여부 판단기준 ex) 실제 통계량과 이론적 통계값을 비교하는 것. 2. 가설의 종류 1) 귀무가설 (H0) - 대립가설과 상반되는 가설로, 일반적인 사실을 귀무가설로 설정 - 효과가 없다, 차이가 없다 등의 내용 2) 대립가설 (H..

배움 2024.02.10

[통계학] 5시간 만에 끝나는 통계학 기초강의_메타코드M_통계적 추정

통계학 기초 강의 통계 기초 이론 6강 통계적 추정이다. 6강 통계적 추정은 약 30분 길이로 되어 있다. 통계적 추정은 빅데이터 분석기사에서도 꽤 중요한 내용으로 나왔던 것으로 기억한다..! 6.1 통계적 추정 통계 inference의 꽃. 1. 통계적 추정 : 표본의 통계량을 기초로 하여 모집단의 모수를 추정하는 방법론 2. 통계적 추정의 종류 1) 점추정 : 모수의 단일한 값으로 추측하는 방식 - 신뢰도를 나타낼 수 없음 예) 대한민국 국민의 키 평균은 150cm이다! 2) 구간 추정 : 모수를 포함한다고 추정되는 구간을 구하는 방식 - 신뢰도를 나타낼 수 있음 예) 대한민국 국민의 키 평균은 148~152cm 사이에 있을 것이다! 통계적 추정의 기준 1. 불편성 (Unbiasedness) : 모수..

배움 2024.02.04

[통계학] 5시간 만에 끝나는 통계학 기초강의_메타코드M_연속확률분포

앞으로 두 강 남았다...!!! 열심히 달리자. 통계 기초 이론 5강 이산확률분포다. 5강 연속확률분포는 총 대략 1시간 길이로 되어 있다. 핵심 부분이고 종류도 다양해서 그런 것 같다! 5.1 연속확률분포 : Uniform Distribution 1. Uniform Distribution : 연속확률분포 중 가장 간단한 분포 2. 확률밀도함수 (PDF) 확률밀도 함수 그래프 * 확률값이 아니기 때문에 확률을 알기 위해서는 적분을 통해 cdf를 구해 알아야 함. - 기댓값 : (a+b)/2 - 분산 : (b_a)^2/12 5.2 연속확률분포 : 정규분포 1. 정규분포(가우스분포) - 연속확률분포 중 가장 널리 사용(거의 default 값) - 표본을 통한 통계적 추정 및 가설검정이론의 기본 *가장 많이 ..

배움 2024.02.03

[통계학] 5시간 만에 끝나는 통계학 기초강의_메타코드M_이산확률분포

통계 기초 이론 4강 이산확률분포다. 4강 이산확률분포는 약 20분여 길이로 되어 있다. 4.1 이산확률분포 : 이항분포 데이터 분석 실무에 적합한 효율적인 분포 위주로 배우기 때문에, 본 강의에서는 이항, 베르누이, 포아송 분포 중심으로 배우게 된다. 이외의 분포도 알 수 있다. 베르누이 분포는 이항 분포의 어머니라고 볼 수 있다. 1. 베르누이 시행 (trial) : 사상이 두 개뿐인 시행(성공 or 실패) - 각 시행에서 성공확률과 실패확률의 합은 1 - 각 시행은 서로 독립 - 베르누이 시행을 n 번 독립 시행했을 때의 확률 변수 x의 분포는 이항분포이다. -> 이항분포 : 베르누이 시행을 반복했을 때의 분포! - 이 때, 확률변수 X의 평균(기대값) : p - 확률변수 X의 분산 : p(1-p)..

배움 2024.01.31

[통계학] 5시간 만에 끝나는 통계학 기초강의_메타코드M_확률과 확률변수(확률 변수~공분산과 상관계수)

급하게 말고 차근차근..! 통계 기초 이론 3강 확률과 확률변수의 4-7 소강의 이다. 3강 확률과 확률변수는 7개의 소강의, 총 1시간 20분 길이로 되어 있다. 3.4 확률변수/이산확률변수/연속확률변수 확률변수 1. 확률변수 - 표본공간에서 정의된 실수값 함수 - 실수가 아니면 확률분포함수를 정의할 수 없음 (그래프를 못그립니다..!) - 일정 확률을 가지고 발생하는 사건에 수치를 부여한 것 why? 계산을 할 수 있기 때문 - 변수가 어떤 값을 취하는지가 확률적으로 결정된다 - 통계적 규칙성은 있다고 봄 -> 간단히 말해 사건을 실수 값에 매핑하는 것! 2. 확률분포 - 확률변수의 값과, 확률을 대응시켜 표, 그래프, 함수로 표현한 것 -> 확률변수의 설명서! 정규분포, 베르누이 분포, T 분포, ..

배움 2024.01.27

[통계학] 5시간 만에 끝나는 통계학 기초강의_메타코드M_확률과 확률변수(확률 정의~ 독립과 종속/베이즈 정리)

블로그에 계속 써야지 써야지 하고.. 정리를 못했다.. 쇠뿔도 단김에 빼라고.. 제때 들으면서 작성해야겠다. 통계 기초 이론 3강 확률과 확률변수의 1-3 소강의 이다. 3강 확률과 확률변수는 7개의 소강의, 총 1시간 20분 길이로 되어 있다. 3.0 확률과 확률변수 통계에서 확률이 왜 나오는가? 통계는 앞선 내용에서 표본을 통해 모수를 추정하는 학문이라고 했다. 데이터를 샘플링할 때, 무작위성(Randomness)가 들어가기 때문에 확률에 대해 알아야 데이터의 속성을 잘 알 수 있다. 1. 표본공간(S) : 랜덤한 현상의 모든 가능한 결과의 집합 2. 사건(event) : 표본공간의 부분집합 1) 합사상 : 합집합 2) 곱사상 : 교집합 3) 여사상 : 여집합 4) 배반사상 : 교집합이 공집합일 때 ..

배움 2024.01.24

[통계학] 5시간 만에 끝나는 통계학 기초강의_메타코드M_O.T~통계량

학부생 때 통계학 강의를 듣고 싶었다. 실은 수학을 싫어해서 듣기 싫었지만.. 학부 연구생 때 랩에 있다보니까 배워야겠다는 생각이 있어서 복학하고 뒤늦게 꾸역꾸역 신청했다. 근데... 1학년 수업이다 보니까 4학년인 나는 열심히 신청했지만... 그 누구도 통계학에 관심이 없었다. 결국 최소 인원 수강인원을 채우지 못한 채 폐강 되었다. 근데 메타코드 M에 강의가 있어서 한번 들어보기로 했다. 데이터 분석할 때 데이터의 분포나 형태에 따라 알맞은 처리 방법이 필요하기 때문에, 더 이상은 모른 채로 어영부영 넘어가는 게 아니라 알아두는 게 필요했다. 총 7강으로 되어있고, 각 소강의마다 부담없이 듣기에 좋은 10~20분 내외로 나눠져 있었다. 0. 오리엔테이션 통계는 데이터의 수집, 분석, 추론, 요약 등 ..

배움 2024.01.18