-
메타코드Z 채널에 있는 통계학 기초 이론 영상 - 목적
- 통계 기본 지식 함양
통계
- 통계는 데이터의 수집, 분석, 추론, 요약 등의 방법론을 다룬다.
- Description(요약) : 데이터를 요약 표현하기 위한 시각적, 수치적 방법
- python DataFrame에 description() 함수 쓰면 데이터프레임 통계값들이 나오잖아. 그런 거 생각하기
- Inference(추론)
- 표본에 기반한 모집단에 대한 추론/예측
-> 이번 영상에서는 요약, 추론 내용에 대해서 공부
통계 단어 이해하기
- 모집단(Population) : 통계학에서 관심/조사의 대상이 되는 개체(=표본집단)의 전체 집합
- 전체 집합을 다 조사할 수 없기 때문에 표본을 뽑아서 조사를 하고, 표본에서 추출한 통계치를 가지고 모집단의 통계치가 이럴 것이다 라고 추론하는 것. 위의 Inference(추론).
- 모수(Parameter) : 모집단에 대한 수치적 요약
- 고등학생의 1일 평균 온라인게임 플레이 시간
- 표본(Sample) : 모집단을 적절히 대표하는 집단의 일부 -> 우리가 조사하는 영역
- 통계량(Statistic) : 표본에 대한 수치적 요약
- 고등학생 1000명의 1일 평균 온라인게임 플레이 시간 -> 이렇게 전체 중 일부를 의미
결론 : 통계학은 표본에서 추출한 통계량을 통해서 모집단의 모수를 추론하는 것이다!
자료의 종류
1. 범주형 자료 : 속성의 범주화, 상대적 서열
- 명목형 자료 : 단순히 속성을 분류하기 위함 (혈액형)
- 순서형 자료 : 상대적인 크기 비교 (만족도, 최종학력)
2. 양적 자료 : 자료자체가 숫자로 표현됨
- 이산형 자료 : 셀 수 있음 (빈도수, 불량품의 수) - 정수 단위
- 연속형 자료 : 셀 수 없음 (길이, 시간) - 소숫점 단위
자료의 종류에 따라 시각화하는 방법, 분석하는 방법이 달라짐. -> 이런 것을 신경쓰는 것도 중요하겠구나!
통계량
- 데이터의 중심을 표현할 수 있는 통계량에 대해서
1. 최빈값(mode)
- 발생빈도가 가장 높은 값
- 극단값에 영향을 받지 않음. - 극단값이 하나 들어온다고 해서 데이터의 최빈값이 바뀌지는 않음.
- 주로 범주형 자료에 대한 대표값
- 2개 이상 존재 가능
2. 중앙값(median)
- 크기 순으로 정렬된 자료에서 가운데에 위치하는 값
- 관측값 변화에 민감하지 않음
- 극단값(이상치)에 영향을 받지 않음
3. 산술평균(Arithmetic Mean)
- 모든 자료의 값을 더하여 자료의 수로 나누어 준 값
- 모든 값을 반영하므로 극단값에 영향을 받음
- 각 자료의 가중치가 1임. (가중평균 개념으로 생각해보면)
4. 가중평균(Weighted Mean)
- 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균
- 산술평균의 확장판, 더 일반화하는 평균. (이라고 하는데, 흠..일반화라는 것은 '전체를 더 잘 반영한다, 전체를 더 잘 대표한다' 이런 의미니까 산술평균보다 가중평균이 전체 자료를 더 잘 대표한다는 걸로 이해하면 되겠다.)
5. 기하평균(Geometric Mean) -> 기하평균은 예시를 더 봐야 알듯
- 자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량
- 음수가 아닌 자료값에서만 사용 가능
- 연간 물가 상승률
기하평균 식
통계량 - 산포
1. 분산(Variance)
- 편차 제곱의 합을 자료의 수로 나눈 값
- 편차 = 각 자료 - 평균
- 제곱을 하는 이유 : 각 자료에서 평균을 빼면 양수도 나올 수 있지만 음수도 나올 수 있잖아. 양수랑 음수랑 더하면 값이 상쇄될테니까 제곱을 해서 다 양수로 만들어준 다음에 더하는 것임.
2. 표준편차(Standard Deviation)
- 분산을 제곱근한 값
- 제곱근을 하는 이유?
: 분산은 편차를 제곱하는 거잖아. 제곱을 하면서 raw data 단위가 왜곡됨. 제곱을 하면서 값이 커지니까! -> raw data로 scale을 다운시켜주는 것
* (n-1) 로 나누는 이유
- 표본 분산, 표본 표준편차이기 때문.
- n-1 로 나눠줘야 모집단을 편향 없이 표현할 수 있다고 함. -> 증명 찾아보기
분산, 표준편차 식
통계량 - 형태
1. 왜도(Skewness)
- 분포의 비대칭도
- 아래 그림에서 보면, 왜도가 양수일 때 mode < median < mean 이런 관계를 갖고 있음
- 왜냐면, mean은 극단값에 영향을 받는 애잖아. 그래서 mean이 큼
-> 그럼 왜도가 음수일 때는..? 이거 이해가 안 되는데. 좀 더 생각을 해보자.
2. 첨도
- 뾰족한 정도
- 표준정규분포의 첨도는 3이 된다.
통계량 - 상관
1. 상관(Correlation)
- 확률변수 X, Y의 변화가 서로 관계가 있을 때 상관관계가 있다고 함
- 선형적 관련성을 파악함
2. 공분산(Covariance)
- X 편차, Y 편차를 곱해주고 데이터 개수만큼 나눠줌
3. 상관계수(Correlation Coefficient) - Pearson 상관계수
- 공분산 / X표준편차 * Y표준편차
- 공분산을 두 변수의 표준편차의 곱으로 나눈 값
- -1 <= r <= +1
- 두 양적 변수 간의 선형적 연관성의 강도 측정 = 이 데이터가 선형적이어야 이 상관계수가 의미가 있다는 말
- 단위가 없음 = 다른 단위로 측정된 변수끼리도 서로 비교가 가능하다!
- 절댓값이 1에 가까울 수록 연관성의 강도가 크다.
확률과 확률변수 : 확률 정의
통계와 확률은 뗄 수 없는 사이임!
통계를 제대로 하기 위해서는 확률, 확률변수에 대해서 제대로 알고 있어야 함.
1. 표본공간(S) : 랜덤한 현상의 모든 가능한 결과의 집합
2. 사건(사상)(Event) : 표본공간의 부분집합
- 사건이 중요한 이유는, 확률이 이 사건에 대해서 정의가 되기 때문. 즉, 확률은 어떤 부분집합에 대해서 정의가 되는 것임.
확률과 확률변수 : 확률 정의
2. 경험적 정의(상대도수)
: 시행을 무한 번 했을 때, 내가 원하는 경우가 전체 결과에서 몇 번 나왔는지 보는 것
- 목적