통계

DAY1

코딩초보ran 2023. 4. 1. 18:12
메타코드Z 채널에 있는 통계학 기초 이론 영상
  • 목적
    • 통계 기본 지식 함양

통계

- 통계는 데이터의 수집, 분석, 추론, 요약 등의 방법론을 다룬다.

  • Description(요약) : 데이터를 요약 표현하기 위한 시각적, 수치적 방법
    • python DataFrame에 description() 함수 쓰면 데이터프레임 통계값들이 나오잖아. 그런 거 생각하기
  • Inference(추론)
    • 표본에 기반한 모집단에 대한 추론/예측

-> 이번 영상에서는 요약, 추론 내용에 대해서 공부


통계 단어 이해하기

  • 모집단(Population) : 통계학에서 관심/조사의 대상이 되는 개체(=표본집단)의 전체 집합
    • 전체 집합을 다 조사할 수 없기 때문에 표본을 뽑아서 조사를 하고, 표본에서 추출한 통계치를 가지고 모집단의 통계치가 이럴 것이다 라고 추론하는 것. 위의 Inference(추론).
  • 모수(Parameter) : 모집단에 대한 수치적 요약 
    • 고등학생의 1일 평균 온라인게임 플레이 시간
  • 표본(Sample) : 모집단을 적절히 대표하는 집단의 일부 -> 우리가 조사하는 영역
  • 통계량(Statistic) : 표본에 대한 수치적 요약
    • 고등학생 1000명의 1일 평균 온라인게임 플레이 시간 -> 이렇게 전체 중 일부를 의미

결론 : 통계학은 표본에서 추출한 통계량을 통해서 모집단의 모수를 추론하는 것이다!


자료의 종류

1. 범주형 자료 : 속성의 범주화, 상대적 서열

  1. 명목형 자료 : 단순히 속성을 분류하기 위함 (혈액형)
  2. 순서형 자료 : 상대적인 크기 비교 (만족도, 최종학력)

2. 양적 자료 : 자료자체가 숫자로 표현됨

  1. 이산형 자료 : 셀 수 있음 (빈도수, 불량품의 수) - 정수 단위
  2. 연속형 자료 : 셀 수 없음 (길이, 시간) - 소숫점 단위

자료의 종류에 따라 시각화하는 방법, 분석하는 방법이 달라짐. -> 이런 것을 신경쓰는 것도 중요하겠구나!


통계량

  • 데이터의 중심을 표현할 수 있는 통계량에 대해서

1. 최빈값(mode)

- 발생빈도가 가장 높은 값

- 극단값에 영향을 받지 않음. - 극단값이 하나 들어온다고 해서 데이터의 최빈값이 바뀌지는 않음.

- 주로 범주형 자료에 대한 대표값

- 2개 이상 존재 가능

 

2. 중앙값(median)

- 크기 순으로 정렬된 자료에서 가운데에 위치하는 값

- 관측값 변화에 민감하지 않음

- 극단값(이상치)에 영향을 받지 않음

 

3. 산술평균(Arithmetic Mean)

- 모든 자료의 값을 더하여 자료의 수로 나누어 준 값

- 모든 값을 반영하므로 극단값에 영향을 받음

- 각 자료의 가중치가 1임. (가중평균 개념으로 생각해보면)

 

4. 가중평균(Weighted Mean)

- 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균

- 산술평균의 확장판, 더 일반화하는 평균. (이라고 하는데, 흠..일반화라는 것은 '전체를 더 잘 반영한다, 전체를 더 잘 대표한다' 이런 의미니까 산술평균보다 가중평균이 전체 자료를 더 잘 대표한다는 걸로 이해하면 되겠다.)

 

5. 기하평균(Geometric Mean) -> 기하평균은 예시를 더 봐야 알듯

- 자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량

- 음수가 아닌 자료값에서만 사용 가능

- 연간 물가 상승률

기하평균 식


통계량 - 산포

 

1. 분산(Variance)

- 편차 제곱의 합을 자료의 수로 나눈 값

- 편차 = 각 자료 - 평균

- 제곱을 하는 이유 : 각 자료에서 평균을 빼면 양수도 나올 수 있지만 음수도 나올 수 있잖아. 양수랑 음수랑 더하면 값이 상쇄될테니까 제곱을 해서 다 양수로 만들어준 다음에 더하는 것임.

 

2. 표준편차(Standard Deviation)

- 분산을 제곱근한 값

- 제곱근을 하는 이유?

 : 분산은 편차를 제곱하는 거잖아. 제곱을 하면서 raw data 단위가 왜곡됨. 제곱을 하면서 값이 커지니까! -> raw data로 scale을 다운시켜주는 것

 

* (n-1) 로 나누는 이유

- 표본 분산, 표본 표준편차이기 때문.

- n-1 로 나눠줘야 모집단을 편향 없이 표현할 수 있다고 함. -> 증명 찾아보기

 

분산, 표준편차 식


통계량 - 형태

1. 왜도(Skewness)

- 분포의 비대칭도 

- 아래 그림에서 보면, 왜도가 양수일 때 mode < median < mean 이런 관계를 갖고 있음

- 왜냐면, mean은 극단값에 영향을 받는 애잖아. 그래서 mean이 큼

-> 그럼 왜도가 음수일 때는..? 이거 이해가 안 되는데. 좀 더 생각을 해보자.

2. 첨도

- 뾰족한 정도

- 표준정규분포의 첨도는 3이 된다.


통계량 - 상관

1. 상관(Correlation)

- 확률변수 X, Y의 변화가 서로 관계가 있을 때 상관관계가 있다고 함

- 선형적 관련성을 파악함

 

2. 공분산(Covariance)

- X 편차, Y 편차를 곱해주고 데이터 개수만큼 나눠줌

3. 상관계수(Correlation Coefficient) - Pearson 상관계수

- 공분산 / X표준편차 * Y표준편차

- 공분산을 두 변수의 표준편차의 곱으로 나눈 값

- -1 <= r <= +1

- 두 양적 변수 간의 선형적 연관성의 강도 측정 = 이 데이터가 선형적이어야 이 상관계수가 의미가 있다는 말

- 단위가 없음 = 다른 단위로 측정된 변수끼리도 서로 비교가 가능하다!

- 절댓값이 1에 가까울 수록 연관성의 강도가 크다.


확률과 확률변수 : 확률 정의

통계와 확률은 뗄 수 없는 사이임!

통계를 제대로 하기 위해서는 확률, 확률변수에 대해서 제대로 알고 있어야 함.

1. 표본공간(S) : 랜덤한 현상의 모든 가능한 결과의 집합

2. 사건(사상)(Event) : 표본공간의 부분집합

- 사건이 중요한 이유는, 확률이 이 사건에 대해서 정의가 되기 때문. 즉, 확률은 어떤 부분집합에 대해서 정의가 되는 것임.


확률과 확률변수 : 확률 정의

2. 경험적 정의(상대도수)

: 시행을 무한 번 했을 때, 내가 원하는 경우가 전체 결과에서 몇 번 나왔는지 보는 것