ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • DAY1
    통계 2023. 4. 1. 18:12
    메타코드Z 채널에 있는 통계학 기초 이론 영상
    • 목적
      • 통계 기본 지식 함양

    통계

    - 통계는 데이터의 수집, 분석, 추론, 요약 등의 방법론을 다룬다.

    • Description(요약) : 데이터를 요약 표현하기 위한 시각적, 수치적 방법
      • python DataFrame에 description() 함수 쓰면 데이터프레임 통계값들이 나오잖아. 그런 거 생각하기
    • Inference(추론)
      • 표본에 기반한 모집단에 대한 추론/예측

    -> 이번 영상에서는 요약, 추론 내용에 대해서 공부


    통계 단어 이해하기

    • 모집단(Population) : 통계학에서 관심/조사의 대상이 되는 개체(=표본집단)의 전체 집합
      • 전체 집합을 다 조사할 수 없기 때문에 표본을 뽑아서 조사를 하고, 표본에서 추출한 통계치를 가지고 모집단의 통계치가 이럴 것이다 라고 추론하는 것. 위의 Inference(추론).
    • 모수(Parameter) : 모집단에 대한 수치적 요약 
      • 고등학생의 1일 평균 온라인게임 플레이 시간
    • 표본(Sample) : 모집단을 적절히 대표하는 집단의 일부 -> 우리가 조사하는 영역
    • 통계량(Statistic) : 표본에 대한 수치적 요약
      • 고등학생 1000명의 1일 평균 온라인게임 플레이 시간 -> 이렇게 전체 중 일부를 의미

    결론 : 통계학은 표본에서 추출한 통계량을 통해서 모집단의 모수를 추론하는 것이다!


    자료의 종류

    1. 범주형 자료 : 속성의 범주화, 상대적 서열

    1. 명목형 자료 : 단순히 속성을 분류하기 위함 (혈액형)
    2. 순서형 자료 : 상대적인 크기 비교 (만족도, 최종학력)

    2. 양적 자료 : 자료자체가 숫자로 표현됨

    1. 이산형 자료 : 셀 수 있음 (빈도수, 불량품의 수) - 정수 단위
    2. 연속형 자료 : 셀 수 없음 (길이, 시간) - 소숫점 단위

    자료의 종류에 따라 시각화하는 방법, 분석하는 방법이 달라짐. -> 이런 것을 신경쓰는 것도 중요하겠구나!


    통계량

    • 데이터의 중심을 표현할 수 있는 통계량에 대해서

    1. 최빈값(mode)

    - 발생빈도가 가장 높은 값

    - 극단값에 영향을 받지 않음. - 극단값이 하나 들어온다고 해서 데이터의 최빈값이 바뀌지는 않음.

    - 주로 범주형 자료에 대한 대표값

    - 2개 이상 존재 가능

     

    2. 중앙값(median)

    - 크기 순으로 정렬된 자료에서 가운데에 위치하는 값

    - 관측값 변화에 민감하지 않음

    - 극단값(이상치)에 영향을 받지 않음

     

    3. 산술평균(Arithmetic Mean)

    - 모든 자료의 값을 더하여 자료의 수로 나누어 준 값

    - 모든 값을 반영하므로 극단값에 영향을 받음

    - 각 자료의 가중치가 1임. (가중평균 개념으로 생각해보면)

     

    4. 가중평균(Weighted Mean)

    - 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균

    - 산술평균의 확장판, 더 일반화하는 평균. (이라고 하는데, 흠..일반화라는 것은 '전체를 더 잘 반영한다, 전체를 더 잘 대표한다' 이런 의미니까 산술평균보다 가중평균이 전체 자료를 더 잘 대표한다는 걸로 이해하면 되겠다.)

     

    5. 기하평균(Geometric Mean) -> 기하평균은 예시를 더 봐야 알듯

    - 자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량

    - 음수가 아닌 자료값에서만 사용 가능

    - 연간 물가 상승률

    기하평균 식


    통계량 - 산포

     

    1. 분산(Variance)

    - 편차 제곱의 합을 자료의 수로 나눈 값

    - 편차 = 각 자료 - 평균

    - 제곱을 하는 이유 : 각 자료에서 평균을 빼면 양수도 나올 수 있지만 음수도 나올 수 있잖아. 양수랑 음수랑 더하면 값이 상쇄될테니까 제곱을 해서 다 양수로 만들어준 다음에 더하는 것임.

     

    2. 표준편차(Standard Deviation)

    - 분산을 제곱근한 값

    - 제곱근을 하는 이유?

     : 분산은 편차를 제곱하는 거잖아. 제곱을 하면서 raw data 단위가 왜곡됨. 제곱을 하면서 값이 커지니까! -> raw data로 scale을 다운시켜주는 것

     

    * (n-1) 로 나누는 이유

    - 표본 분산, 표본 표준편차이기 때문.

    - n-1 로 나눠줘야 모집단을 편향 없이 표현할 수 있다고 함. -> 증명 찾아보기

     

    분산, 표준편차 식


    통계량 - 형태

    1. 왜도(Skewness)

    - 분포의 비대칭도 

    - 아래 그림에서 보면, 왜도가 양수일 때 mode < median < mean 이런 관계를 갖고 있음

    - 왜냐면, mean은 극단값에 영향을 받는 애잖아. 그래서 mean이 큼

    -> 그럼 왜도가 음수일 때는..? 이거 이해가 안 되는데. 좀 더 생각을 해보자.

    2. 첨도

    - 뾰족한 정도

    - 표준정규분포의 첨도는 3이 된다.


    통계량 - 상관

    1. 상관(Correlation)

    - 확률변수 X, Y의 변화가 서로 관계가 있을 때 상관관계가 있다고 함

    - 선형적 관련성을 파악함

     

    2. 공분산(Covariance)

    - X 편차, Y 편차를 곱해주고 데이터 개수만큼 나눠줌

    3. 상관계수(Correlation Coefficient) - Pearson 상관계수

    - 공분산 / X표준편차 * Y표준편차

    - 공분산을 두 변수의 표준편차의 곱으로 나눈 값

    - -1 <= r <= +1

    - 두 양적 변수 간의 선형적 연관성의 강도 측정 = 이 데이터가 선형적이어야 이 상관계수가 의미가 있다는 말

    - 단위가 없음 = 다른 단위로 측정된 변수끼리도 서로 비교가 가능하다!

    - 절댓값이 1에 가까울 수록 연관성의 강도가 크다.


    확률과 확률변수 : 확률 정의

    통계와 확률은 뗄 수 없는 사이임!

    통계를 제대로 하기 위해서는 확률, 확률변수에 대해서 제대로 알고 있어야 함.

    1. 표본공간(S) : 랜덤한 현상의 모든 가능한 결과의 집합

    2. 사건(사상)(Event) : 표본공간의 부분집합

    - 사건이 중요한 이유는, 확률이 이 사건에 대해서 정의가 되기 때문. 즉, 확률은 어떤 부분집합에 대해서 정의가 되는 것임.


    확률과 확률변수 : 확률 정의

    2. 경험적 정의(상대도수)

    : 시행을 무한 번 했을 때, 내가 원하는 경우가 전체 결과에서 몇 번 나왔는지 보는 것

     

Designed by Tistory.