-
가중치통계/K-MOOC 통계학의 이해Ⅰ 2023. 7. 26. 21:01
오늘 배웠던 강의 목차!
- 통계학이란?
- 모집단과 표본
- 표본추출
- 가중치
- 통계 프로그램 안내 및 과제
- 일변량 자료 기술통계
- 자료의 분류와 특성
- 범주형 자료 정리
일변량 자료에 대한 수치적 기술통계다변량 자료 기술통계- 확률의 기본 개념과 원리
- 확률이란?
- 경우의 수
오늘 배웠던 내용 중에 가중치 개념을 복습하고자 함!
가중치(Weight)
정의
[한자 풀이]
- 加重値 : 더할 가, 중요할 중, 값 치
- 전체에서 가지는 중요성을 높이기 위하여 특정 부분이나 요소에 일정한 수치를 더한 것.
- 근데, 통계학에서는 약간 의미가 다른 것 같다 (내 생각 ㅇㅅㅇ)
[통계학에서 사용되는 의미(내가 이해한 바로는)]
- 한 개의 표본이 얼만큼 중요한지를 나타내는 수치
- 여기서 중요하다는 것의 의미는, 모집단을 얼마나 대표하고 있는지!
- 즉, 한 개의 표본이 몇 개의 모집단을 대표하고 있는지를 의미하는 것이 가중치이다.
특징 및 역할
- 가중치는 표본이 모집단의 특성을 반영할 수 있도록 표본의 중요성을 보정해주는 것. 표본의 중요성을 조정한다!
- 여기서 표본의 중요성이라는 것은, 1개의 표본이 몇 개의 모집단을 대표하는가? 를 의미
종류
- 설계 가중치
- 추출방식에 따라 다름
- 이 게시물에서는 단순확률추출법으로 가정
- 설계 가중치(w1) = 1/추출률 *추출률 = 표본집단 수 / 모집단 수
- N = 모집단의 수
- n = 표본의 수
- 예시) 500명의 학생(모집단) 중에서 100명의 학생(표본)을 추출했다면, 표본 1명의 학생은 모집단 5명 학생을 대표한다고 볼 수 있다. 여기서 추출률은 0.2, 설계 가중치는 추출률의 역수인 5가 된다.
- 무응답에 따른 가중치
- 표본을 뽑아놓고 보니까 표본 중에서도 응답을 일부 또는 전체하지 않은 경우가 있을 수 있음
- 그럴 땐 표본수가 더 작아지는 것 -> 표본 1개 당 대표하는 모집단의 수가 많아짐 == 표본 중요도가 커진다 == 가중치가 커짐
- 응답가중치(w2) = 1/응답률 *응답률 = 응답한 표본 수 / 표본집단 수
- 예시) 100명의 학생을 표본집단으로 추출을 했는데, 확인해보니 50명만 응답을 했다?! 여기서 응답률은 0.5가 되고, 응답가중치는 2가 된다.
- 사후층화를 위한 가중치
- 조사가 다 끝나고 나중에(사후에) 모집단 특성에 대해 새롭게 알려지는 경우. ex) 성별, 나이 등
- 그럼 사후에, 표본집단에 새로운 모집단 톡성을 반영해줘야 할 때가 있음
- 사후가중치(w3) = 1/층화비율 *층화비율(?) = 표본집단에서 해당 특성이 차지하는 비율 / 모집단에서 해당 특성이 차지하는 비율 (*층화비율이라고 표현하는 게 맞는지 모르겠네요)
- 예시) 나중에 알고보니 표본집단의 남성/여성 비율은 50%/50% 인데, 실제 모집단의 남성/여성 비율이 70%:30% 이었다. 이 특성을 표본집단에 반영한다면, 여기서 남자 표본집단의 층화율은 약 0.71(50/70)이고, 따라서 남자 표본집단의 사후가중치는 100/71(약 1.4)
=> 최종 가중치(w4) = w1 × w2 × w3
이 최종 가중치를 표본에 곱해주면, 드디어 표본 1개가 몇 개의 모집단을 대표하는지 보다 정확하게 알 수 있다!
그리고, 응답가중치, 사후가중치를 통해 표본집단에 모집단의 특성을 더 잘 반영시킬 수 있다!
그럼 위 예시에서, 표본집단의 남자의 가중치는 5 × 2 × 1.4 의 결과인 14 !
따라서, 표본집단의 남성 학생은 모집단 남성 학생의 14명을 대표한다고 볼 수 있다.
* 틀린 부분이 있다면 꼭 알려주세요!!
'통계 > K-MOOC 통계학의 이해Ⅰ' 카테고리의 다른 글
확률밀도함수 (0) 2023.07.28 조건부 확률 (0) 2023.07.27 - 통계학이란?