Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- 머신러닝
- 가설검정
- Ai
- 내일배움캠프#til#파이썬#python#전처리
- A/B테스트
- 제1종오류
- 내일배움캠프#til#sql
- 통계
- 내일배움캠프#til#데이터 리터러시
- 이상치 제거
- 통계학
- 이상탐지
- 통계학공부
- #내일배움캠프 #사전캠프 #til #sql
- t검정
- 책
- 라이브 세션
- 데이터
- 내일배움캠프#til#sqld
- 다중검정
- 카이제곱검정
- 내일배움캠프#til#파이썬#python#통계학
- vscode
- 데이터분석
- 통계101x데이터분석
- 내일배움캠프#til#sqld#eda#데이터리터러시
- 딥러닝
- 차원축소
- 내일배움캠프#til#파이썬#python
- 제2종오류
Archives
- Today
- Total
Ming's Life
[책] 통계101x데이터분석 (2) 본문
1. 오늘 학습 키워드
- 통계101x데이터분석
2. 오늘 학습 한 내용을 나만의 언어로 정리하기
통계101x데이터분석 4장 - 5장 내용 요약
4장 추론통계 ~ 신뢰구간
4-1 추론통계를 배우기 전에
🔍 전수조사와 표본조사
- 전수조사 : 모집단의 모든 요소를 조사
- 표본조사 : 모집단의 일부인 표본으로 모집단의 성질을 추정
🔍 데이터를 얻는다는 것
- 모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것
✅ 확률분포와 실현값
- 확률분포와 실현값의 관계는 모집단과 표본의 관계와 매우 비슷하다.
- '모집단 = 확률분포', '표본 = 확률분포를 따르는 실현값'
✅ 데이터로부터 그 발생원의 확률분포 추정하기
- "얻은 표본으로 모집단을 추정한다."라는 원해 목표를 "얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다"라는 목표로 바꾸어 말할 수 있다.
✅ 모집단분포 모형화
- 수학적으로 다룰 수 있는 확률분포에 근사하여 작업을 진행할 수 있게 되어, 모집단의 추정이 용이해진다.
✅ 무작위 추출
- 데이터를 얻을 때 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방식
✅ 데이터 얻는 법
- 모집단에 대해 추정한 결과를 어느 정도 일반화할 수 있는가는, 각 분야 고유의 시직에 따라 달라진다.
✅ 추론통계를 직감적으로 이해하기

4-2 표본오차와 신뢰구간
🔍 모집단과 데이터 사이의 오차 고려하기
- '정말로 알고 싶은 것 = 모집단 평균 μ '
- 모집단의 일부인 크기 n인 표본을 모집단에서 무작위로 추출하여, 이 표본에서 모집단 평균 μ 를 추청
🔍 표본오차
- '정말로 알고 싶은것'과 '실제로 손 안에 있는 데이터'에는 어긋남(오차)이 생긴다.
✅ 큰 수의 법칙
- 표본크기 n이 커질수록 표본평균Xˉ가 모집단평균 μ에 한없이 가까워지는 법칙
🔍 표본오차의 확률분포
- 표본오차의 확률분포를 알면 어느 정도 크기의 오차가, 어느 정도의 학률로 나타나는지를 알 수 있게 된다.
✅ 중심극한정리
- 모집단이 어떤 분포이든 간에, *표본크기 n이 커질수록 표본평균 Xˉ 의 분포는 정규분포로 근사할 수 있다.
* 분산이 무한으로 발산하는 꼬리 부분이 두꺼운 분포는 제외한다.

✅ 추정량
- 모집단의 성질을 추정하는 데 사용하는 통계량
- 비편향 추정량은 매번 얻을 때마다 확률적으로 다른 값이 되지만, 평균으로 보면 모집단의 성질을 과대하지도 과소하지도 않게 나타내는 양을 뜻한다.
- 표본평균은 모집단평균 μ를 평향되지 않게 추정하는 비편향추정량이다.
* 일치추정량 : 표본크기 n을 무한대로 했을 때, 모집단의 성질과 일치하는 추정량
* 비편향추청량 : 추정량의 평균값(기댓값)이 모집단의 성질과 일치할 때의 추정량
🔍 신뢰구간이란 ?
- oo% 신뢰구간 mean "oo%의 확률로 이 구간에 모집단평균 u가 있다.
- 표본에서 구한 모집단 μ의 추정값을 어느 정도 신뢰할 수있는지를 나타낸다.

🔍 t분포와 95% 신뢰구간
- 모집단이 정규분포라는 가정하에 미지의 모집단 표준편차 σ를 표본으로 계산한 비편향표준편차 s로 대용했을 때, Xˉ - μ를 표준오차 s/root(n)로 나누어 표준화한 값이 따르는 분포


✅ 정밀도를 높이려면
- 분자인 비편향표준편차 s를 작게
- 분모인 표본크기 n을 크게
5장 가설검정
5-1 가설검정의 원리
🔍 또 하나의 추론통계 방법
- 데이터에 기반을 둔 통계 가설을 검증하는 방법인 가설검정이 있다.
- 가설검정에는 p값(p-value)이라는 수치를 계산하여 가설을 지지하는지 여부를 판단한다.
* 실험군 : 어떤 조치를 취한 집단
* 대조군 : 실험군과 비교, 대조를 위해 마련한 집단
🔍 통계학에서 가설이란 ?
✅ 귀무가설과 대립가설
- 귀무가설 : 밝히고자 하는 가설의 부정 명제
- 대립가설 : 밝히고 싶은 가설

✅ 모집단과 표본의 관계 다시 살펴보기
- 귀무가설 (모집단 평균이 같다)이 옳다 하더라도 표본평균이 같지 않일 수 있다.
- 표본평균의 파이가 귀무가설이 옳을때도 생기는 단순한 데이터 퍼짐인지 구별 할 필요가 있다.
🔍 p값
- 귀무가설이 옳다고 가정했을 때 관찰한 값(예: 평균값의 차이) 이상으로 극단적인 값이 나올 확률
✅ p값과 유의수준 α를 이용한 가설 판정
- p값이 0.05 이하인 경우, 귀무가설을 기각하고 대립가설을 채택 / "통계적 유의미한 차이가 있다."
- p값이 0.05를 상회하는 경우, 귀무가설을 기각할수 없다. / "통계적으로 유의미한 차이는 발견하지 못했다."

5-2 가설검정 실행
🔍 가설검정의 구체적인 계산
- 가설검정의 개념은 다양한 검정기법에서 공통이지만, p값의 계산방법은 서로 다르다.
✅ 단일표본 t검정 (One-Sample t-test)
- 하나의 집단 평균이 특정 기준값과 다른지 비교
✅ 이표본 t검정 (Two-Sample t-test)
- 서로 독립된 두 집단의 평균 차이 비교
✅ 대응표본 t검정 (Paired t-test)
- 같은 집단에서 전과 후를 비교하거나, 쌍을 이룬 데이터 비교
✅ 기각역과 p 값
- 기각역 : 분산분포의 좌우 2.5%씩의 영역을 유의수준 5%
- p값 : 실제 값이 귀무가설이 옳을 때의 t분포 내 어디에 위치하는지 구한 뒤, 그 이상의 극단적인 값이 나올 확률
* 양측검정 : 양수와 음수 모두 고려한 가설검정 방법
* 단측검정 : 어느 한쪽만 고려해 넓이를 계산하는 방법
5-3 가설검정 관련 그래프
🔍 오차 막대
- 반복이 있는 데이터에서 평균값을 계산하여 막대그래프나 산점도로 그릴때, 평균값에 더하여 그 위아래로 오차 막대를 함께 그린다.

5-4 제 1종 오류와 제 2종 오류
🔍 제 1종 오류
- 실제로는 아무런 차이가 없음에도 차이가 있다고 판단해 버리는 잘못
- 유의수준 α의 값을 미리 정해 둠으로써, 제1종 오류가 일어날 확률을 통제할 수 있는 것
🔍 제 2종 오류
- 정말로 차이가 있는데도 차이가 있다고는 말할 수 없어, 귀무가설을 기각하지 않는 판단을 내려 버리는 것
- 일반적으로는 검정력 1-β를 80%로 설정, β는 α와 달리 직접 통제할수 없다.
🔍 α와 β는 상층 관계
- 한쪽이 작아지면 또 다른 한쪽이 커지는 관계
'책' 카테고리의 다른 글
| [책] 통계101x데이터분석 (3) (1) | 2025.07.01 |
|---|---|
| [책] 통계101x데이터분석 (4) | 2025.06.26 |