Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- #내일배움캠프 #사전캠프 #til #sql
- 통계학
- 내일배움캠프#til#파이썬#python
- 내일배움캠프#til#파이썬#python#통계학
- 카이제곱검정
- 내일배움캠프#til#데이터 리터러시
- 책
- A/B테스트
- 라이브 세션
- 통계학공부
- 머신러닝
- 이상치 제거
- 제1종오류
- 이상탐지
- 가설검정
- 내일배움캠프#til#sql
- 통계
- 제2종오류
- 내일배움캠프#til#sqld
- 내일배움캠프#til#sqld#eda#데이터리터러시
- 통계101x데이터분석
- t검정
- 딥러닝
- 내일배움캠프#til#파이썬#python#전처리
- vscode
- 데이터분석
- 다중검정
- 데이터
- Ai
- 차원축소
Archives
- Today
- Total
Ming's Life
통계학(카이제곱검정) 본문
1. 오늘 학습 키워드
- 통계학 기초
2. 오늘 학습 한 내용을 나만의 언어로 정리하기
1. 카이제곱검정
1) 카이제곱검정이란 무엇인가?
☑️ 카이제곱검정
- 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)하거나
- 두 범주형 변수 간의 독립성을 검정(독립성 검정)
☑️ 적합도 검정
- 관찰된 분포와 기대된 분포가 일치하는지 검정
- p값이 높으면 데이터가 귀무 가설에 잘 맞음. 즉, 관찰된 데이터와 귀무 가설이 적합
- p값이 낮으면 데이터가 귀무 가설에 잘 맞지 않음. 즉, 관찰된 데이터와 귀무 가설이 부적합
☑️ 독립성 검정
- 두 범주형 변수 간의 독립성을 검정
- p값이 높으면 두 변수 간의 관계가 연관성이 없음 → 독립성이 있음
- p값이 낮으면 두 변수 간의 관계가 연관성이 있음 → 독립성이 없음
2) 카이제곱검정은 어떻게 적용되어질까?
☑️ 범주형 데이터의 분포 확인 및 독립성 확인을 위해 사용
- 주사위의 각 면이 동일한 확률로 나오는지 검정(적합도 검정)
- 성별과 직업 만족도 간의 독립성 검정(독립성 검정)
☑️ 파이썬 실습
# 적합도 검정
observed = [20, 30, 25, 25]
expected = [25, 25, 25, 25]
chi2_stat, p_value = stats.chisquare(observed, f_exp=expected)
print(f"적합도 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}")
# 독립성 검정
observed = np.array([[10, 10, 20], [20, 20, 40]])
chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)
print(f"독립성 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}")
# 성별과 흡연 여부 독립성 검정
observed = np.array([[30, 10], [20, 40]])
chi2_stat, p_value, dof, expected = stats.chi2_contingency(observed)
print(f"독립성 검정 카이제곱 통계량: {chi2_stat}, p-값: {p_value}")
❓ stats.chisquare 함수가 뭔가요?
- scipy.stats.chisquare 함수는 카이제곱 적합도 검정을 수행하여 관찰된 빈도 분포가 기대된 빈도 분포와 일치하는지 평가한다. 이 검정은 주로 단일 표본에 대해 관찰된 빈도가 특정 이론적 분포(예: 균등 분포)와 일치하는지 확인하는 데 사용된다.
- 반환 값
- chi2: 카이제곱 통계량이다.
- p: p-값이다. 이는 관찰된 데이터가 귀무 가설 하에서 발생할 확률이다.
❓ stats.chi2_contingency 함수가 뭔가요?
- scipy.stats.chi2_contingency 함수는 카이제곱 검정을 수행하여 두 개 이상의 범주형 변수 간의 독립성을 검정한다. 이 함수는 관측 빈도를 담고 있는 교차표(contingency table)를 입력으로 받아 카이제곱 통계량, p-값, 자유도, 그리고 기대 빈도(expected frequencies)를 반환한다.
- 반환 값
- chi2 : 카이제곱 통계량이다.
- p : p-값입니다. 이는 관측된 데이터가 귀무 가설 하에서 발생할 확률이다.
- dof : 자유도입니다. 이는 (행의 수 - 1) * (열의 수 - 1)로 계산된다.
- expected : 기대 빈도입니다. 이는 행 합계와 열 합계를 사용하여 계산된 이론적 빈도이다.
'통계학' 카테고리의 다른 글
| 통계학(제 1종 오류와 제2종 오류) (1) | 2025.07.11 |
|---|---|
| 통계학(다중검정) (0) | 2025.07.10 |
| 통계학(t검정) (2) | 2025.07.10 |
| 통계학(가설검정) (0) | 2025.07.10 |
| 통계학(A/B 검정) (1) | 2025.07.10 |