Ming's Life

[책] 통계101x데이터분석 (3) 본문

[책] 통계101x데이터분석 (3)

chamiii 2025. 7. 1. 12:06

1. 오늘 학습 키워드

  • 통계101x데이터분석

 


 

2. 오늘 학습 한 내용을 나만의 언어로 정리하기

 

 

통계101x데이터분석 6장

 


6장 다양한 가설검정

6-1 다양한 가설검정

🔍 가설검정 방법 구분해 사용하기

  • 어떤 가설검정 방법이든 간에 해석의 기본흐름은 공통이다.
  • 가설검정 방법을 선택할 때는 데이터 유형, 표본의 수, 양적 변수 분포의 성질을 먼저 확인한다.

📌 1. 확인하고 싶은 대상에 따라 귀무가설과 대립가설을 설정한다.

      2. 데이터로 가설검정에 필요한 검정통계량을 계산한다.

      3. 귀무가설이 옳다는 가정하에 통계량의 분포를 생각하고, 데이터로 계산한

          통계량이 분포의 어느 위치에 있는지를 구하여 p값을 계산한다.

 

 데이터 유형

  • 데이터 유형이 양적 변수인지 질적 변수인지에 따라 해석 방법이 달라지니, 먼저 데이터 유형 파악

양적 변수의 성질

  • 데이터에 양적 변수가 있는 경우, 이것이 어떤 분포를 위하는지가 검정 방법을 선택할 때 중요

📌 모수검정 : 모집단이 수학적으로 다룰 수 있는 특정 분포를 따른다는 가정을 둔 가설검정

      정규성 : 데이터가 정규분포로부터 얻어졌다고 간주할 수 있는 성질

      비모수검정 : 평균이나 표준편차 등의 파라미터(모수)에 기반을 두기 않음

 


6-2 대푯값 비교

🔍 모수검정의 평균값 비교

일표본 t검정

  • t검정은 표본이 하나라도 실행 가능
  • 2자기 조건을 비교하는 것이 아니라, 어떤 평균값의 모집단에서 표본은 얻었는가를 조사

📌 귀무가설 "모집단의 평균은 μ=oo이다."

      대립가설 "모집단의 평균은 μ=oo이 아니다."

  • 95% 신뢰구간을 구하는 것과 α=0.05의 유의수준으로 귀무가설을 검정하는 것은 Xˉ 에서 생각할지 귀무가설 μ=oo에서 생각할지의 차이뿐으로, 동전의 양면과 같은 관계

 

이표본 t검정

  • t검정은 모수검정으로 분류되는 검정방법이기 때문에 데이터에 정규성이 있어야한다.
  • 2개의 집단의 평균값을 비교하는 것
  • 분산이 일치하는 않는 경우 웰치의 t검정을 이용

📌 귀무가설 : "2개 집단의 평균값은 같다 (평균값의 차이=0)."

      대립가설 : "2개 집단의 평균값은 다르다 (평균값의 차이 !=0)."

 

 정규성 조사

  • Q-Q 플롯 : 시각적으로 판단
  • 샤피로 - 윌크 검정 : 가설검정으로 조사
  • 콜모고로프 - 스미르노프(K-S) 검정 : 이론적인 분포와 비교

 등분산성 조사

  • 분산이 같다는 가설을 조사하는 검정으로 바틀렛 검정이나 레빈 검정이 있다.

 

🔍 비모수검정의 대푯값 비교

비모수 버전의 2개 표본 개푯값 비교

  • 각 집단 데이터에 정규성이 없는 경우에는 비모수검정으로 분류되는 방법을 사용하는 것이 권장된다.
  • 윌콕슨 순위랍 검정 : 평균값 대신 각 데이터 값의 순위에 기반하여 검정을 실시
  • 맨 - 휘트니 U 검정 : 위와 같은방법이다. 비교할 2개 집단의 분포 모양 자체가 같아야한다.
  • 2개의 모집단을 비교하는 방법으로는 플리그너 - 플리셀로 검정블루너 - 문첼 검정이 있다.

분산분석

  • 3개 이상 집단의 평균값을 비교하는 방법

 

 분산분석의 원리

  • F값 = (평균적인 집단 간 변동) / (평균적인 집단 내 변동)을 계산하여 검정통계량을 만든다.
  • 이 양은 귀무가설이 올바르다는 가정하에, F분포라는 분포를 따른다.

 

📌 자유도라는 개념 알아두기

      자유로이 움직일 수 있는 변수의 수

 

 

🔍 다중비교 검정

  • 집단의 수가 늘어날수록 제1종오류가 일어나기 쉬워진다.
  • 다중성 문제를 회피하고자 다중비교 검정을 이용한다.
  • 기본 아이디어는 검정을 반복하는 만큼, 유의수준을 엄격한 값으로 변경하는 것

 여러 가지 다중비교 방법

  • 본페로니 교정 : 전체에서 유의수준 α를 설정했을 때의 검정 반복 횟수를 K라 하고, 매 검정에서는 α를 감정 횟수로 나눈 값 α/K를 기준으로 가설검정을 하는 방법
  • 튜키 검정 : 분산분석을 시행한 다음에는 본페로니 교정보다 우수한(검정력을 개선한) 방법
  • 던넷 검정 : 대조군과의 비교에만 관심이 있을 때
  • 윌리엄스 검정 : 집단 간에 순위를 매길 수 있는 경우

 

 

3집단 이상의 비모수 검정

  • 크러스컬 - 윌리스 검정 : 정규성이 없는 집단이 1개 이상이라면 분산분석 대신 비모수검정 방법인 해당 검정을 사용 권함
  • 스틸 - 드와드 검정 : 튜키 검정에 상응하는 것
  • 스틸 검정 : 던넷 검정에 상응하는 것

 


6-3 비율 비교

🔍 범주형 데이터

  • 데이터가 동전의 앞면과 뒷면, 주사위의 눈 등과 같은 범주로 나타나는 경우
  • 양적 데이터 : 평균값 등의 통계량을 계산 가능한 값

🔍 이항검정

  • 하나의 범주가 활률 P, 또 하나의 범주가 확률 1-P로 나타나는지를 조사

📌 귀무가설 "앞면이 1/2, 뒷면이 1/2 확률로 나온다. (치우치지 않음)"

      대립가설 "앞면이 1/2, 뒷면이 1/2 확률로 나오지 않는다. (어딘가 치우침이 있음)"

 

🔍 카이제곱검정 : 적합도검정

  • 한 집단의 여러 범주 분포가 기대와 일치하는지 검정할 때 사용

🔍 카이제곱검정 : 독립성검정

  • 두 범주형 변수 간에 관련이 있는지를 검정할 때 사용

 

 

 

 

 

 

 

 

 

'' 카테고리의 다른 글

[책] 통계101x데이터분석 (2)  (0) 2025.06.30
[책] 통계101x데이터분석  (4) 2025.06.26