Ming's Life

[책] 통계101x데이터분석 (2) 본문

[책] 통계101x데이터분석 (2)

chamiii 2025. 6. 30. 17:35

1. 오늘 학습 키워드

  • 통계101x데이터분석

 


 

2. 오늘 학습 한 내용을 나만의 언어로 정리하기

 

통계101x데이터분석 4장 - 5장 내용 요약

 


4장 추론통계 ~ 신뢰구간

4-1 추론통계를 배우기 전에

🔍 전수조사와 표본조사

  • 전수조사 : 모집단의 모든 요소를 조사
  • 표본조사 : 모집단의 일부인 표본으로 모집단의 성질을 추정

🔍 데이터를 얻는다는 것

  • 모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것

 확률분포와 실현값

  • 확률분포와 실현값의 관계는 모집단과 표본의 관계와 매우 비슷하다.
  • '모집단 = 확률분포', '표본 = 확률분포를 따르는 실현값'

 데이터로부터 그 발생원의 확률분포 추정하기

  • "얻은 표본으로 모집단을 추정한다."라는 원해 목표를 "얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다"라는 목표로 바꾸어 말할 수 있다.

 모집단분포 모형화

  • 수학적으로 다룰 수 있는 확률분포에 근사하여 작업을 진행할 수 있게 되어, 모집단의 추정이 용이해진다.

 무작위 추출

  • 데이터를 얻을 때 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방식

데이터 얻는 법

  • 모집단에 대해 추정한 결과를 어느 정도 일반화할 수 있는가는, 각 분야 고유의 시직에 따라 달라진다.

 추론통계를 직감적으로 이해하기

 


4-2 표본오차와 신뢰구간

🔍 모집단과 데이터 사이의 오차 고려하기

  • '정말로 알고 싶은 것 = 모집단 평균 μ '
  • 모집단의 일부인 크기 n인 표본을 모집단에서 무작위로 추출하여, 이 표본에서 모집단 평균 μ 를 추청

🔍 표본오차

  • '정말로 알고 싶은것'과 '실제로 손 안에 있는 데이터'에는 어긋남(오차)이 생긴다.

 큰 수의 법칙

  • 표본크기 n이 커질수록 표본평균Xˉ가 모집단평균 μ에 한없이 가까워지는 법칙

🔍 표본오차의 확률분포

  • 표본오차의 확률분포를 알면 어느 정도 크기의 오차가, 어느 정도의 학률로 나타나는지를 알 수 있게 된다.

 중심극한정리

  • 모집단이 어떤 분포이든 간에, *표본크기 n이 커질수록 표본평균 Xˉ 의 분포는 정규분포로 근사할 수 있다.

* 분산이 무한으로 발산하는 꼬리 부분이 두꺼운 분포는 제외한다.

 

 추정량

  • 모집단의 성질을 추정하는 데 사용하는 통계량
  • 비편향 추정량은 매번 얻을 때마다 확률적으로 다른 값이 되지만, 평균으로 보면 모집단의 성질을 과대하지도 과소하지도 않게 나타내는 양을 뜻한다.
  • 표본평균은 모집단평균 μ를 평향되지 않게 추정하는 비편향추정량이다.

* 일치추정량 : 표본크기 n을 무한대로 했을 때, 모집단의 성질과 일치하는 추정량

* 비편향추청량 : 추정량의 평균값(기댓값)이 모집단의 성질과 일치할 때의 추정량

 

🔍 신뢰구간이란 ? 

  • oo% 신뢰구간 mean "oo%의 확률로 이 구간에 모집단평균 u가 있다.
  • 표본에서 구한 모집단 μ의 추정값을 어느 정도 신뢰할 수있는지를 나타낸다.

 

🔍 t분포와 95% 신뢰구간

  • 모집단이 정규분포라는 가정하에 미지의 모집단 표준편차 σ를 표본으로 계산한 비편향표준편차 s로 대용했을 때, Xˉ - μ를 표준오차 s/root(n)로 나누어 표준화한 값이 따르는 분포

 

 정밀도를 높이려면

  • 분자인 비편향표준편차 s를 작게
  • 분모인 표본크기 n을 크게

 


5장 가설검정

5-1 가설검정의 원리

🔍 또 하나의 추론통계 방법

  • 데이터에 기반을 둔 통계 가설을 검증하는 방법인 가설검정이 있다.
  • 가설검정에는 p값(p-value)이라는 수치를 계산하여 가설을 지지하는지 여부를 판단한다.

* 실험군 : 어떤 조치를 취한 집단

* 대조군 : 실험군과 비교, 대조를 위해 마련한 집단

🔍 통계학에서 가설이란 ?

 귀무가설과 대립가설

  • 귀무가설 : 밝히고자 하는 가설의 부정 명제
  • 대립가설 : 밝히고 싶은 가설

 

 

 모집단과 표본의 관계 다시 살펴보기

  • 귀무가설 (모집단 평균이 같다)이 옳다 하더라도 표본평균이 같지 않일 수 있다.
  • 표본평균의 파이가 귀무가설이 옳을때도 생기는 단순한 데이터 퍼짐인지 구별 할 필요가 있다.

🔍 p값

  • 귀무가설이 옳다고 가정했을 때 관찰한 값(예: 평균값의 차이) 이상으로 극단적인 값이 나올 확률

p값과 유의수준 α를 이용한 가설 판정

  • p값이 0.05 이하인 경우, 귀무가설을 기각하고 대립가설을 채택 / "통계적 유의미한 차이가 있다."
  • p값이 0.05를 상회하는 경우, 귀무가설을 기각할수 없다. / "통계적으로 유의미한 차이는 발견하지 못했다."

 

 


5-2 가설검정 실행

🔍 가설검정의 구체적인 계산

  • 가설검정의 개념은 다양한 검정기법에서 공통이지만, p값의 계산방법은 서로 다르다.

단일표본 t검정 (One-Sample t-test)

  • 하나의 집단 평균이 특정 기준값과 다른지 비교

이표본 t검정 (Two-Sample t-test)

  • 서로 독립된 두 집단의 평균 차이 비교

대응표본 t검정 (Paired t-test)

  • 같은 집단에서 전과 후를 비교하거나, 쌍을 이룬 데이터 비교

기각역과 p 값

  • 기각역 : 분산분포의 좌우 2.5%씩의 영역을 유의수준 5%
  • p값 : 실제 값이 귀무가설이 옳을 때의 t분포 내 어디에 위치하는지 구한 뒤, 그 이상의 극단적인 값이 나올 확률

* 양측검정 : 양수와 음수 모두 고려한 가설검정 방법

* 단측검정 : 어느 한쪽만 고려해 넓이를 계산하는 방법

 

 


5-3 가설검정 관련 그래프

🔍 오차 막대

  • 반복이 있는 데이터에서 평균값을 계산하여 막대그래프나 산점도로 그릴때, 평균값에 더하여 그 위아래로 오차 막대를 함께 그린다.

 

 


5-4 제 1종 오류와 제 2종 오류

🔍 제 1종 오류

  • 실제로는 아무런 차이가 없음에도 차이가 있다고 판단해 버리는 잘못
  • 유의수준 α의 값을 미리 정해 둠으로써, 제1종 오류가 일어날 확률을 통제할 수 있는 것

🔍 제 2종 오류

  • 정말로 차이가 있는데도 차이가 있다고는 말할 수 없어, 귀무가설을 기각하지 않는 판단을 내려 버리는 것
  • 일반적으로는 검정력 1-β를 80%로 설정, β는 α와 달리 직접 통제할수 없다.

🔍  α와 β는 상층 관계

  • 한쪽이 작아지면 또 다른 한쪽이 커지는 관계

 

 

'' 카테고리의 다른 글

[책] 통계101x데이터분석 (3)  (1) 2025.07.01
[책] 통계101x데이터분석  (4) 2025.06.26