Ming's Life

[책] 통계101x데이터분석 본문

[책] 통계101x데이터분석

chamiii 2025. 6. 26. 16:30

1. 오늘 학습 키워드

  • 통계101x데이터분석

 


 

2. 오늘 학습 한 내용을 나만의 언어로 정리하기

 

오늘부터 통계x데이터분석 책을 읽으며 통계학 복습을 하려고한다.

 

읽으면서 계속 수정해가며 업로드 예정이다.

 


1장 통계학이란 ?

1-1  데이터를 분석하다.

🔍데이터와 통계학

  • 대상을 관찰하고 측정함으로써, 그 대상의 정보, 즉 '데이터'를 얻을 수 있다.
  • 데이터는 수치의 *모음으로, 막연히 바라보기만 해서는 무엇인지 제대로 알 수 없다.

* 문자로 이루어진 데이터

 

🔍데이터 분석의 목적

' 데이터 분석의 목적은 무엇인가?'

 

목적 1) 데이터 요약

  • 데이터를 요약하고 정리할 방법이 필요하다.

목적 2) 대상 설명

  • "대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해한다."

설명에는 수준이 있다.

  • 데이터 분석에서 말하는 관계성은 인과관계와 상관관계가 있다.
  • 인과관계 : 2가지 중 하나를 변화시키면, 다른 하나(결과)도 바꿀 수 있는 관계를 말한다.
  • 상관관계 : 한쪽이 크면 다른 한쪽도 큰(또는 한쪽이 크면 다른 한쪽은 작은) 관계를 말한다.

목적 3) 미지의 데이터 예측

  • 미지의 데이터 예측이란 이미 얻은 데이터를 기반으로, 이후 새롭게 얻을 데이터를 예측하는 것을 말한다.

1-2 통계학의 역활

🔍 통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다

  • 데이터 분석에서 통계학의 중요한 역할은, 퍼짐(산포, dispersion)이 있는 데이터에 대해 설명이나 예측을 하는것이다.

확률을 사용하자

  • 근거가 되는 것이 데이터 퍼짐이나 불확실성을 확률로 타나내는 확률론

1-3 통계학의 전체 모습

🔍 기술통계와 추론통계

  • 기술통계(descriptive statistics) : 수집한 데이터를 정리하고 요약하는 방법
  • 추론통계(inferential statistics) : 수집한 데이터로부터 데이터의 발생원을 추정하는 방법

  확률 모형

  • 데이터가 비교적 단순한 확률장치에서 생성되었다고 가정, 이런 확률 장치를 확률 모형이라 한다.
  • 불확실성을 확률로써 계량하기 위해 확률함수로써 수학적으로 만든 모형
  • 그러한 함수에 쓰인 계수들을 모수(parameter)라고 부른다.

* 모수 : 모집단의 특성치(예: 평균값)를 일컫는 용어

* 특정 주사위(대상)의 성질을 알고 싶지만, 관측할 수 있는 것은 나온 눈을 기록한 데이터 뿐이다.

   각 눈이 나올 확률을 나타내는 확률 모형에서 데이터가 생성된다고 가정하고, 데이터로부터 확률 모형의 성질을 추청하게 된다.

 

통계적 추론과 가설검정

  • 통계적 추론(statistical inference) : 데이터에서 가정한 확률 모형의 성질을 추정하는 방법
  • 가설검정(statistical test) : 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법

🔍 다양한 분석 방법

  • 데이터 유형이나 변수(특정 속성의 데이터)의 개수, 가정하는 확률 모형 등에 따라 이용하는 방법이 다르기 때문에 다양한 분석 방법이 있다.

 


 

2장 모집단과 표본

2-1 데이터분석의 목적과 알고자 하는 대상

🔍 데이터 분석의 목적

  • 구체적인 데이터 분석 목적을 정하는 것이 중요한 첫 단계이다.

데이터 목적 사례

-  신약의 효과 유무와 효과의 크기를 알고 싶다.

-  소득과 행복도 사이에 어떤 관계가 있는지 알고 싶다.

-  기온으로부터 올해 농작물 수확량을 예측하고 싶다.

 

🔍 알고자 하는 대상

  • 알고자 하는 대상을 명확히하는 것이 중요하다.

2-2 모집단

🔍 모집단을 생각하다

  • 통계학에서는 알고자 하는 대상 전체를 모집단이라고 한다.
  • '지금 알고자 하는 대상은 무엇인지' 그리고 '무엇을 모집단으로 설정할 것인지'의 문제에는 항상 주의를 기울여야한다.

🔍 모집단 크기

  • 모집단에 포함된 요소(element)의  수를 모집단 크기라 한다.
  • 크기에 따라 유한모집단과 무한모집단으로 나눌 수 있다.

✅ 유한 모집단

  • 모집단 중 한정된 요소만 포함한 것

 무한 모집단

  • 모집단 중 포함된 요소의 개수가 무한한 것

2-3 모집단의 성질을 알다

🔍 모집단의 성질

  • 모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고, 미지의 데이터를 예측할 수도 있게 된다.

모집단 성질의 예

-  한국인 남성의 평균 키는 172.5cm이다.

-  한국인 여성 평균 키는 159.6cm이다.

-  신약을 복용한 사람의 최고 혈압 평균은 120mmHg이다.

 

🔍 전수조사

  • 모집단에 포함된 모든 요소를 조사
  • 모집단에 포함된 요소의 개수가 한정된, 유한모집단일 때 선택할 수 있는 조사 방법
  • ' 분석할 데이터 = 모집단 '
  • 데이터 그 자체의 특징을 기술하고 요약하는 것을 기술통계

전수 조사의 어려움

  • 전수조사를 실시하려면 비용이나 시간 면에서 부담이 막대하여 실현 불가능할 때가 대부분이다.

🔍 표본조사

  • 모집단의 일부를 분석하여 모집단 전체릐 성질을 추정하는 추론통계
  • 표본(sample) : 추론통계에서 조사하는 모집단의 일부
  • 표본 추출(sampling) : 모집단에서 표본을 뽑는 것
  • 표본조사 : 표본을 이용해 모집단의 성질을 조사하는 것

알아 둘 내용

-  대상을 설명(이해)하고 예측하기 위해서는 모집단의 성질을 알아야 한다.

-  일반적으로는 모집단을 대상으로 한 전수조사는 어렵다.

-  표본을 조사하면 모집단의 성질을 추정할 수 있다.

 

🔍 표본크기(sample size)

  • 표본에 포함된 요소의 개수
  • 모집단의 성질을 추정할 때의 확실성이나 가설검정의 결과에도 영향을 끼치기 때문에, 통계분석에 있어 중요한 요소 중 하나이다.

 


3장 통계분석의 기초

3-1 데이터 유형

🔍 변수

  • 공통의 측정 방법으로 얻은 같은 성질의 값
  • 변수의 개수는 '차원' 이라 표현되기도 한다.

🔍 다양한 데이터 유형

  • 데이터를 수집할 때나 분석을 실행할 때는 변수가 어떤 유형인지 주의 깊게 고려하는 것이 중요

양적 변수(수치형 변수)

  • 숫자로 나타낼 수 있는 변수
  • 이산형 : 얻을 수 있는 값이 점점이 있는 변수를 이상형 양적 변수(이산변수)라 한다.
  • 연속형 : 간격 없이 이어지는 값으로 나타낼수 있는 변수를 연속형 양적 변수(연속변수)라 한다.

질적 변수(범주형 변수)

  • 숫자가 아닌 범주로 변수를 나타낼 때

 


3-2 데이터 분포

🔍 그림으로 데이터 분포 표현하기

  • '데이터가 어떻게 분포되어있는지' 를 그래프 등으로 시각화하여, 대략적인 데이터 경향을 파악하는 것
  • 데이터 분석의 첫 단계

 

📌 연속변수의 히스토그램에서 주의할 점

-   데이터에 따른 적잘한 구간촉을 결정해야한다.

-   공식으로는 '스터지스 공식' 등 있지만 '올바른 구간폭'이란 존재하지 않는다.

 

 


3-3 통계량

🔍 데이터 특정 짓기

  • 데이터 그 자체의 성질을 기술하고 요약하는 통계량을, 기술 통계량 또는 요약 통계량이라 부른다.

📌 대표적인 기술통계량

  • 대푯값 : 평균값, 중앙값, 최빈값
  • 데이터 퍼짐 정도를 나타내는 값 : 분산, 표준편차

 

대표값

  • 대략적인 분포 위치, 즉 대표적인 값을 정량화하기 위해 사용하는 통계량

평균값(mean) 

중앙값(median) : 크기의 순으로 값을 정렬했을때 한가운데 위치한 값

최빈값(mode) : 데이터 중 가장 자주 나타나느 값

 

 분산과 표준편차

  • 분포의 폭, 다시 말해 데이터가 '어느 정도 퍼져있는지(흩어져 있는지)' 를 파악하는 것이 좋다.
  • 분산(variance)
  • 표준편차(standard deviation, S.D.)

* 표본을 평가한다는 점을 강조하여 표본분산(sample variance)이나 표본표준편차(sample standard deviation)라 부른다.

  • 표본 분산 : 표본의 각 값과 표본평균이 어느 정도 떨어져 있는지 평가하는 것
  • 표본표준편차 : s, 표본 분산의 제곱근을 취한 값

 

분포를 시각화하는 다양한 방법

 

 

🔍 이상값

  • 명확한 정의는 없으나, 평균값에서 표준편차의 2배 또는 3배 이상 벗어난 숫자

 


 

3-4 확률

🔍 확률의 기본 사고방식

  • 확률이란, '(발생여부) 불확실한 사건의 발생 가능성을 숫자로 표현한 것'

확률변수

  • 무작위 실험의 결과를 수치로 나타낸 변수 즉, 어떤 불확실한 사건의 결과에 숫자를 부여한 것
  • 확률변수가 실제로 취하는 값을 실현값이라 한다.

✅ 확률분포

  • 가로축에 확률변수를, 세로축에 그 확률변수의 발생 가능성을 표시한 분포
  • 확률밀도함수: 연속형 변수의 확률 계산 함수

🔍 추론통계와 확률분포

  • '모집단과 표본 데이터'처럼 다루기 어려운 대상이 '확률분포와 그 실현값'처럼 다룰 수 있는 대상으로 치환

 

기댓값

  • '변수가 확률적으로 얼마나 발생하기 쉬운가'를 평균적인 값으로 나타낸 값

 

분산과 표준 편차

 

📌 분산, 표준편차의 성질

  • 0 이상일 것
  • 모두 같은 값이 나타나는 경우에는 0
  • 기댓값이 떨어진 값이 많을수록 커짐

 왜도와 첨도

  • 왜도 : 분포가 좌우대팅에서 어느 정도 벗어났는지
  • 첨도 : 분포가 얼마나 뾰족한지와 그래프의 꼬리가 차지하는 비율이 얼마인지

🔍 확률변수가 2개일 때

  • 동시확률분포 P(X, Y) : 확률변수 2개를 동시에 생각할 때의 확률분포
  • 독립 : P(X, Y) = P(X)xP(Y)

 조건부확률

  • 한쪽 확률변수 Y의 정보가 주어졌을 떄, 다른 한쪽 확률변수 X의 확률
  • 조건부확률 P(X|Y)

 


3-5 이론적인 확률분포

🔍 확률분포와 파라미터

  • 이론적인 확률분포는 수식으로 표현되며, 분포의 형태를 정하는 숫자인 파라미터(parameter, 모수)를 가진다.

🔍 정규분포

  • 통계학에서 자주 등장한다.
  • 다른말로 가우스 분포(Gaussian distribution)
  • 평균 μ(뮤)와 표준편차 σ(시그마)라는 2개의 파라미터로 정해진다.

  • 평균과 표준편차를 달리한 정규분포

🔍 표준화

  • 확률변수 x 또는 데이터의 평균과 표준편차를 이용하여 다음과 같이 계산하면 평균 0, 표준편차 1로 변환할 수 있다.

  • 이를 표준화(standardizing, nomalizing)라 하며, 변화된 새로운 값을 z값이라 한다.

 

 

'' 카테고리의 다른 글

[책] 통계101x데이터분석 (3)  (1) 2025.07.01
[책] 통계101x데이터분석 (2)  (0) 2025.06.30