[책] 통계101x데이터분석

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Ming's Life

[책] 통계101x데이터분석 본문

책

[책] 통계101x데이터분석

chamiii 2025. 6. 26. 16:30

1. 오늘 학습 키워드

통계101x데이터분석

2. 오늘 학습 한 내용을 나만의 언어로 정리하기

오늘부터 통계x데이터분석 책을 읽으며 통계학 복습을 하려고한다.

읽으면서 계속 수정해가며 업로드 예정이다.

1장 통계학이란 ?

1-1 데이터를 분석하다.

🔍데이터와 통계학

대상을 관찰하고 측정함으로써, 그 대상의 정보, 즉 '데이터'를 얻을 수 있다.
데이터는 수치의 *모음으로, 막연히 바라보기만 해서는 무엇인지 제대로 알 수 없다.

* 문자로 이루어진 데이터

🔍데이터 분석의 목적

' 데이터 분석의 목적은 무엇인가?'

목적 1) 데이터 요약

데이터를 요약하고 정리할 방법이 필요하다.

목적 2) 대상 설명

"대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해한다."

✅ 설명에는 수준이 있다.

데이터 분석에서 말하는 관계성은 인과관계와 상관관계가 있다.
인과관계 : 2가지 중 하나를 변화시키면, 다른 하나(결과)도 바꿀 수 있는 관계를 말한다.
상관관계 : 한쪽이 크면 다른 한쪽도 큰(또는 한쪽이 크면 다른 한쪽은 작은) 관계를 말한다.

목적 3) 미지의 데이터 예측

미지의 데이터 예측이란 이미 얻은 데이터를 기반으로, 이후 새롭게 얻을 데이터를 예측하는 것을 말한다.

1-2 통계학의 역활

🔍 통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다

데이터 분석에서 통계학의 중요한 역할은, 퍼짐(산포, dispersion)이 있는 데이터에 대해 설명이나 예측을 하는것이다.

✅ 확률을 사용하자

근거가 되는 것이 데이터 퍼짐이나 불확실성을 확률로 타나내는 확률론

1-3 통계학의 전체 모습

🔍 기술통계와 추론통계

기술통계(descriptive statistics) : 수집한 데이터를 정리하고 요약하는 방법
추론통계(inferential statistics) : 수집한 데이터로부터 데이터의 발생원을 추정하는 방법

✅ 확률 모형

데이터가 비교적 단순한 확률장치에서 생성되었다고 가정, 이런 확률 장치를 확률 모형이라 한다.
불확실성을 확률로써 계량하기 위해 확률함수로써 수학적으로 만든 모형
그러한 함수에 쓰인 계수들을 모수(parameter)라고 부른다.

* 모수 : 모집단의 특성치(예: 평균값)를 일컫는 용어

* 특정 주사위(대상)의 성질을 알고 싶지만, 관측할 수 있는 것은 나온 눈을 기록한 데이터 뿐이다.

각 눈이 나올 확률을 나타내는 확률 모형에서 데이터가 생성된다고 가정하고, 데이터로부터 확률 모형의 성질을 추청하게 된다.

✅ 통계적 추론과 가설검정

통계적 추론(statistical inference) : 데이터에서 가정한 확률 모형의 성질을 추정하는 방법
가설검정(statistical test) : 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법

🔍 다양한 분석 방법

데이터 유형이나 변수(특정 속성의 데이터)의 개수, 가정하는 확률 모형 등에 따라 이용하는 방법이 다르기 때문에 다양한 분석 방법이 있다.

2장 모집단과 표본

2-1 데이터분석의 목적과 알고자 하는 대상

🔍 데이터 분석의 목적

구체적인 데이터 분석 목적을 정하는 것이 중요한 첫 단계이다.

데이터 목적 사례

- 신약의 효과 유무와 효과의 크기를 알고 싶다.

- 소득과 행복도 사이에 어떤 관계가 있는지 알고 싶다.

- 기온으로부터 올해 농작물 수확량을 예측하고 싶다.

🔍 알고자 하는 대상

알고자 하는 대상을 명확히하는 것이 중요하다.

2-2 모집단

🔍 모집단을 생각하다

통계학에서는 알고자 하는 대상 전체를 모집단이라고 한다.
'지금 알고자 하는 대상은 무엇인지' 그리고 '무엇을 모집단으로 설정할 것인지'의 문제에는 항상 주의를 기울여야한다.

🔍 모집단 크기

모집단에 포함된 요소(element)의 수를 모집단 크기라 한다.
크기에 따라 유한모집단과 무한모집단으로 나눌 수 있다.

✅ 유한 모집단

모집단 중 한정된 요소만 포함한 것

✅ 무한 모집단

모집단 중 포함된 요소의 개수가 무한한 것

2-3 모집단의 성질을 알다

🔍 모집단의 성질

모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고, 미지의 데이터를 예측할 수도 있게 된다.

모집단 성질의 예

- 한국인 남성의 평균 키는 172.5cm이다.

- 한국인 여성 평균 키는 159.6cm이다.

- 신약을 복용한 사람의 최고 혈압 평균은 120mmHg이다.

🔍 전수조사

모집단에 포함된 모든 요소를 조사
모집단에 포함된 요소의 개수가 한정된, 유한모집단일 때 선택할 수 있는 조사 방법
' 분석할 데이터 = 모집단 '
데이터 그 자체의 특징을 기술하고 요약하는 것을 기술통계

✅ 전수 조사의 어려움

전수조사를 실시하려면 비용이나 시간 면에서 부담이 막대하여 실현 불가능할 때가 대부분이다.

🔍 표본조사

모집단의 일부를 분석하여 모집단 전체릐 성질을 추정하는 추론통계
표본(sample) : 추론통계에서 조사하는 모집단의 일부
표본 추출(sampling) : 모집단에서 표본을 뽑는 것
표본조사 : 표본을 이용해 모집단의 성질을 조사하는 것

알아 둘 내용

- 대상을 설명(이해)하고 예측하기 위해서는 모집단의 성질을 알아야 한다.

- 일반적으로는 모집단을 대상으로 한 전수조사는 어렵다.

- 표본을 조사하면 모집단의 성질을 추정할 수 있다.

🔍 표본크기(sample size)

표본에 포함된 요소의 개수
모집단의 성질을 추정할 때의 확실성이나 가설검정의 결과에도 영향을 끼치기 때문에, 통계분석에 있어 중요한 요소 중 하나이다.

3장 통계분석의 기초

3-1 데이터 유형

🔍 변수

공통의 측정 방법으로 얻은 같은 성질의 값
변수의 개수는 '차원' 이라 표현되기도 한다.

🔍 다양한 데이터 유형

데이터를 수집할 때나 분석을 실행할 때는 변수가 어떤 유형인지 주의 깊게 고려하는 것이 중요

✅양적 변수(수치형 변수)

숫자로 나타낼 수 있는 변수
이산형 : 얻을 수 있는 값이 점점이 있는 변수를 이상형 양적 변수(이산변수)라 한다.
연속형 : 간격 없이 이어지는 값으로 나타낼수 있는 변수를 연속형 양적 변수(연속변수)라 한다.

✅질적 변수(범주형 변수)

숫자가 아닌 범주로 변수를 나타낼 때

3-2 데이터 분포

🔍 그림으로 데이터 분포 표현하기

'데이터가 어떻게 분포되어있는지' 를 그래프 등으로 시각화하여, 대략적인 데이터 경향을 파악하는 것
데이터 분석의 첫 단계

📌 연속변수의 히스토그램에서 주의할 점

- 데이터에 따른 적잘한 구간촉을 결정해야한다.

- 공식으로는 '스터지스 공식' 등 있지만 '올바른 구간폭'이란 존재하지 않는다.

3-3 통계량

🔍 데이터 특정 짓기

데이터 그 자체의 성질을 기술하고 요약하는 통계량을, 기술 통계량 또는 요약 통계량이라 부른다.

📌 대표적인 기술통계량

대푯값 : 평균값, 중앙값, 최빈값
데이터 퍼짐 정도를 나타내는 값 : 분산, 표준편차

✅ 대표값

대략적인 분포 위치, 즉 대표적인 값을 정량화하기 위해 사용하는 통계량

평균값(mean)

중앙값(median) : 크기의 순으로 값을 정렬했을때 한가운데 위치한 값

최빈값(mode) : 데이터 중 가장 자주 나타나느 값

✅ 분산과 표준편차

분포의 폭, 다시 말해 데이터가 '어느 정도 퍼져있는지(흩어져 있는지)' 를 파악하는 것이 좋다.
분산(variance)
표준편차(standard deviation, S.D.)

* 표본을 평가한다는 점을 강조하여 표본분산(sample variance)이나 표본표준편차(sample standard deviation)라 부른다.

표본 분산 : 표본의 각 값과 표본평균이 어느 정도 떨어져 있는지 평가하는 것
표본표준편차 : s, 표본 분산의 제곱근을 취한 값

✅ 분포를 시각화하는 다양한 방법

🔍 이상값

명확한 정의는 없으나, 평균값에서 표준편차의 2배 또는 3배 이상 벗어난 숫자

3-4 확률

🔍 확률의 기본 사고방식

확률이란, '(발생여부) 불확실한 사건의 발생 가능성을 숫자로 표현한 것'

✅ 확률변수

무작위 실험의 결과를 수치로 나타낸 변수 즉, 어떤 불확실한 사건의 결과에 숫자를 부여한 것
확률변수가 실제로 취하는 값을 실현값이라 한다.

✅ 확률분포

가로축에 확률변수를, 세로축에 그 확률변수의 발생 가능성을 표시한 분포
확률밀도함수: 연속형 변수의 확률 계산 함수

🔍 추론통계와 확률분포

'모집단과 표본 데이터'처럼 다루기 어려운 대상이 '확률분포와 그 실현값'처럼 다룰 수 있는 대상으로 치환

✅ 기댓값

'변수가 확률적으로 얼마나 발생하기 쉬운가'를 평균적인 값으로 나타낸 값

✅ 분산과 표준 편차

📌 분산, 표준편차의 성질

0 이상일 것
모두 같은 값이 나타나는 경우에는 0
기댓값이 떨어진 값이 많을수록 커짐

✅ 왜도와 첨도

왜도 : 분포가 좌우대팅에서 어느 정도 벗어났는지
첨도 : 분포가 얼마나 뾰족한지와 그래프의 꼬리가 차지하는 비율이 얼마인지

🔍 확률변수가 2개일 때

동시확률분포 P(X, Y) : 확률변수 2개를 동시에 생각할 때의 확률분포
독립 : P(X, Y) = P(X)xP(Y)

✅ 조건부확률

한쪽 확률변수 Y의 정보가 주어졌을 떄, 다른 한쪽 확률변수 X의 확률
조건부확률 P(X|Y)

3-5 이론적인 확률분포

🔍 확률분포와 파라미터

이론적인 확률분포는 수식으로 표현되며, 분포의 형태를 정하는 숫자인 파라미터(parameter, 모수)를 가진다.

🔍 정규분포

통계학에서 자주 등장한다.
다른말로 가우스 분포(Gaussian distribution)
평균 μ(뮤)와 표준편차 σ(시그마)라는 2개의 파라미터로 정해진다.

평균과 표준편차를 달리한 정규분포

🔍 표준화

확률변수 x 또는 데이터의 평균과 표준편차를 이용하여 다음과 같이 계산하면 평균 0, 표준편차 1로 변환할 수 있다.

이를 표준화(standardizing, nomalizing)라 하며, 변화된 새로운 값을 z값이라 한다.

'책' 카테고리의 다른 글

[책] 통계101x데이터분석 (3) (1)	2025.07.01
[책] 통계101x데이터분석 (2) (0)	2025.06.30

'책' Related Articles

Ming's Life

[책] 통계101x데이터분석 본문

[책] 통계101x데이터분석

1장 통계학이란 ?

1-1 데이터를 분석하다.

🔍데이터와 통계학

🔍데이터 분석의 목적

1-2 통계학의 역활

🔍 통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다

1-3 통계학의 전체 모습

🔍 기술통계와 추론통계

🔍 다양한 분석 방법

2장 모집단과 표본

2-1 데이터분석의 목적과 알고자 하는 대상

🔍 데이터 분석의 목적

🔍 알고자 하는 대상

2-2 모집단

🔍 모집단을 생각하다

🔍 모집단 크기

2-3 모집단의 성질을 알다

🔍 모집단의 성질

🔍 전수조사

🔍 표본조사

🔍 표본크기(sample size)

3장 통계분석의 기초

3-1 데이터 유형

🔍 변수

🔍 다양한 데이터 유형

3-2 데이터 분포

🔍 그림으로 데이터 분포 표현하기

3-3 통계량

🔍 데이터 특정 짓기

🔍 이상값

3-4 확률

🔍 확률의 기본 사고방식

🔍 추론통계와 확률분포

🔍 확률변수가 2개일 때

3-5 이론적인 확률분포

🔍 확률분포와 파라미터

🔍 정규분포

🔍 표준화

'책' 카테고리의 다른 글

티스토리툴바