| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- 다중검정
- 이상치 제거
- 내일배움캠프#til#sqld#eda#데이터리터러시
- 내일배움캠프#til#파이썬#python
- 통계학
- 책
- Ai
- 통계
- 내일배움캠프#til#파이썬#python#통계학
- 제2종오류
- 통계학공부
- A/B테스트
- #내일배움캠프 #사전캠프 #til #sql
- 딥러닝
- 통계101x데이터분석
- vscode
- 내일배움캠프#til#파이썬#python#전처리
- 가설검정
- 내일배움캠프#til#sqld
- 차원축소
- 이상탐지
- 제1종오류
- 카이제곱검정
- 내일배움캠프#til#sql
- 내일배움캠프#til#데이터 리터러시
- t검정
- 라이브 세션
- 머신러닝
- 데이터
- 데이터분석
- Today
- Total
Ming's Life
[책] 통계101x데이터분석 본문
1. 오늘 학습 키워드
- 통계101x데이터분석
2. 오늘 학습 한 내용을 나만의 언어로 정리하기
오늘부터 통계x데이터분석 책을 읽으며 통계학 복습을 하려고한다.
읽으면서 계속 수정해가며 업로드 예정이다.
1장 통계학이란 ?
1-1 데이터를 분석하다.
🔍데이터와 통계학
- 대상을 관찰하고 측정함으로써, 그 대상의 정보, 즉 '데이터'를 얻을 수 있다.
- 데이터는 수치의 *모음으로, 막연히 바라보기만 해서는 무엇인지 제대로 알 수 없다.
* 문자로 이루어진 데이터
🔍데이터 분석의 목적
' 데이터 분석의 목적은 무엇인가?'
목적 1) 데이터 요약
- 데이터를 요약하고 정리할 방법이 필요하다.
목적 2) 대상 설명
- "대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해한다."
✅ 설명에는 수준이 있다.
- 데이터 분석에서 말하는 관계성은 인과관계와 상관관계가 있다.
- 인과관계 : 2가지 중 하나를 변화시키면, 다른 하나(결과)도 바꿀 수 있는 관계를 말한다.
- 상관관계 : 한쪽이 크면 다른 한쪽도 큰(또는 한쪽이 크면 다른 한쪽은 작은) 관계를 말한다.
목적 3) 미지의 데이터 예측
- 미지의 데이터 예측이란 이미 얻은 데이터를 기반으로, 이후 새롭게 얻을 데이터를 예측하는 것을 말한다.
1-2 통계학의 역활
🔍 통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다
- 데이터 분석에서 통계학의 중요한 역할은, 퍼짐(산포, dispersion)이 있는 데이터에 대해 설명이나 예측을 하는것이다.
✅ 확률을 사용하자
- 근거가 되는 것이 데이터 퍼짐이나 불확실성을 확률로 타나내는 확률론
1-3 통계학의 전체 모습
🔍 기술통계와 추론통계
- 기술통계(descriptive statistics) : 수집한 데이터를 정리하고 요약하는 방법
- 추론통계(inferential statistics) : 수집한 데이터로부터 데이터의 발생원을 추정하는 방법
✅ 확률 모형
- 데이터가 비교적 단순한 확률장치에서 생성되었다고 가정, 이런 확률 장치를 확률 모형이라 한다.
- 불확실성을 확률로써 계량하기 위해 확률함수로써 수학적으로 만든 모형
- 그러한 함수에 쓰인 계수들을 모수(parameter)라고 부른다.
* 모수 : 모집단의 특성치(예: 평균값)를 일컫는 용어
* 특정 주사위(대상)의 성질을 알고 싶지만, 관측할 수 있는 것은 나온 눈을 기록한 데이터 뿐이다.
각 눈이 나올 확률을 나타내는 확률 모형에서 데이터가 생성된다고 가정하고, 데이터로부터 확률 모형의 성질을 추청하게 된다.
✅ 통계적 추론과 가설검정
- 통계적 추론(statistical inference) : 데이터에서 가정한 확률 모형의 성질을 추정하는 방법
- 가설검정(statistical test) : 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법
🔍 다양한 분석 방법
- 데이터 유형이나 변수(특정 속성의 데이터)의 개수, 가정하는 확률 모형 등에 따라 이용하는 방법이 다르기 때문에 다양한 분석 방법이 있다.
2장 모집단과 표본
2-1 데이터분석의 목적과 알고자 하는 대상
🔍 데이터 분석의 목적
- 구체적인 데이터 분석 목적을 정하는 것이 중요한 첫 단계이다.
데이터 목적 사례
- 신약의 효과 유무와 효과의 크기를 알고 싶다.
- 소득과 행복도 사이에 어떤 관계가 있는지 알고 싶다.
- 기온으로부터 올해 농작물 수확량을 예측하고 싶다.
🔍 알고자 하는 대상
- 알고자 하는 대상을 명확히하는 것이 중요하다.
2-2 모집단
🔍 모집단을 생각하다
- 통계학에서는 알고자 하는 대상 전체를 모집단이라고 한다.
- '지금 알고자 하는 대상은 무엇인지' 그리고 '무엇을 모집단으로 설정할 것인지'의 문제에는 항상 주의를 기울여야한다.
🔍 모집단 크기
- 모집단에 포함된 요소(element)의 수를 모집단 크기라 한다.
- 크기에 따라 유한모집단과 무한모집단으로 나눌 수 있다.
✅ 유한 모집단
- 모집단 중 한정된 요소만 포함한 것
✅ 무한 모집단
- 모집단 중 포함된 요소의 개수가 무한한 것
2-3 모집단의 성질을 알다
🔍 모집단의 성질
- 모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고, 미지의 데이터를 예측할 수도 있게 된다.
모집단 성질의 예
- 한국인 남성의 평균 키는 172.5cm이다.
- 한국인 여성 평균 키는 159.6cm이다.
- 신약을 복용한 사람의 최고 혈압 평균은 120mmHg이다.
🔍 전수조사
- 모집단에 포함된 모든 요소를 조사
- 모집단에 포함된 요소의 개수가 한정된, 유한모집단일 때 선택할 수 있는 조사 방법
- ' 분석할 데이터 = 모집단 '
- 데이터 그 자체의 특징을 기술하고 요약하는 것을 기술통계
✅ 전수 조사의 어려움
- 전수조사를 실시하려면 비용이나 시간 면에서 부담이 막대하여 실현 불가능할 때가 대부분이다.
🔍 표본조사
- 모집단의 일부를 분석하여 모집단 전체릐 성질을 추정하는 추론통계
- 표본(sample) : 추론통계에서 조사하는 모집단의 일부
- 표본 추출(sampling) : 모집단에서 표본을 뽑는 것
- 표본조사 : 표본을 이용해 모집단의 성질을 조사하는 것
알아 둘 내용
- 대상을 설명(이해)하고 예측하기 위해서는 모집단의 성질을 알아야 한다.
- 일반적으로는 모집단을 대상으로 한 전수조사는 어렵다.
- 표본을 조사하면 모집단의 성질을 추정할 수 있다.
🔍 표본크기(sample size)
- 표본에 포함된 요소의 개수
- 모집단의 성질을 추정할 때의 확실성이나 가설검정의 결과에도 영향을 끼치기 때문에, 통계분석에 있어 중요한 요소 중 하나이다.
3장 통계분석의 기초
3-1 데이터 유형
🔍 변수
- 공통의 측정 방법으로 얻은 같은 성질의 값
- 변수의 개수는 '차원' 이라 표현되기도 한다.
🔍 다양한 데이터 유형
- 데이터를 수집할 때나 분석을 실행할 때는 변수가 어떤 유형인지 주의 깊게 고려하는 것이 중요
✅양적 변수(수치형 변수)
- 숫자로 나타낼 수 있는 변수
- 이산형 : 얻을 수 있는 값이 점점이 있는 변수를 이상형 양적 변수(이산변수)라 한다.
- 연속형 : 간격 없이 이어지는 값으로 나타낼수 있는 변수를 연속형 양적 변수(연속변수)라 한다.
✅질적 변수(범주형 변수)
- 숫자가 아닌 범주로 변수를 나타낼 때
3-2 데이터 분포
🔍 그림으로 데이터 분포 표현하기
- '데이터가 어떻게 분포되어있는지' 를 그래프 등으로 시각화하여, 대략적인 데이터 경향을 파악하는 것
- 데이터 분석의 첫 단계

📌 연속변수의 히스토그램에서 주의할 점
- 데이터에 따른 적잘한 구간촉을 결정해야한다.
- 공식으로는 '스터지스 공식' 등 있지만 '올바른 구간폭'이란 존재하지 않는다.
3-3 통계량
🔍 데이터 특정 짓기
- 데이터 그 자체의 성질을 기술하고 요약하는 통계량을, 기술 통계량 또는 요약 통계량이라 부른다.
📌 대표적인 기술통계량
- 대푯값 : 평균값, 중앙값, 최빈값
- 데이터 퍼짐 정도를 나타내는 값 : 분산, 표준편차
✅ 대표값
- 대략적인 분포 위치, 즉 대표적인 값을 정량화하기 위해 사용하는 통계량
평균값(mean)
중앙값(median) : 크기의 순으로 값을 정렬했을때 한가운데 위치한 값
최빈값(mode) : 데이터 중 가장 자주 나타나느 값
✅ 분산과 표준편차
- 분포의 폭, 다시 말해 데이터가 '어느 정도 퍼져있는지(흩어져 있는지)' 를 파악하는 것이 좋다.
- 분산(variance)
- 표준편차(standard deviation, S.D.)
* 표본을 평가한다는 점을 강조하여 표본분산(sample variance)이나 표본표준편차(sample standard deviation)라 부른다.
- 표본 분산 : 표본의 각 값과 표본평균이 어느 정도 떨어져 있는지 평가하는 것
- 표본표준편차 : s, 표본 분산의 제곱근을 취한 값
✅ 분포를 시각화하는 다양한 방법

🔍 이상값
- 명확한 정의는 없으나, 평균값에서 표준편차의 2배 또는 3배 이상 벗어난 숫자
3-4 확률
🔍 확률의 기본 사고방식
- 확률이란, '(발생여부) 불확실한 사건의 발생 가능성을 숫자로 표현한 것'
✅ 확률변수
- 무작위 실험의 결과를 수치로 나타낸 변수 즉, 어떤 불확실한 사건의 결과에 숫자를 부여한 것
- 확률변수가 실제로 취하는 값을 실현값이라 한다.
✅ 확률분포
- 가로축에 확률변수를, 세로축에 그 확률변수의 발생 가능성을 표시한 분포
- 확률밀도함수: 연속형 변수의 확률 계산 함수
🔍 추론통계와 확률분포
- '모집단과 표본 데이터'처럼 다루기 어려운 대상이 '확률분포와 그 실현값'처럼 다룰 수 있는 대상으로 치환

✅ 기댓값
- '변수가 확률적으로 얼마나 발생하기 쉬운가'를 평균적인 값으로 나타낸 값

✅ 분산과 표준 편차

📌 분산, 표준편차의 성질
- 0 이상일 것
- 모두 같은 값이 나타나는 경우에는 0
- 기댓값이 떨어진 값이 많을수록 커짐
✅ 왜도와 첨도
- 왜도 : 분포가 좌우대팅에서 어느 정도 벗어났는지
- 첨도 : 분포가 얼마나 뾰족한지와 그래프의 꼬리가 차지하는 비율이 얼마인지
🔍 확률변수가 2개일 때
- 동시확률분포 P(X, Y) : 확률변수 2개를 동시에 생각할 때의 확률분포
- 독립 : P(X, Y) = P(X)xP(Y)
✅ 조건부확률
- 한쪽 확률변수 Y의 정보가 주어졌을 떄, 다른 한쪽 확률변수 X의 확률
- 조건부확률 P(X|Y)
3-5 이론적인 확률분포
🔍 확률분포와 파라미터
- 이론적인 확률분포는 수식으로 표현되며, 분포의 형태를 정하는 숫자인 파라미터(parameter, 모수)를 가진다.
🔍 정규분포
- 통계학에서 자주 등장한다.
- 다른말로 가우스 분포(Gaussian distribution)
- 평균 μ(뮤)와 표준편차 σ(시그마)라는 2개의 파라미터로 정해진다.

- 평균과 표준편차를 달리한 정규분포

🔍 표준화
- 확률변수 x 또는 데이터의 평균과 표준편차를 이용하여 다음과 같이 계산하면 평균 0, 표준편차 1로 변환할 수 있다.

- 이를 표준화(standardizing, nomalizing)라 하며, 변화된 새로운 값을 z값이라 한다.
'책' 카테고리의 다른 글
| [책] 통계101x데이터분석 (3) (1) | 2025.07.01 |
|---|---|
| [책] 통계101x데이터분석 (2) (0) | 2025.06.30 |