Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- 라이브 세션
- 가설검정
- 데이터분석
- 내일배움캠프#til#파이썬#python#통계학
- 차원축소
- 내일배움캠프#til#파이썬#python#전처리
- 내일배움캠프#til#파이썬#python
- 카이제곱검정
- A/B테스트
- 내일배움캠프#til#sqld
- 통계101x데이터분석
- 내일배움캠프#til#sqld#eda#데이터리터러시
- 머신러닝
- 통계
- 데이터
- 책
- 통계학공부
- 다중검정
- 통계학
- Ai
- 내일배움캠프#til#sql
- vscode
- 이상탐지
- #내일배움캠프 #사전캠프 #til #sql
- 내일배움캠프#til#데이터 리터러시
- 딥러닝
- t검정
- 이상치 제거
- 제1종오류
- 제2종오류
Archives
- Today
- Total
Ming's Life
통계학(기술통계 / 추론통계) 본문
1. 오늘 학습 키워드
- 통계학 기초
2. 오늘 학습 한 내용을 나만의 언어로 정리하기
1. 데이터 분석에 있어 통계가 중요한 이유
- 데이터 기반의 의사결정을 내릴수 있다.
1) 통계가 중요한 이유
☑️ 데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.
- 데이터 분석에서 통계는 데이터를 이해하고 해석하는 데 중요한 역할을 한다.
- 데이터를 요약하고 패턴을 발견할 수 있다.
- 추론을 통해 결론을 도출화는 과정을 돕는다.
- 즉, 데이터 기반의 의사결정을 내릴 수 있다.
- 결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요하다.
* 통계를 활용한 데이터 분석은 필수 !
2) 실제로 통계가 어떻게 사용이 되는가?
☑️ 고객 만족도 설문조사 분석
- 설문 조사 중 고객의 불만 사항을 파악하고 이를 개선하는 데 활용할 수 있다.

☑️ 고객 유형별 세그먼트(Segment) 상품 추천
- 고객을 유형별로 나누어 특징을 파악하고 각 유형에 맞는 상품을 추천하는데 활용될 수 있습니다.

☑️ 그 밖의 다양한 상황
- 기업의 전략을 수립하기 위해서
- 마케팅을 진행하기 위해서
- 신제품을 개발하기 위해서 등등
2. 기술통계와 추론통계
- 통계의 양대산맥인 기술통계와 추론통계
1) 기술통계
- 주로 평균, 중앙값, 분산, 표준편차 등을 사용
- 즉, 데이터를 특정 대표값으로 요약
- 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음
- 단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고 데이터의 모든 부분을 확인할 수 있는 것은 아님
- ex) 사람을 처음 만날 때 그 사람의 전체에 대해서 다 알 수는 없지만 기본적인 인적사항들(외모, 직업, 학력, 나이, MBTI 등)로 대략적으로 그 사람에 대한 요약을 할 수 있는 것과 같음 → 하지만 여러분들도 알다시피 대략적으로 파악할 수는 있지만 그 사람에 대한 전부를 확인한 것은 아니며 예외가 항상 존재할 수 있음
- 평균 (Mean)
- 평균은 데이터의 중앙값을 나타내는 값으로, 모든 데이터를 더한 후 데이터의 개수로 나누어 계산
- 이는 데이터의 일반적인 경향을 파악하는 데 유용
- 예를 들어, 다섯 명의 학생이 받은 시험 점수가 70, 80, 90, 100, 60이라면, 평균은 (70 + 80 + 90 + 100 + 60) / 5 = 80
- 중앙값 (Median)
- 중앙값은 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
- 이는 이상치(예외적인 값들)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법
- 시험 점수가 60, 70, 80, 90, 100일 때, 중앙값은 80입니다. 만약 데이터가 짝수 개수라면, 중앙에 있는 두 값의 평균을 중앙값
- 분산 (Variance)
- 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도로, 데이터의 흩어짐 정도를 측정
- 분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 모여 있음을 의미
- 분산을 구하는 방법은 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 것
분산 계산 예시 예를 들어, 네 명의 학생이 받은 시험 점수가 70, 80, 90, 100이라고 가정하면,
이들의 평균은 (70 + 80 + 90 + 100) / 4 = 85이다. 각각의 데이터 값에서 평균을 뺀 값을 제곱하면 다음과 같다:
- (70 - 85)^2 = 225
- (80 - 85)^2 = 25
- (90 - 85)^2 = 25
- (100 - 85)^2 = 225
이 값을 모두 더한 후 데이터의 개수로 나누면, 분산 = (225 + 25 + 25 + 225) / 4 = 125가 됩니다.
- 표준편차 (Standard Deviation)
- 표준편차는 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도로, 분산의 제곱근을 취하여 계산
- 표준편차는 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미
표준편차 계산 예시 네 명의 학생이 받은 시험 점수가 70, 80, 90, 100이라고 가정하면, 이들의 평균은 85이다.
- (70 - 85)^2 = 225
- (80 - 85)^2 = 25
- (90 - 85)^2 = 25
- (100 - 85)^2 = 225
(여기까지는 분산 계산과 동일함)
- 분산은 (225 + 25 + 25 + 225) / 4 = 125
- 표준편차는 분산의 제곱근이므로 분산에 루트(root)를 씌워 약 11.18
- 표준편차와 분산의 관계
- 분산과 표준편차는 동일하게 데이터의 변동성을 측정하는 두 가지 주요 척도
- 두 개념은 밀접하게 연관되어 있으며, 표준편차는 분산의 제곱근
- 분산은 데이터 값과 평균의 차이를 제곱하여 평균을 낸 값이기 때문에 제곱 단위로 표현되지만, 표준편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 변환
☑️ 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법.
- 주로 신뢰구간, 가설검정 등을 사용합니다.
- 즉, 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심
- ex) 비록 그 사람의 인생 전체를 다 본 것은 아니지만 대화를 진행하는 시간 동안 얻어낸 정보로 그 사람이 어떤 사람일지 알아가는 것과 같음
- 신뢰구간 (Confidence Interval)
- 신뢰구간은 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타낸다.
- 일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미
- 만약 어떤 설문조사에서 평균 만족도가 75점이고, 신뢰구간이 70점에서 80점이라면, 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있다.
- 가설검정 (Hypothesis Testing)
- 가설검정은 모집단에 대한 가설을 검증하기 위해 사용된다. 일반적으로 두 가지 가설이 있으며, 귀무가설(H0)은 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설(변화가 없다, 효과가 없다 등)이고, 대립가설(H1)은 그 반대 가설로 주장하는 바를 나타냅다.(변화가 있다, 효과가 있다 등) p-value를 통해 귀무가설을 기각할지 여부를 결정
- 예를 들어, 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다면, 귀무가설은 "프로그램이 성적에 영향을 미치지 않는다"이고, 대립가설은 "프로그램이 성적에 영향을 미친다"이다.
3) 실제로 기술통계와 추론통계가 어떻게 사용되는지
☑️ 기술통계
- 회사의 매출 데이터를 요약하기 위해 평균 매출, 매출의 표준편차 등을 계산
☑️ 추론통계
- 일부 고객의 설문조사를 통해 전체 고객의 만족도를 추정
3. 학습하며 겪었던 문제점 & 에러
X
4. 내일 학습 할 것은 무엇인지
통계학 공부
'통계학' 카테고리의 다른 글
| 통계학(가설검정) (0) | 2025.07.10 |
|---|---|
| 통계학(A/B 검정) (1) | 2025.07.10 |
| 통계학(통계분표) (0) | 2025.06.25 |
| 통계학(1주차 연습문제) (0) | 2025.06.24 |
| 통계학(통계 분석 방법) (0) | 2025.06.24 |