통계학(기술통계 / 추론통계)

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Ming's Life

통계학(기술통계 / 추론통계) 본문

통계학

통계학(기술통계 / 추론통계)

chamiii 2025. 6. 24. 20:19

1. 오늘 학습 키워드

통계학 기초

2. 오늘 학습 한 내용을 나만의 언어로 정리하기

1. 데이터 분석에 있어 통계가 중요한 이유

- 데이터 기반의 의사결정을 내릴수 있다.

1) 통계가 중요한 이유

☑️ 데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.

데이터 분석에서 통계는 데이터를 이해하고 해석하는 데 중요한 역할을 한다.
데이터를 요약하고 패턴을 발견할 수 있다.
추론을 통해 결론을 도출화는 과정을 돕는다.
즉, 데이터 기반의 의사결정을 내릴 수 있다.
결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요하다.

* 통계를 활용한 데이터 분석은 필수 !

2) 실제로 통계가 어떻게 사용이 되는가?

☑️ 고객 만족도 설문조사 분석

설문 조사 중 고객의 불만 사항을 파악하고 이를 개선하는 데 활용할 수 있다.

☑️ 고객 유형별 세그먼트(Segment) 상품 추천

고객을 유형별로 나누어 특징을 파악하고 각 유형에 맞는 상품을 추천하는데 활용될 수 있습니다.

☑️ 그 밖의 다양한 상황

기업의 전략을 수립하기 위해서
마케팅을 진행하기 위해서
신제품을 개발하기 위해서 등등

2. 기술통계와 추론통계

- 통계의 양대산맥인 기술통계와 추론통계

1) 기술통계

주로 평균, 중앙값, 분산, 표준편차 등을 사용
즉, 데이터를 특정 대표값으로 요약
데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음
단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고 데이터의 모든 부분을 확인할 수 있는 것은 아님
ex) 사람을 처음 만날 때 그 사람의 전체에 대해서 다 알 수는 없지만 기본적인 인적사항들(외모, 직업, 학력, 나이, MBTI 등)로 대략적으로 그 사람에 대한 요약을 할 수 있는 것과 같음 → 하지만 여러분들도 알다시피 대략적으로 파악할 수는 있지만 그 사람에 대한 전부를 확인한 것은 아니며 예외가 항상 존재할 수 있음

- 평균 (Mean)

평균은 데이터의 중앙값을 나타내는 값으로, 모든 데이터를 더한 후 데이터의 개수로 나누어 계산
이는 데이터의 일반적인 경향을 파악하는 데 유용
예를 들어, 다섯 명의 학생이 받은 시험 점수가 70, 80, 90, 100, 60이라면, 평균은 (70 + 80 + 90 + 100 + 60) / 5 = 80

- 중앙값 (Median)

중앙값은 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
이는 이상치(예외적인 값들)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법
시험 점수가 60, 70, 80, 90, 100일 때, 중앙값은 80입니다. 만약 데이터가 짝수 개수라면, 중앙에 있는 두 값의 평균을 중앙값

- 분산 (Variance)

분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도로, 데이터의 흩어짐 정도를 측정
분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 모여 있음을 의미
분산을 구하는 방법은 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 것

분산 계산 예시 예를 들어, 네 명의 학생이 받은 시험 점수가 70, 80, 90, 100이라고 가정하면,

이들의 평균은 (70 + 80 + 90 + 100) / 4 = 85이다. 각각의 데이터 값에서 평균을 뺀 값을 제곱하면 다음과 같다:

(70 - 85)^2 = 225
(80 - 85)^2 = 25
(90 - 85)^2 = 25
(100 - 85)^2 = 225

이 값을 모두 더한 후 데이터의 개수로 나누면, 분산 = (225 + 25 + 25 + 225) / 4 = 125가 됩니다.

- 표준편차 (Standard Deviation)

표준편차는 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도로, 분산의 제곱근을 취하여 계산
표준편차는 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미

표준편차 계산 예시 네 명의 학생이 받은 시험 점수가 70, 80, 90, 100이라고 가정하면, 이들의 평균은 85이다.

(70 - 85)^2 = 225
(80 - 85)^2 = 25
(90 - 85)^2 = 25
(100 - 85)^2 = 225

(여기까지는 분산 계산과 동일함)

분산은 (225 + 25 + 25 + 225) / 4 = 125
표준편차는 분산의 제곱근이므로 분산에 루트(root)를 씌워 약 11.18

- 표준편차와 분산의 관계

분산과 표준편차는 동일하게 데이터의 변동성을 측정하는 두 가지 주요 척도
두 개념은 밀접하게 연관되어 있으며, 표준편차는 분산의 제곱근
분산은 데이터 값과 평균의 차이를 제곱하여 평균을 낸 값이기 때문에 제곱 단위로 표현되지만, 표준편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 변환

☑️ 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법.

주로 신뢰구간, 가설검정 등을 사용합니다.
즉, 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심
ex) 비록 그 사람의 인생 전체를 다 본 것은 아니지만 대화를 진행하는 시간 동안 얻어낸 정보로 그 사람이 어떤 사람일지 알아가는 것과 같음

- 신뢰구간 (Confidence Interval)

신뢰구간은 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타낸다.
일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미
만약 어떤 설문조사에서 평균 만족도가 75점이고, 신뢰구간이 70점에서 80점이라면, 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있다.

- 가설검정 (Hypothesis Testing)

가설검정은 모집단에 대한 가설을 검증하기 위해 사용된다. 일반적으로 두 가지 가설이 있으며, 귀무가설(H0)은 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설(변화가 없다, 효과가 없다 등)이고, 대립가설(H1)은 그 반대 가설로 주장하는 바를 나타냅다.(변화가 있다, 효과가 있다 등) p-value를 통해 귀무가설을 기각할지 여부를 결정
예를 들어, 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다면, 귀무가설은 "프로그램이 성적에 영향을 미치지 않는다"이고, 대립가설은 "프로그램이 성적에 영향을 미친다"이다.

3) 실제로 기술통계와 추론통계가 어떻게 사용되는지

☑️ 기술통계

회사의 매출 데이터를 요약하기 위해 평균 매출, 매출의 표준편차 등을 계산

☑️ 추론통계

일부 고객의 설문조사를 통해 전체 고객의 만족도를 추정

3. 학습하며 겪었던 문제점 & 에러

4. 내일 학습 할 것은 무엇인지

통계학 공부

'통계학' 카테고리의 다른 글

통계학(가설검정) (0)	2025.07.10
통계학(A/B 검정) (1)	2025.07.10
통계학(통계분표) (0)	2025.06.25
통계학(1주차 연습문제) (0)	2025.06.24
통계학(통계 분석 방법) (0)	2025.06.24

'통계학' Related Articles

Ming's Life

통계학(기술통계 / 추론통계) 본문

통계학(기술통계 / 추론통계)

1. 데이터 분석에 있어 통계가 중요한 이유

☑️ 데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.

☑️ 고객 만족도 설문조사 분석

☑️ 고객 유형별 세그먼트(Segment) 상품 추천

☑️ 그 밖의 다양한 상황

2. 기술통계와 추론통계

☑️ 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법.

☑️ 기술통계

☑️ 추론통계

'통계학' 카테고리의 다른 글

티스토리툴바