Ming's Life

통계학(기술통계 / 추론통계) 본문

통계학

통계학(기술통계 / 추론통계)

chamiii 2025. 6. 24. 20:19

1. 오늘 학습 키워드

  • 통계학 기초

 


 

2. 오늘 학습 한 내용을 나만의 언어로 정리하기

 

 

1. 데이터 분석에 있어 통계가 중요한 이유

- 데이터 기반의 의사결정을 내릴수 있다.

 

 

1) 통계가 중요한 이유

☑️ 데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.

  • 데이터 분석에서 통계는 데이터를 이해하고 해석하는 데 중요한 역할을 한다.
  • 데이터를 요약하고 패턴을 발견할 수 있다.
  • 추론을 통해 결론을 도출화는 과정을 돕는다.
  • 즉, 데이터 기반의 의사결정을 내릴 수 있다.
  • 결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요하다.

* 통계를 활용한 데이터 분석은 필수 !

 

 

2) 실제로 통계가 어떻게 사용이 되는가?

☑️ 고객 만족도 설문조사 분석

  • 설문 조사 중 고객의 불만 사항을 파악하고 이를 개선하는 데 활용할 수 있다.

☑️ 고객 유형별 세그먼트(Segment) 상품 추천

  • 고객을 유형별로 나누어 특징을 파악하고 각 유형에 맞는 상품을 추천하는데 활용될 수 있습니다.

☑️ 그 밖의 다양한 상황

  • 기업의 전략을 수립하기 위해서
  • 마케팅을 진행하기 위해서
  • 신제품을 개발하기 위해서 등등

 

 

2. 기술통계와 추론통계

- 통계의 양대산맥인 기술통계와 추론통계

 

1) 기술통계

  • 주로 평균, 중앙값, 분산, 표준편차 등을 사용
  • 즉, 데이터를 특정 대표값으로 요약
  • 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음
  • 단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고 데이터의 모든 부분을 확인할 수 있는 것은 아님
  • ex) 사람을 처음 만날 때 그 사람의 전체에 대해서 다 알 수는 없지만 기본적인 인적사항들(외모, 직업, 학력, 나이, MBTI 등)로 대략적으로 그 사람에 대한 요약을 할 수 있는 것과 같음 → 하지만 여러분들도 알다시피 대략적으로 파악할 수는 있지만 그 사람에 대한 전부를 확인한 것은 아니며 예외가 항상 존재할 수 있음

- 평균 (Mean)

  • 평균은 데이터의 중앙값을 나타내는 값으로, 모든 데이터를 더한 후 데이터의 개수로 나누어 계산
  • 이는 데이터의 일반적인 경향을 파악하는 데 유용
  • 예를 들어, 다섯 명의 학생이 받은 시험 점수가 70, 80, 90, 100, 60이라면, 평균은 (70 + 80 + 90 + 100 + 60) / 5 = 80

- 중앙값 (Median)

  • 중앙값은 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
  • 이는 이상치(예외적인 값들)에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법
  • 시험 점수가 60, 70, 80, 90, 100일 때, 중앙값은 80입니다. 만약 데이터가 짝수 개수라면, 중앙에 있는 두 값의 평균을 중앙값

- 분산 (Variance)

  • 분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도로, 데이터의 흩어짐 정도를 측정
  • 분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 모여 있음을 의미
  • 분산을 구하는 방법은 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 것

분산 계산 예시 예를 들어, 네 명의 학생이 받은 시험 점수가 70, 80, 90, 100이라고 가정하면,

이들의 평균은 (70 + 80 + 90 + 100) / 4 = 85이다. 각각의 데이터 값에서 평균을 뺀 값을 제곱하면 다음과 같다:

  • (70 - 85)^2 = 225
  • (80 - 85)^2 = 25
  • (90 - 85)^2 = 25
  • (100 - 85)^2 = 225

이 값을 모두 더한 후 데이터의 개수로 나누면, 분산 = (225 + 25 + 25 + 225) / 4 = 125가 됩니다.

 

- 표준편차 (Standard Deviation)

  • 표준편차는 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도로, 분산의 제곱근을 취하여 계산
  • 표준편차는 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미

표준편차 계산 예시 네 명의 학생이 받은 시험 점수가 70, 80, 90, 100이라고 가정하면, 이들의 평균은 85이다.

  • (70 - 85)^2 = 225
  • (80 - 85)^2 = 25
  • (90 - 85)^2 = 25
  • (100 - 85)^2 = 225

(여기까지는 분산 계산과 동일함)

  • 분산은 (225 + 25 + 25 + 225) / 4 = 125
  • 표준편차는 분산의 제곱근이므로 분산에 루트(root)를 씌워 약 11.18

- 표준편차와 분산의 관계

  • 분산과 표준편차는 동일하게 데이터의 변동성을 측정하는 두 가지 주요 척도
  • 두 개념은 밀접하게 연관되어 있으며, 표준편차는 분산의 제곱근
  • 분산은 데이터 값과 평균의 차이를 제곱하여 평균을 낸 값이기 때문에 제곱 단위로 표현되지만, 표준편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 변환

 

☑️ 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법.

  • 주로 신뢰구간, 가설검정 등을 사용합니다.
  • 즉, 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심
  • ex) 비록 그 사람의 인생 전체를 다 본 것은 아니지만 대화를 진행하는 시간 동안 얻어낸 정보로 그 사람이 어떤 사람일지 알아가는 것과 같음

- 신뢰구간 (Confidence Interval)

  • 신뢰구간은 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타낸다.
  • 일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미
  • 만약 어떤 설문조사에서 평균 만족도가 75점이고, 신뢰구간이 70점에서 80점이라면, 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있다.

- 가설검정 (Hypothesis Testing)

  • 가설검정은 모집단에 대한 가설을 검증하기 위해 사용된다. 일반적으로 두 가지 가설이 있으며, 귀무가설(H0)은 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설(변화가 없다, 효과가 없다 등)이고, 대립가설(H1)은 그 반대 가설로 주장하는 바를 나타냅다.(변화가 있다, 효과가 있다 등) p-value를 통해 귀무가설을 기각할지 여부를 결정
  • 예를 들어, 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다면, 귀무가설은 "프로그램이 성적에 영향을 미치지 않는다"이고, 대립가설은 "프로그램이 성적에 영향을 미친다"이다.

 

3) 실제로 기술통계와 추론통계가 어떻게 사용되는지

 

☑️ 기술통계

  • 회사의 매출 데이터를 요약하기 위해 평균 매출, 매출의 표준편차 등을 계산

☑️ 추론통계

  • 일부 고객의 설문조사를 통해 전체 고객의 만족도를 추정

 

 

 

3. 학습하며 겪었던 문제점 & 에러 

 

X

 

4. 내일 학습 할 것은 무엇인지 

 

통계학 공부
 

'통계학' 카테고리의 다른 글

통계학(가설검정)  (0) 2025.07.10
통계학(A/B 검정)  (1) 2025.07.10
통계학(통계분표)  (0) 2025.06.25
통계학(1주차 연습문제)  (0) 2025.06.24
통계학(통계 분석 방법)  (0) 2025.06.24