데이터 분석

[TIL 20] 데이터 리터러시 향상을 위한 통계, 수학 개념 이해의 중요성

쭈경잉 2025. 6. 26. 14:04

요즘 분석을 하면서 느끼고 있는 건 데이터의 숨은 뜻을 잘 이해하기 위해

수학적인 개념, 통계적인 개념들이 중요하다는 것을 깨닫는 요즘이다.

 

이전에 데이터사이언스 교육 기획을 했던 5~6년 전의 당시만 해도

통계, 수학 중요하지! 라고만 생각했지 정작 왜 중요하고 어떻게 써먹어야 할 지에 대해서는 깊게 고민해보지 않았던 것 같다.

 

그러던 와중 실제 비즈니스 데이터 분석을 진행하게 되면서

이러한 개념들을 이해하고 데이터를 바라보며 그 속에 숨은 뜻을 해석하고자 하니

통계, 수학적인 개념에 대한 이해를 확장 적용하는 게 "데이터 리터러시" 향상에 도움이 될 수 있겠단 생각을 했다.

 

통계 + 수학 개념을 배우고 분석에 적용하면, 그 자체가 곧 데이터 리터러시 훈련이다.

왜냐하면 데이터 리터러시는 단순히 "숫자를 읽는 능력"이 아니라, 숫자 뒤의 의미를 해석하고 의사결정에 연결하는 능력이기 때문!

 

즉 어떻게 해석하느냐를 보다 명료하게 하기 위해서는 통계 & 수학 개념을 확장 적용하는 게 필요하다는 생각이다.

 


 

데이터 리터러시 향상에 수학 & 통계 학습이 중요한 이유

1. 숫자를 “보는 눈”이 생긴다

  • 통계 → 지표가 우연인지, 경향인지, 차이인지 판단 가능
  • 수학 → 비율, 변화, 함수적 관계로 사고할 수 있음
  • → 단순 수치를 넘어서 맥락과 구조로 이해

2. 데이터 해석의 프레임이 생긴다

  • 평균, 분산, 상관, 함수, 벡터 등으로 데이터를 바라보면
  • → 그 자체가 논리적인 해석 도구가 됨

예:

“전환율이 낮아요” → 그게 평균이 낮은 건지? 분산이 큰 건지?

“재구매율이 하락했어요” → 함수처럼 하락하는 건지? 특정 변수만 하락한 건지?


3. 데이터 기반 의사결정 능력이 강화된다

  • 통계는 “이 변화가 진짜인가?”를 판단해주고
  • 수학은 “어떻게 바꾸면 좋아질까?”를 생각하게 해준다👉 데이터 기반 액션 설계 능력이 생김
  • → 이 두 가지가 합쳐지면,

🎯 수학/통계 개념 <> 리터러시 연결

수학/통계 개념 연관 해석 실무 연결 예시 
분산 고객 행동의 일관성 해석 재구매주기/패턴 분석
상관/함수 변수 간 관계 구조화 전환율 ↔ 가격, 후기 ↔ 매출
교차/집합 고객 세그먼트 구조화 타겟 분류, 리뷰자 vs 미작성자
t-test/p-value 변화가 유의미한지 판단 개선 전후 효과 검증
로그/스케일링 데이터 왜곡/왜도 이해 제품군별 매출 분포 해석

통계·수학은 수단, 리터러시는 목적에 가까운 역량이라고 보면 된다.

즉 통계, 수학 개념을 실무 데이터 분석을 할 때 반복 적용 연습을 하면 리터러시 감각도 올릴 수 있음!

 

보다 논리적이고 명료하게 설명할 수 있다는 점에 있어서 꼭 필요한 개념인 것 같다.

“통계·수학은 데이터를 이해하는 언어고, 데이터 리터러시는 그 언어를 해석하고 행동으로 옮기는 능력”

 



실무 분석에 활용할 수 있는 수학 개념 6가지

1. 함수(Function)

“한 변수가 다른 변수에 어떤 영향을 미치는가?”

  • 💡 예시: 가격 변화 → 전환율 변화
  • 💡 예시: 리텐션 주기 → 구매 횟수 변화
  • 👉 x(원인) → y(결과) 구조를 인과적으로 바라보는 시선
  • 📌 활용: 광고비 증액이 매출에 얼마나 영향을 줬는지 추이 분석 시

2. 비율(Ratio)과 변화율(Percentage Change)

이커머스 핵심 지표는 거의 다 비율 기반! 

  • 💡 전환율, 장바구니 진입율, 반품율, 재구매율 등
  • 💡 “전월 대비 몇 % 증가”는 변화율 개념
  • 📌 활용:
    • 퍼널 단계별 병목 구간 찾기
    • 비율의 추이로 제품/캠페인 효과 해석

3. 행렬(Matrix)

추천 알고리즘, 고객-상품 관계 구조 등에서 사용됨

  • 💡 예시: 유저 x 상품 구매 매트릭스
    • → collaborative filtering 기반 상품 추천
  • 💡 예시: 유저 행동 매트릭스를 heatmap으로 시각화
  • 📌 활용: 제품 간 연관성 분석, 사용자 행동 구조 파악

4. 벡터(Vector)

고객의 행동이나 선호를 다차원적으로 표현할 때 사용

  • 💡 예시: 고객 A는 브라 2, 팬티 1, 액티브웨어 0.5 구매 → (2,1,0.5)
  • 💡 각 고객을 벡터로 놓고, 유사도(코사인 유사도 등) 분석 가능
  • 📌 활용: 고객 세분화 / 군집화, 타겟 유사군 탐색

5. 확률(Probability)

고객의 행동을 예측하거나, 이벤트 가능성을 추정할 때

  • 💡 예시:
    • 30일 내 재구매 확률
    • 리마인드 알림에 반응할 확률
  • 📌 활용: 리텐션 예측, 리타게팅 전략, 베이지안 업데이트 등

6. 최적화(Optimization)

자원(광고비, 인력, 시간 등)을 어떻게 배분해야 효율이 극대화되는가?

  • 💡 예시: 어떤 제품에 프로모션을 집중하면 가장 높은 매출?
  • 💡 예시: 한정 수량으로 세일 시 어느 조합이 가장 이익이 큰가?
  • 📌 활용: 프로모션 대상 선정, 광고 집행 우선순위 결정

🧠 수학 개념별 실무 활용 예시 한판 정리

수학 개념 실무 적용 예시 활용 포인트 
비율/변화율 전환율, 증감률 지표 설계 및 병목 분석
행렬 고객-상품 추천 구조 관계 분석/추천 시스템
벡터 고객 군집화 유사 고객 파악
확률 재구매 예측 반응 가능성 판단
최적화 프로모션 조합 자원 효율 극대화
함수 가격 변화 → 구매 변화 인과 관계 해석

업무 분석 상황별 수학·통계 개념 활용

업무 분석 상황 활용 가능한 수학/통계 개념 적용 이유 및 관점

업무 분석 상황 활용 가능한 수학/통계 개념  적용 이유 및 관점
🔹 재구매율 하락 분석 - 시계열 분석
- 분산
- t-test
전후 변화 감지, 고객 행동 일관성, 하락 유의미성 검증
🔹 상세페이지 개선 효과 검증 - 전환율
- t-test
- p-value
개선 전후 전환율 차이의 통계적 유의성 확인
🔹 채널별 유입→구매 분석 - 집합
- 비율
- 교차비교
채널별 전환 차이, 유입군 간 교집합/차집합 해석
🔹 제품 간 교차 구매 분석 - 집합
- 행렬
- 교차비율
제품 연관성 파악, 번들 추천 근거 도출
🔹 세그먼트별 행동 분석 - 분산
- 평균
- 카이제곱
고객군별 행동 차이 비교, 반응 패턴 정리
🔹 리뷰 영향 분석 - 상관계수
- 회귀 함수
- 카이제곱
후기 평점 ↔ 구매, 후기 유무 ↔ 재구매 관계 해석
🔹 리텐션 패턴 분석 - 함수
- 분포
- 시계열
구매 간격 패턴, 충성 고객 vs 단기 고객 분리
🔹 A/B 테스트 - t-test
- 신뢰구간
- 분산
실험군/대조군 간 유의미한 차이 판단
🔹 가격 민감도 분석 - 상관계수
- 스피어만 순위 상관
- 로그 함수
가격과 구매량 관계 분석, 순위형 관계 해석
🔹 고객 유사군 탐색 - 벡터
- 유사도
- 군집화
고객 행동의 다차원 표현, 세그먼트 전략 설계

 

 

✏️ 느꼈던 점 요약
- 단순 수식을 계산하는 것을 넘어 사고의 틀로써 수학 개념을 잘 활용하면 분석 품질과 논리력 모두 향상시킬 수 있다. 


💪🏻 시도할 점
- 집합, 분산, t-test, 상관계수, 함수는 실무 빈도가 매우 높으니 반복 연습을 통해 리터러시 및 설득력 높이기 시도해보기!