요즘 분석을 하면서 느끼고 있는 건 데이터의 숨은 뜻을 잘 이해하기 위해
수학적인 개념, 통계적인 개념들이 중요하다는 것을 깨닫는 요즘이다.
이전에 데이터사이언스 교육 기획을 했던 5~6년 전의 당시만 해도
통계, 수학 중요하지! 라고만 생각했지 정작 왜 중요하고 어떻게 써먹어야 할 지에 대해서는 깊게 고민해보지 않았던 것 같다.
그러던 와중 실제 비즈니스 데이터 분석을 진행하게 되면서
이러한 개념들을 이해하고 데이터를 바라보며 그 속에 숨은 뜻을 해석하고자 하니
통계, 수학적인 개념에 대한 이해를 확장 적용하는 게 "데이터 리터러시" 향상에 도움이 될 수 있겠단 생각을 했다.
통계 + 수학 개념을 배우고 분석에 적용하면, 그 자체가 곧 데이터 리터러시 훈련이다.
왜냐하면 데이터 리터러시는 단순히 "숫자를 읽는 능력"이 아니라, 숫자 뒤의 의미를 해석하고 의사결정에 연결하는 능력이기 때문!
즉 어떻게 해석하느냐를 보다 명료하게 하기 위해서는 통계 & 수학 개념을 확장 적용하는 게 필요하다는 생각이다.
✅ 데이터 리터러시 향상에 수학 & 통계 학습이 중요한 이유
1. 숫자를 “보는 눈”이 생긴다
- 통계 → 지표가 우연인지, 경향인지, 차이인지 판단 가능
- 수학 → 비율, 변화, 함수적 관계로 사고할 수 있음
- → 단순 수치를 넘어서 맥락과 구조로 이해
2. 데이터 해석의 프레임이 생긴다
- 평균, 분산, 상관, 함수, 벡터 등으로 데이터를 바라보면
- → 그 자체가 논리적인 해석 도구가 됨
예:
“전환율이 낮아요” → 그게 평균이 낮은 건지? 분산이 큰 건지?
“재구매율이 하락했어요” → 함수처럼 하락하는 건지? 특정 변수만 하락한 건지?
3. 데이터 기반 의사결정 능력이 강화된다
- 통계는 “이 변화가 진짜인가?”를 판단해주고
- 수학은 “어떻게 바꾸면 좋아질까?”를 생각하게 해준다👉 데이터 기반 액션 설계 능력이 생김
- → 이 두 가지가 합쳐지면,
🎯 수학/통계 개념 <> 리터러시 연결
| 수학/통계 개념 | 연관 해석 | 실무 연결 예시 |
| 분산 | 고객 행동의 일관성 해석 | 재구매주기/패턴 분석 |
| 상관/함수 | 변수 간 관계 구조화 | 전환율 ↔ 가격, 후기 ↔ 매출 |
| 교차/집합 | 고객 세그먼트 구조화 | 타겟 분류, 리뷰자 vs 미작성자 |
| t-test/p-value | 변화가 유의미한지 판단 | 개선 전후 효과 검증 |
| 로그/스케일링 | 데이터 왜곡/왜도 이해 | 제품군별 매출 분포 해석 |
✅ 통계·수학은 수단, 리터러시는 목적에 가까운 역량이라고 보면 된다.
즉 통계, 수학 개념을 실무 데이터 분석을 할 때 반복 적용 연습을 하면 리터러시 감각도 올릴 수 있음!
보다 논리적이고 명료하게 설명할 수 있다는 점에 있어서 꼭 필요한 개념인 것 같다.
“통계·수학은 데이터를 이해하는 언어고, 데이터 리터러시는 그 언어를 해석하고 행동으로 옮기는 능력”
✅ 실무 분석에 활용할 수 있는 수학 개념 6가지
1. 함수(Function)
“한 변수가 다른 변수에 어떤 영향을 미치는가?”
- 💡 예시: 가격 변화 → 전환율 변화
- 💡 예시: 리텐션 주기 → 구매 횟수 변화
- 👉 x(원인) → y(결과) 구조를 인과적으로 바라보는 시선
- 📌 활용: 광고비 증액이 매출에 얼마나 영향을 줬는지 추이 분석 시
2. 비율(Ratio)과 변화율(Percentage Change)
이커머스 핵심 지표는 거의 다 비율 기반!
- 💡 전환율, 장바구니 진입율, 반품율, 재구매율 등
- 💡 “전월 대비 몇 % 증가”는 변화율 개념
- 📌 활용:
- 퍼널 단계별 병목 구간 찾기
- 비율의 추이로 제품/캠페인 효과 해석
3. 행렬(Matrix)
추천 알고리즘, 고객-상품 관계 구조 등에서 사용됨
- 💡 예시: 유저 x 상품 구매 매트릭스
- → collaborative filtering 기반 상품 추천
- 💡 예시: 유저 행동 매트릭스를 heatmap으로 시각화
- 📌 활용: 제품 간 연관성 분석, 사용자 행동 구조 파악
4. 벡터(Vector)
고객의 행동이나 선호를 다차원적으로 표현할 때 사용
- 💡 예시: 고객 A는 브라 2, 팬티 1, 액티브웨어 0.5 구매 → (2,1,0.5)
- 💡 각 고객을 벡터로 놓고, 유사도(코사인 유사도 등) 분석 가능
- 📌 활용: 고객 세분화 / 군집화, 타겟 유사군 탐색
5. 확률(Probability)
고객의 행동을 예측하거나, 이벤트 가능성을 추정할 때
- 💡 예시:
- 30일 내 재구매 확률
- 리마인드 알림에 반응할 확률
- 📌 활용: 리텐션 예측, 리타게팅 전략, 베이지안 업데이트 등
6. 최적화(Optimization)
자원(광고비, 인력, 시간 등)을 어떻게 배분해야 효율이 극대화되는가?
- 💡 예시: 어떤 제품에 프로모션을 집중하면 가장 높은 매출?
- 💡 예시: 한정 수량으로 세일 시 어느 조합이 가장 이익이 큰가?
- 📌 활용: 프로모션 대상 선정, 광고 집행 우선순위 결정
🧠 수학 개념별 실무 활용 예시 한판 정리
| 수학 개념 | 실무 적용 예시 | 활용 포인트 |
| 비율/변화율 | 전환율, 증감률 | 지표 설계 및 병목 분석 |
| 행렬 | 고객-상품 추천 구조 | 관계 분석/추천 시스템 |
| 벡터 | 고객 군집화 | 유사 고객 파악 |
| 확률 | 재구매 예측 | 반응 가능성 판단 |
| 최적화 | 프로모션 조합 | 자원 효율 극대화 |
| 함수 | 가격 변화 → 구매 변화 | 인과 관계 해석 |
✅ 업무 분석 상황별 수학·통계 개념 활용
업무 분석 상황 활용 가능한 수학/통계 개념 적용 이유 및 관점
| 업무 분석 상황 | 활용 가능한 수학/통계 개념 | 적용 이유 및 관점 |
| 🔹 재구매율 하락 분석 | - 시계열 분석 - 분산 - t-test |
전후 변화 감지, 고객 행동 일관성, 하락 유의미성 검증 |
| 🔹 상세페이지 개선 효과 검증 | - 전환율 - t-test - p-value |
개선 전후 전환율 차이의 통계적 유의성 확인 |
| 🔹 채널별 유입→구매 분석 | - 집합 - 비율 - 교차비교 |
채널별 전환 차이, 유입군 간 교집합/차집합 해석 |
| 🔹 제품 간 교차 구매 분석 | - 집합 - 행렬 - 교차비율 |
제품 연관성 파악, 번들 추천 근거 도출 |
| 🔹 세그먼트별 행동 분석 | - 분산 - 평균 - 카이제곱 |
고객군별 행동 차이 비교, 반응 패턴 정리 |
| 🔹 리뷰 영향 분석 | - 상관계수 - 회귀 함수 - 카이제곱 |
후기 평점 ↔ 구매, 후기 유무 ↔ 재구매 관계 해석 |
| 🔹 리텐션 패턴 분석 | - 함수 - 분포 - 시계열 |
구매 간격 패턴, 충성 고객 vs 단기 고객 분리 |
| 🔹 A/B 테스트 | - t-test - 신뢰구간 - 분산 |
실험군/대조군 간 유의미한 차이 판단 |
| 🔹 가격 민감도 분석 | - 상관계수 - 스피어만 순위 상관 - 로그 함수 |
가격과 구매량 관계 분석, 순위형 관계 해석 |
| 🔹 고객 유사군 탐색 | - 벡터 - 유사도 - 군집화 |
고객 행동의 다차원 표현, 세그먼트 전략 설계 |
✏️ 느꼈던 점 요약
- 단순 수식을 계산하는 것을 넘어 사고의 틀로써 수학 개념을 잘 활용하면 분석 품질과 논리력 모두 향상시킬 수 있다.
💪🏻 시도할 점
- 집합, 분산, t-test, 상관계수, 함수는 실무 빈도가 매우 높으니 반복 연습을 통해 리터러시 및 설득력 높이기 시도해보기!
'데이터 분석' 카테고리의 다른 글
| [TIL 22] 대시보드에서의 분석 항목, 분석 기준에 대해 이해하기 (2) | 2025.06.30 |
|---|---|
| [TIL 21] 비율 지표에 있어 분자, 분모 해석 방법과 분석에 적절한 지표 개수는? (0) | 2025.06.29 |
| [TIL 19] 데이터 분석에서의 "집합" 개념 적용의 필요성, 이해를 돕는 데 유리하다. (0) | 2025.06.25 |
| [TIL 18] 데이터 리터러시의 중요성, 꾸준함으로 역량을 쌓아야겠다. (6) | 2025.06.24 |
| [TIL 17] 데이터 분석에서의 통계 필요성? 차근히 공부하기로 다짐했다. (0) | 2025.06.20 |