데이터 분석을 하면서 "통계"에 대한 필요성에 대한 이야기를 꽤나 들어왔다.
그래, 필요하지 그런데 뭐부터 해야 하는 거지? 고민이 되었고
공부한 건 대학교 때 사회 통계를 전공한 덕분에 개념들은 알고 있는 정도였다.
그런데 지금 생각해보면 "통계"가 중요한 건 결국 이해도를 높이기 위함이며
실제로 비즈니스 데이터 분석을 할 때에는 통계로 신뢰도를 높이는 것을 잘 하진 않을 것 같다.
그럼에도 통계가 필요한 건 신뢰도를 뒷받침하기 위해, 더 데이터를 깊게 이해하기 위해 필요한 지식인 것 같다.
그래서 급하진 않지만 중요한 나만의 개인 프로젝트로 통계 학습과 현업에까지 확장 적용하기로 목표로 잡음!
그래서 당장 3분기에 완성!이라기 보다는 3분기에 시작해서 4분기까지 점진적으로 익혀보고자 한다.
(거기에 더불어 수학적 개념 + 데이터 리터러시 역량을 높이는 연습까지 다방면으로 병행해 진행할 예정)
통계가 왜 필요한 지 다시 한 번 생각해보고 공부해야 할 이유에 대해 고민해보았다.
🎯 통계 공부 목적 재정리
- 실무 적용:
- 가설 검증, 리포트 작성, 전환율 분석 등 → 당장 업무에 도움
- 설득력 강화:
- 논리적 커뮤니케이션, 보다 확실한 근거 제시
- 개념적 성장:
- 데이터 리터러시 내재화 → 넓은 맥락에서 사고할 수 있는 능력
특히 데이터 자체를 깊이 이해하고 해석하려면 통계, 수학, 데이터 리터러시가 필요하다.
각 개념이 왜 필요한 지, 그 안에서도 반드시 필요한 개념들을 차근히 익혀볼 필요가 있다.
1. 통계(Statistics): “데이터가 말하는 신호를 읽는 언어”
🤔 왜 필요할까?
- 수많은 수치 중 무엇이 의미 있는가를 판단하기 위한 기준 제공
- 우연인지, 패턴인지, 특이값인지 구분 가능
📝 반드시 필요한 개념
| 개념 | 이유 |
| 평균/중앙값/분산/표준편차 | 데이터의 중심과 퍼짐을 이해하는 기본 |
| 상관과 인과 | 단순 동반 현상 vs 실제 영향 구분 |
| 정규분포/비정규분포 | 데이터의 분포형태에 따른 해석 기준 달라짐 |
| 표본/모집단/신뢰구간 | 전체를 대표하는지 여부 판단 기준 |
2. 수학(Math): “데이터의 구조와 관계를 파악하는 사고 도구”
🤔 왜 필요할까?
- 통계와 모델링을 수식적으로 이해하고 응용하기 위해
- 특히 비율, 변화율, 함수 관계는 자주 쓰임
📝 실무자에게 필요한 수학 개념
| 개념 | 이유 |
| 비율/증감률 계산 | 전환율, 성장률 등은 모두 퍼센트 기반 |
| 기초 함수 개념 (y = f(x)) | 변수 간 영향 이해에 기반됨 |
| 행렬 개념 (기초) | 추후 모델링·벡터 연산 이해에 도움 |
| 로그/지수 | 로그 스케일 지표(예: 수익 분포, 로그 전처리)에 사용 |
☑️ 실제로 비율, 증감률 계산은 일반적으로 많이 활용하는 개념이다. "비율"에서도 분자와 분모에 따른 해석을 이해하는 게 필요하다.
3. 데이터 리터러시(Data Literacy): “숫자 이면의 맥락을 이해하는 힘”
🤔 왜 필요할까?
- 아무리 통계·수학을 알아도, 데이터 맥락을 이해하지 못하면 오해 위험이 있음
- 예: 이벤트 기간 데이터, 이상치, 비즈니스 구조에 따른 지표 변화 등
📝 필요한 지식
| 개념 | 설명 |
| 지표 설계 능력 | 퍼널 정의, 전환 기준 설정 등 |
| 비즈니스 맥락 이해 | 지표가 어떻게 연결되는지의 구조 |
| 이상값/결측치 해석 | 왜 빠졌는지, 왜 튀었는지를 파악하는 관찰력 |
| 시계열 데이터 감각 | 시간 흐름에 따라 어떤 변화가 자연스러운지 |
☑️ 결국 의미있는 지표, 해석할 수 있는 지표를 만드는 것이 핵심! 근데 이러한 지표를 정의하는 건 데이터 리터러시 역량이 필수다.
✔️ 참고) 실무에서 통계적 지식이 실질적으로 필요한 5가지 CASE
1. A/B 테스트 or 개선 전후 효과 비교
- 예시: 상세페이지 개선 전후 전환율 차이
- 왜 필요한가?
- “우연이 아닌 변화다”는 걸 숫자로 증명해야 함
- t-test, p-value, 신뢰구간 등이 활용됨
- 통계 없으면? → 그냥 “느낌상 좋아진 것 같음” 수준에 머무름
2. 세그먼트 간 차이 비교
- 예시: 신규 vs 재구매 고객의 구매 패턴 차이
- 왜 필요한가?
- 차이가 있는 듯 보여도 통계적으로 유의미한지 확인해야 액션 설계 가능
- 카이제곱 검정 등 범주형 분석 활용
3. 데이터가 소량이거나 편향되어 있을 때
- 예시: 초기 런칭 상품 성과 평가, 특정 채널 유입 고객만 분석할 때
- 왜 필요한가?
- 신뢰성 확보를 위해 표본 수, 신뢰구간 개념이 중요
- “이건 샘플이 적어서 일반화 어려움”이라는 프레임 제시 가능
4. 인과 관계를 판단할 때
- 예시: 가격을 낮췄더니 구매가 늘었는가?
- 왜 필요한가?
- 단순 상관과 인과를 구분하는 사고 방식 필요
- 실험 설계 개념, 통제 변수 설정 개념이 적용됨
5. 높은 설득력이 필요한 보고서/전략 기획 시
- 예시: 경영진에게 “전환율 상승은 유의미하다” 설명할 때
- 왜 필요한가?
- 숫자를 넘어서 논리와 신뢰성을 가진 스토리를 만드는 데 통계가 핵심
- 특히 브랜드/퍼포먼스 간 관점 충돌 시 논리 무기 역할
📌 요약: “통계는 판단이 애매한 상황에서 강해진다”
☑️ 즉, 상황에 따라 통계적 개념의 활용이 필요한 경우에는 확장해 활용해보기로 했다.
우선순위가 높진 않지만 이후를 대비하기 위해 알아두면 좋고 적용해보자고 논의했다.
| 상황 | 통계 필요도 |
| 단순 현황 요약 | 낮음 (기술통계로 충분) |
| 액션 효과 검증 | 높음 (가설 검정 필요) |
| 고객군 비교 | 중간 이상 (차이 검증 필요) |
| 데이터 불균형/소량 | 높음 (표본 통계 필요) |
| 설득, 보고 | 중간~높음 (신뢰성 강화) |
✏️ 느꼈던 점 요약
✅ 결국 데이터 분석을 해석하고 이해하는 "데이터 리터러시" 역량을 키우기 위해서는
"통계" "수학"을 통해 데이터 자체를 이해하는 게 중요하다는 것이다.
✅ 개념을 위한 공부보다 활용을 위한 공부가 필요하다.
어떻게 지표를 정의하고 볼 수 있는 지 "문제 해결" 관점에서 숫자를 바라보기
'데이터 분석' 카테고리의 다른 글
| [TIL 19] 데이터 분석에서의 "집합" 개념 적용의 필요성, 이해를 돕는 데 유리하다. (0) | 2025.06.25 |
|---|---|
| [TIL 18] 데이터 리터러시의 중요성, 꾸준함으로 역량을 쌓아야겠다. (6) | 2025.06.24 |
| [TIL 16] 지표와 데이터 정리의 필요성과 중요성(w. 지표 - 분모, 케이스 비교) (0) | 2025.06.18 |
| [TIL 15] SQL 추출 시 쿼리 로직과 조건에 대한 중요성 (0) | 2025.06.16 |
| [TIL 14] 데이터, 지표 정의의 중요성 (0) | 2025.06.14 |