데이터 분석

[TIL 17] 데이터 분석에서의 통계 필요성? 차근히 공부하기로 다짐했다.

쭈경잉 2025. 6. 20. 23:53

데이터 분석을 하면서 "통계"에 대한 필요성에 대한 이야기를 꽤나 들어왔다.

 

그래, 필요하지 그런데 뭐부터 해야 하는 거지? 고민이 되었고

공부한 건 대학교 때 사회 통계를 전공한 덕분에 개념들은 알고 있는 정도였다.

 

그런데 지금 생각해보면 "통계"가 중요한 건 결국 이해도를 높이기 위함이며

실제로 비즈니스 데이터 분석을 할 때에는 통계로 신뢰도를 높이는 것을 잘 하진 않을 것 같다.

 

그럼에도 통계가 필요한 건 신뢰도를 뒷받침하기 위해, 더 데이터를 깊게 이해하기 위해 필요한 지식인 것 같다.

그래서 급하진 않지만 중요한 나만의 개인 프로젝트로 통계 학습과 현업에까지 확장 적용하기로 목표로 잡음!

 

그래서 당장 3분기에 완성!이라기 보다는 3분기에 시작해서 4분기까지 점진적으로 익혀보고자 한다.

(거기에 더불어 수학적 개념 + 데이터 리터러시 역량을 높이는 연습까지 다방면으로 병행해 진행할 예정) 


통계가 왜 필요한 지 다시 한 번 생각해보고 공부해야 할 이유에 대해 고민해보았다. 

🎯 통계 공부 목적 재정리

  1. 실무 적용:
    • 가설 검증, 리포트 작성, 전환율 분석 등 → 당장 업무에 도움
  2. 설득력 강화:
    • 논리적 커뮤니케이션, 보다 확실한 근거 제시
  3. 개념적 성장:
    • 데이터 리터러시 내재화 → 넓은 맥락에서 사고할 수 있는 능력

 

특히 데이터 자체를 깊이 이해하고 해석하려면 통계, 수학, 데이터 리터러시가 필요하다. 

각 개념이 왜 필요한 지, 그 안에서도 반드시 필요한 개념들을 차근히 익혀볼 필요가 있다.

 

1. 통계(Statistics): “데이터가 말하는 신호를 읽는 언어”

🤔 왜 필요할까?

  • 수많은 수치 중 무엇이 의미 있는가를 판단하기 위한 기준 제공
  • 우연인지, 패턴인지, 특이값인지 구분 가능

📝 반드시 필요한 개념

개념 이유
평균/중앙값/분산/표준편차 데이터의 중심과 퍼짐을 이해하는 기본
상관과 인과 단순 동반 현상 vs 실제 영향 구분
정규분포/비정규분포 데이터의 분포형태에 따른 해석 기준 달라짐
표본/모집단/신뢰구간 전체를 대표하는지 여부 판단 기준

2. 수학(Math): “데이터의 구조와 관계를 파악하는 사고 도구”

🤔 왜 필요할까?

  • 통계와 모델링을 수식적으로 이해하고 응용하기 위해
  • 특히 비율, 변화율, 함수 관계는 자주 쓰임

📝 실무자에게 필요한 수학 개념

개념  이유
비율/증감률 계산 전환율, 성장률 등은 모두 퍼센트 기반
기초 함수 개념 (y = f(x)) 변수 간 영향 이해에 기반됨
행렬 개념 (기초) 추후 모델링·벡터 연산 이해에 도움
로그/지수 로그 스케일 지표(예: 수익 분포, 로그 전처리)에 사용

 

☑️ 실제로 비율, 증감률 계산은 일반적으로 많이 활용하는 개념이다. "비율"에서도 분자와 분모에 따른 해석을 이해하는 게 필요하다.


3. 데이터 리터러시(Data Literacy): “숫자 이면의 맥락을 이해하는 힘”

🤔 왜 필요할까?

  • 아무리 통계·수학을 알아도, 데이터 맥락을 이해하지 못하면 오해 위험이 있음
  • 예: 이벤트 기간 데이터, 이상치, 비즈니스 구조에 따른 지표 변화 등

📝 필요한 지식

개념 설명
지표 설계 능력 퍼널 정의, 전환 기준 설정 등
비즈니스 맥락 이해 지표가 어떻게 연결되는지의 구조
이상값/결측치 해석 왜 빠졌는지, 왜 튀었는지를 파악하는 관찰력
시계열 데이터 감각 시간 흐름에 따라 어떤 변화가 자연스러운지

 

☑️ 결국 의미있는 지표, 해석할 수 있는 지표를 만드는 것이 핵심! 근데 이러한 지표를 정의하는 건 데이터 리터러시 역량이 필수다. 


✔️ 참고) 실무에서 통계적 지식이 실질적으로 필요한 5가지 CASE 

1. A/B 테스트 or 개선 전후 효과 비교

  • 예시: 상세페이지 개선 전후 전환율 차이
  • 왜 필요한가?
    • “우연이 아닌 변화다”는 걸 숫자로 증명해야 함
    • t-test, p-value, 신뢰구간 등이 활용됨
  • 통계 없으면? → 그냥 “느낌상 좋아진 것 같음” 수준에 머무름

2. 세그먼트 간 차이 비교

  • 예시: 신규 vs 재구매 고객의 구매 패턴 차이
  • 왜 필요한가?
    • 차이가 있는 듯 보여도 통계적으로 유의미한지 확인해야 액션 설계 가능
    • 카이제곱 검정 등 범주형 분석 활용

3. 데이터가 소량이거나 편향되어 있을 때

  • 예시: 초기 런칭 상품 성과 평가, 특정 채널 유입 고객만 분석할 때
  • 왜 필요한가?
    • 신뢰성 확보를 위해 표본 수, 신뢰구간 개념이 중요
    • “이건 샘플이 적어서 일반화 어려움”이라는 프레임 제시 가능

4. 인과 관계를 판단할 때

  • 예시: 가격을 낮췄더니 구매가 늘었는가?
  • 왜 필요한가?
    • 단순 상관과 인과를 구분하는 사고 방식 필요
    • 실험 설계 개념, 통제 변수 설정 개념이 적용됨

5. 높은 설득력이 필요한 보고서/전략 기획 시

  • 예시: 경영진에게 “전환율 상승은 유의미하다” 설명할 때
  • 왜 필요한가?
    • 숫자를 넘어서 논리와 신뢰성을 가진 스토리를 만드는 데 통계가 핵심
    • 특히 브랜드/퍼포먼스 간 관점 충돌 시 논리 무기 역할

📌 요약: “통계는 판단이 애매한 상황에서 강해진다”

☑️ 즉, 상황에 따라 통계적 개념의 활용이 필요한 경우에는 확장해 활용해보기로 했다.

우선순위가 높진 않지만 이후를 대비하기 위해 알아두면 좋고 적용해보자고 논의했다. 

상황 통계 필요도 
단순 현황 요약 낮음 (기술통계로 충분)
액션 효과 검증 높음 (가설 검정 필요)
고객군 비교 중간 이상 (차이 검증 필요)
데이터 불균형/소량 높음 (표본 통계 필요)
설득, 보고 중간~높음 (신뢰성 강화)

 

✏️ 느꼈던 점 요약 
✅ 결국 데이터 분석을 해석하고 이해하는 "데이터 리터러시" 역량을 키우기 위해서는
"통계" "수학"을 통해 데이터 자체를 이해하는 게 중요하다는 것이다. 
✅ 개념을 위한 공부보다 활용을 위한 공부가 필요하다.
어떻게 지표를 정의하고 볼 수 있는 지 "문제 해결" 관점에서 숫자를 바라보기