지난 TIL 4에 이어 EDA, 정량 분석의 개념이 무엇이 다른가에 대한 고민이 들었다.
지금까지 업무를 진행할 때는 EDA 과정을 진행하기는 했지만 상세한 정리와 기록으로 남기진 않았던 듯하다.
그런데 분석 프로세스를 거칠 때는 EDA 과정이 필수적이며 이 안에서 발견한 데이터 인사이트를 기반으로
정량 분석을 나아간다면 더 유의미한 인사이트 도출이 가능함을 깨달았다.
제품 기획을 하는 데에 있어서 고객 / 제품 현황 분석이 필요한 상황이다.
이에 따라 아래의 3가지 분석을 진행하고자 하고 TIL 4에서는 질문들을 정의했다.
"신규/재구매 고객 수, LTV, 제품 흐름" 분석 전에
먼저 EDA를 통해 “지금 무슨 일이 벌어지고 있는가”를 파악하는 게 선행 작업 으로 꼭 필요하다.
이전에는 이 작업을 꼼꼼하게 보지 않았던 것이 가장 큰 문제점이었다. 이를 보완해보고자 한다.
문득, 개념을 보다 보니 EDA 는 현황 파악을 정량적으로 하는 것이라는 생각이 들었다.
EDA와 정량 분석의 차이를 이해하고 순차적으로 진행해야 한다.
🎯 EDA = 데이터 기반의 '현상 진단'
문제 정의 이후에 실행하는 EDA는 단순 탐색이 아니라 지금 데이터가 말하는 '현실 상황'을 있는 그대로 확인하는 과정
| 구분 | 설명 |
| 🎯 목적 | 수치나 시각화를 통해 현재 상태를 명확히 이해하고 “이상하거나 주목할 만한 패턴”을 찾기 위함 |
| 🔍 관점 | “지금 무슨 일이 벌어지고 있지?” “데이터 흐름이 어떤 구조를 만들고 있지?” |
| 🛠 방법 | 시계열 분석, 분포 확인, Boxplot, Correlation, Segment 비교 등 |
| 📈 결과 | 문제의 규모/추이/구간/분포를 수치와 시각화로 파악해 “우선순위와 가설 수립”에 도움을 줌 |
예를 들면 현상에 따른 EDA를 통한 확인 내용의 예시는 아래와 같다.👇
| 현상 | EDA에서 확인한 내용 |
| 신규 고객이 줄고 있다 | 실제로 월별 신규 수가 전년 대비 –8% 감소함 (Line chart) |
| 재구매 비중이 늘고 있다 | 최근 6개월간 65% 이상 유지 중 (Stacked bar) |
| 특정 제품이 반복 구매를 유도한다 | 고객별 구매 로그 분석 시 재구매자 중 40%가 특정 제품 재구매 |
✅ 그럼 EDA는 언제 '현황 파악'으로 쓰일까?
- 제품 기획팀이 "이거 문제 아닐까?"라고 느끼는 현상 → 데이터로 확인할 때
- 신규 전략을 짤 때 "기존 흐름이 어떤가?"를 파악해야 할 때
- 갑작스러운 변화가 생긴 원인을 파악할 때 (이상치나 특정 이벤트 영향 등)
✅ 실무 요약
| 개념 | 현황 파악 여부 | 역할 |
| EDA | ✅ 맞음 | 현상 진단 / 문제 크기 확인 / 데이터 흐름 정리 |
| 정량 분석 | ❌ 그 이후 | 가설 검증 / 수치화 / 결정 근거 확보 |
✅ 개념 요약: EDA vs 정량 분석
EDA는 정량 분석을 하기에 앞서 현황 파악하고 문제 정의가 맞는 지에 대해서 파악하는 선행 과정이다.
| 구분 | EDA (Exploratory Data Analysis) | 정량 분석 (Confirmatory / Quantitative Analysis) |
| 🔍 목적 | “데이터 안에 뭐가 있는지 탐색” “패턴이나 이상치를 찾아보고 문제 정의” |
“문제에 대한 명확한 가설을 검증” “수치적 근거를 확보하고 인사이트 도출” |
| 🧰 접근 방식 | 그래프, 시각화, 분포 확인, 이상치 탐색 | 수치 계산, 지표 생성, 비교 분석, 테스트 |
| 📊 데이터 준비도 | 가공 전 / 로우 데이터도 포함 가능 | 정제된 데이터 기반 분석이 주를 이룸 |
| 🎯 질문 상태 | "무엇을 봐야 할까?" “이상한 점은 없을까?” |
"정확히 얼마나 증가했나?" "어느 그룹이 유의미한가?" |
| 🛠 사용 도구 | 히스토그램, boxplot, line plot, scatter plot 등 | 평균, 비율, 성장률, 회귀분석, 통계적 검정 등 |
📌 예시로 비교해보기 (제품 시리즈 구매 분석)
✅ EDA
“고객들이 제품의 특정 시리즈를 반복 구매하고 있는 걸까?”
- 제품군별 월별 판매 추이 시각화
- 시리즈별 판매량 분포 그래프
- Boxplot으로 반복 구매 횟수 분포 확인
→ 패턴이나 흐름, 예외 구간을 파악
✅ 정량 분석
“BEST 3 재구매율은 다른 시리즈 혹은 제품보다 유의하게 높은가?”
- 제품 시리즈별 재구매율 계산
- 월별 성장률, LTV 비교
- 시리즈별 평균 재구매 횟수 계산
→ 수치로 비교하고, 전략 방향을 정할 수 있음
🎯 핵심 차이 요약
| EDA | 정량 분석 |
| 데이터를 보는 단계 | 데이터로 답을 내는 단계 |
| 탐색적, 직관적, 가설 전 | 검증적, 수치 중심, 가설 후 |
| “어떤 흐름이 보이지?” | “정말 차이가 있나?” |
✨ 실무에서의 활용 TIP
"EDA 없이 정량 분석만 하면 방향이 틀릴 수 있고, 정량 분석 없이 EDA만 하면 인사이트가 모호해진다."
🎯 3가지 분석 주제에 따른 EDA(탐색적 분석) VS 정량 분석(지표 기반) 질문과 방법 구조화하기
이 구조는 실제 업무에서
- "지금 어떤 질문을 던져야 하고"
- "그 질문에 답하려면 EDA로 뭘 봐야 하며"
- "지표로 뭘 산출해내야 하는가" 까지 정리할 수 있는 실전형 업무 프레임워크이다.
[1] 신규/재구매 고객 추이 분석
| 분석 질문 | 🔍 EDA 접근 방식 | 📊 정량 분석 방법 |
| 신규 고객은 실제로 줄고 있는가? | - 월별 신규 고객 수 시계열 시각화 - 이동 평균선/계절성 확인 |
- 신규 고객 수 - 신규 고객 MoM/YoY 성장률 - CAGR (연평균 성장률) |
| 재구매 고객은 어떻게 변하고 있나? | - 재구매 고객 비율 시각화 - 고객 생애 주기 흐름 확인 |
- 재구매 고객 수 - 재구매 비중 추이 - 재구매율 |
| 전체 구조에서 비중은 어떻게 바뀌었는가? | - 누적 고객 기준 스택바/비중 그래프 | - 신규 vs 재구매 비중 (%) - 전체 고객 중 1회 vs N회 구매자 비율 |
| 특정 시점에 이상치가 있나? | - 시즌성/프로모션 구간 이상치 탐색 | - 성장률 급변 시점 → 코멘트 필요 (원인/캠페인 유무 등) |
[2] 고객 LTV 분석
| 분석 질문 | 🔍 EDA 접근 방식 | 📊 정량 분석 방법 |
| 고객당 평균 LTV는? | - 고객별 누적 구매금액 분포 (히스토그램) | - 고객당 평균 구매금액 - 고객별 LTV 상위 20% 구성비 |
| 재구매 간격은 어떻게 되는가? | - 구매 간격(일 수) 분포 - Boxplot (이탈 경계 추정) |
- 평균 재구매 간격 - 2회 이상 구매 고객 비중 |
| 충성 고객의 특성은? | - LTV 상위 고객군 분석 - 가입일, 성별 등 비교 |
- 상위 20% 고객군 = VIP 기준 - VIP군의 주요 제품군/첫구매 제품 |
| 1회성 고객은 어느 구간에서 이탈하나? | - 마지막 구매일 히스토그램 - 고객군별 생존 분석 |
- 이탈 고객군 비중 - 1회 구매 후 미전환 비율 |
[3] 제품군 / 시리즈 흐름 분석
| 분석 질문 | 🔍 EDA 접근 방식 | 📊 정량 분석 방법 |
| 어떤 제품군이 성장하고 있나? | - 제품군별 월별 판매 트렌드 시각화 - Line Plot + 수요 피크 시점 확인 |
- 제품군별 판매량/고객 수 - 군별 성장률 (MoM, QoQ, YoY) |
| 시리즈 흐름은 어떤가? | - 시리즈별 생애주기 그래프 (출시~소진) | - 시리즈별 판매 피크 기간 - 시리즈별 반복 구매율 |
| 제품군별 재구매율은? | - 군별 재구매 고객 비중 비교 (Barplot) | - 제품별 재구매율 |
| 첫 구매 유입은 어떤 제품군에서 이루어지나? | - 첫 구매 제품군 분포 (Pie chart / Bar) | - 신규 고객 첫구매 제품군 비중 - 전환율 높은 제품군 |
🎯 요약: 분석 프레임 맵
| 분석 영역 | 🔍 EDA 목적 | 📊 정량 분석 목적 |
| 고객 추이 | 흐름/비정상 확인 | 수치화된 구조 변화 |
| LTV | 분포/군 특성 탐색 | VIP 기준 수립 & 이탈지점 도출 |
| 제품 흐름 | 시리즈 수명주기 파악 | 히어로 후보 선정 & 반복성 측정 |
신규 고객과 재구매 고객 현황 파악을 실제로 EDA → 정량 분석으로 넘어가는 실무 흐름의 예시를 통해 이해해보기
🎯 신규/재구매 고객 현황 파악: 분석 흐름 예시
(EDA → 문제 정의 → 정량 분석 → 인사이트 도출까지)
🧭 Step 1: EDA – 흐름 탐색 (무엇이 보이는가?)
| 관찰 대상 | EDA 분석 내용 | 시각화 예시 |
| 신규 고객 수 추이 | - 월별 신규 고객 수 시계열 확인 - 프로모션/비수기와 비교 |
Line chart (월별 신규 고객 수) |
| 재구매 고객 수 추이 | - 동일하게 시계열 흐름 확인 - 신규와 함께 겹쳐서 비교 |
Line chart (신규 vs 재구매) |
| 비중 변화 | - 신규/재구매 고객 비중 변화 확인 | Stacked Bar or Area chart |
| 계절성/이상치 | - 분기별 반복되는 패턴이 있는가? - 특정 월에 급증/급감하는 구간은? |
Boxplot or Seasonality line |
🔍 EDA 관찰 요약 (예시):
- 2023년 3~5월, 2024년 6~7월에 신규 고객 수 급증
- 2024년 말 이후부터는 재구매 고객 비중이 65% 이상으로 전환
- 연말(11~12월)엔 전체 고객 수 하락 → 비수기일 가능성
🎯 Step 2: 문제 정의 – 분석 목적 명확화
- “신규 고객 유입이 줄고 있다는 가설은 정량적으로 맞는가?”
- “브랜드는 지금 충성고객 중심 구조로 바뀌고 있는가?”
- “26SS 전략은 신규 유입보다 리텐션 기반 확장에 집중해야 하는가?”
→ 이 질문에 답하려면 수치 기반의 구조적 검증이 필요하다.
📊 Step 3: 정량 분석 – 지표로 구조화
| 분석 지표 | 정의 | 해석 포인트 |
| 신규 고객 수 | 월별 최초 구매 고객 수 | 증가/감소 여부, CAGR |
| 재구매 고객 수 | 월별 2회 이상 구매 고객 수 | 반복성 구조 존재 여부 |
| 전체 고객 수 | 월별 전체 구매 고객 수 | 전반적 성장 파악 |
| 신규 고객 비중 | 신규 고객 수 / 전체 고객 수 | 유입 위주 vs 유지 위주 구조 |
| 재구매 고객 비중 | 재구매 고객 수 / 전체 고객 수 | 충성도 구조 형성 여부 |
| 성장률 (MoM, YoY) | 각 지표의 전월/전년대비 성장률 | 시기별 반등/하락 구간 찾기 |
| CAGR | 시작~종료 시점의 연평균 성장률 | 장기 성장속도 추정 |
🔍 정량 분석 인사이트 예시:
- 최근 1년간 신규 고객 수는 YoY 기준 –8%, 재구매 고객 수는 +24%
- 신규 고객 CAGR: +584%, 재구매 고객 CAGR: +290%
- 2024년 8월 이후 신규 고객 비중이 40% → 25%로 하락, 브랜드 구조 전환 명확
💡 Step 4: 인사이트 & 전략 연결
| 발견한 사실 | 전략적 시사점 |
| 신규 고객 비중이 줄고 있음 | 26SS에서 첫구매 유도 제품군(진입장벽 낮은 제품) 확보 필요 |
| 재구매 고객 기반이 성장 중 | 충성 고객 세그먼트 맞춤형 확장 제품 우선순위 상향 |
| 시즌성 영향 명확 (봄/여름 유입 증가) | 제품 출시/캠페인 타이밍은 3 |
📌 요약: 신규/재구매 분석의 전체 흐름 맵
EDA를 통해 현황 파악 후 문제 정의한 것이 맞는 지 확인 후 정량 분석을 통해 인사이트를 도출하여 전략을 잡는 것이 포인트!
'데이터 분석' 카테고리의 다른 글
| [TIL 6] PBL 전략 수립을 위한 브랜드 현황 파악 방향성 기획 (0) | 2025.05.06 |
|---|---|
| [TIL 7] 1-1차 분석. 고객 현황 파악을 위한 신규/재구매자 분석 (0) | 2025.05.06 |
| [TIL 4] 실무 분석에서 꼭 필요한 EDA 과정 알아 보고 실행해보기 (0) | 2025.05.04 |
| [TIL 3] 2가지 데이터 분석 프레임 워크와 문제 정의 프레임워크를 통한 분석 방향성 잡기의 중요성 (0) | 2025.05.03 |
| [TIL 2] 실무형 데이터 분석 프로젝트를 위한 단계별 로드맵 (1) | 2025.05.01 |