실무 데이터 분석할 때 반드시 거쳐야 하는 EDA (Exploratory Data Analysis, 탐색적 데이터 분석) 과정은
데이터를 "분석하기 좋은 상태로 만들고", "패턴과 특이점을 발견"하기 위한 핵심 단계이다.
📊 EDA(탐색적 데이터 분석)란?
데이터를 분석하기 전에 전반적인 구조, 분포, 이상치, 관계 등을 파악해
가설을 세우거나 인사이트의 방향을 잡기 위한 과정
정략 분석 전 EDA를 수행해야 '지표 왜곡'없이, 정확한 해석과 인사이트 도출이 가능하다.
이미 타파트에서 요청 받은 사항에 따라 가설이 세워진 상황이지만
이 가설에 대해서 확인해보기 위해서는 EDA 과정이 필수라고 생각한다.
📊 EDA 전체 프로세스
🧭 EDA 프로세스 요약
✅ 1단계: 데이터 구조 이해
- 컬럼 수, 데이터 타입, Null 여부 확인
- 각 컬럼이 어떤 의미를 갖는지 해석
🔎 체크 포인트
- 각 컬럼의 단위, 범위, 역할 파악했는가?
- 식별자, 날짜, 수치, 범주형 구분 가능한가?
✅ 2단계: 기본 통계 확인
- 수치형 변수: 평균, 중간값, 표준편차, 최대/최소값
- 범주형 변수: 고유값 수, 빈도 상위 항목
🔎 체크 포인트
- 분포가 비정상적인 변수는 없는가?
- 극단값이 포함된 평균값인가?
✅ 3단계: 결측치/이상치 탐색
- Null 비율 확인
- 수치형 이상값 확인 (boxplot, z-score 등 활용)
🔎 체크 포인트
- 결측치는 무시할 수 있는 수준인가?
- 이상치는 실제 값인가 오류인가?
✅ 4단계: 변수 간 관계 탐색
- 수치형: scatter plot, 상관계수
- 범주형 vs 수치형: boxplot, groupby 평균
- 범주형 vs 범주형: 교차표, bar chart
🔎 체크 포인트
- 변수 간 상관관계나 구조적 패턴이 있는가?
- 변수별 그룹 간 차이가 있는가?
✅ 5단계: 시계열/패턴 분석 (있을 경우)
- 시간 흐름에 따른 변화 확인 (trend, seasonality)
- 이상 구간 탐지
🔎 체크 포인트
- 트렌드/주기성 있는가?
- 특정 날짜 이후 이상치가 반복되는가?
✅ 6단계: 핵심 요약 및 정리
- 데이터의 특징 요약: “OO 컬럼은 편향되어 있고, OO는 결측이 많다”
- 이후 분석에 사용할 컬럼 결정
- 필요시 가설 도출
🔎 체크 포인트
- 분석 방향성 설정에 필요한 정보는 충분히 확보했는가?
- 분석에 쓸 변수만 선별되었는가?
📌 EDA 진행 시 실무 팁
| 상황 | 팁 |
| 컬럼이 많다 | 처음엔 범위 좁혀서 분석, 이후 점차 확장 |
| 분포가 심하게 치우침 | 로그 변환 고려 |
| 이상치가 많음 | 시각화 먼저, 제거 기준 명확히 설정 |
| 변수간 관계가 안 보임 | 파생변수 생성도 고려 (ex: 비율, 시간차 등) |
? 현재 상황, 제품 기획을 위해 고객 및 제품 현황 파악이 필요한 상황
💪🏻 주요 질문 POINT
☑️ 최근 12~24개월 동안 신규 고객 수는 증가하고 있는가?
☑️ 재구매 고객 수는 얼마나 늘고 있나?
☑️ 전체 고객 중 신규 vs 재구매 고객의구성 비율은?
☑️ 신규 고객 증가/감소는 특정 시기/계절에 반복되는가?
☑️ 고객 1인당 평균 LTV는 얼마인가?
☑️ LTV가 높은 고객은 어떤 제품군에서 시작했나?
☑️ 제품군별 고객 수 / 재구매율은 어떻게 다른가?
📌 제품 기획을 위한 EDA 전략 프레임워크
🧭 1단계: 목적 중심의 질문 세우기 (EDA의 방향 설정)
아래와 같이 확인하고자 하는 질문을 먼저 명확히 한 뒤, 그에 맞는 데이터 속 패턴을 찾아야 함
| 전략 질문 | 분석 목적 |
| ① 신규 고객이 줄고 있는 게 사실인가? | 문제 진단 |
| ② 재구매 고객은 어떤 제품/속성에 반응하나? | 충성도 기반 확장 가능성 |
| ③ 어떤 제품 시리즈가 성장하고 있고, 어떤 건 정체되어 있나? | 히어로 제품 발굴 |
| ④ 첫 구매 제품이 매출에 어떤 영향을 미치는가? | 전환 유도 제품 전략 설정 |
| ⑤ 시즌성 매출이 매년 어떤 패턴을 보이나? | 재고 및 기획 타이밍 개선 |
📊 2단계: EDA 분석 항목 세팅 (정량 기반)
✅ 고객 중심 분석 (Growth & Behavior)
| 지표 | 설명 |
| 월별 신규/재구매 고객 수 & 성장률 | 문제 진단 (앞서 완료함) |
| 고객당 평균 구매 수량, 객단가 | 세그먼트 분류 가능성 확보 |
| 첫 구매 이후 재구매율 | 구매 유입 제품의 유효성 판단 |
| 고객 LTV (Lifetime Value) | 제품군/세그먼트별 중요도 판단 |
✅ 제품 중심 분석 (Trend & Demand)
| 지표 | 설명 |
| 제품군별 판매량 & 고객 수 | 제품 그룹별(카테고리별) & 시리즈별 분석 |
| 시리즈별 성장률 추이 (3개월 단위) | 신제품 유사 카테고리 포착 |
| USP별 반응률 | 기능성/소재/컬러 태그 기반 반응 확인 |
| 시즈널 제품군의 판매 패턴 | 시즌 진입/이탈 시기 분석 + 재고 전략 참고 |
📌 각 분석 주제별로 EDA가 필요한 이유
1. 신규/재구매 고객 추이
표면적 지표만 보면 "성장/감소"만 알 수 있지만
EDA로 고객 행동 분포, 시기별 편차, 비정상 구간을 같이 살펴봐야 정확한 파악이 필요하다.
✅ 필요한 EDA 요소
- 이상치 탐색 (이벤트/프로모션 영향 확인)
- 고객별 첫 구매/재구매 간격 분포
- 계절성 시각화 (월, 요일, 분기별 차이)
2. LTV 분석
LTV는 단순히 구매금액 누적이 아니라
고객별 구매 간격, 지속기간, 집중도 등을 봐야 ‘충성도 세그먼트’를 제대로 정의할 수 있다.
✅ 필요한 EDA 요소
- 고객별 구매 분포 (구매횟수, 구매금액)
- 첫 구매 ~ 마지막 구매 사이 기간 분포
- 반복 고객 vs 단발 고객 비중
3. 제품군/시리즈 흐름 분석
단순 판매량만 보면 인기제품/시리즈를 구분하기 어렵다,
제품 수명이 짧은 경우, 재고 한정 판매 등도 분석 왜곡 요인이 될 수 있기에 EDA 과정 필요하다.
✅ 필요한 EDA 요소
- 제품별 판매 시작/종료일 분포
- 시리즈별 평균 판매기간, 피크 시점 확인
- 제품군별 반품률 or 단가별 구매 분포
🧠 EDA가 필요한 이유는
| 단계 | 질문 | 역할 |
| 문제 정의 이전 EDA | “우리가 뭘 봐야 하지?” | 분석 설계 도움 |
| 문제 정의 이후 EDA | “그걸 어떻게 보면 더 명확할까?” | 분석 정밀도 향상 + 인사이트 정제 |
✨ 결론: EDA는 지표 해석 전 반드시 필요한 전처리 + 정밀도 확보 작업
✅ 데이터 분석 프로세스의 과정 핵심
'데이터 분석' 카테고리의 다른 글
| [TIL 7] 1-1차 분석. 고객 현황 파악을 위한 신규/재구매자 분석 (0) | 2025.05.06 |
|---|---|
| [TIL 5] 실무 분석에서의 EDA, 정량 분석의 차이점 이해하기 (0) | 2025.05.04 |
| [TIL 3] 2가지 데이터 분석 프레임 워크와 문제 정의 프레임워크를 통한 분석 방향성 잡기의 중요성 (0) | 2025.05.03 |
| [TIL 2] 실무형 데이터 분석 프로젝트를 위한 단계별 로드맵 (1) | 2025.05.01 |
| [TIL 1] 한달 데이터 분석 공부, 어떤 방법으로 하는 것이 효율적인가? (1) | 2025.04.29 |