데이터 분석

[TIL 4] 실무 분석에서 꼭 필요한 EDA 과정 알아 보고 실행해보기

쭈경잉 2025. 5. 4. 17:02

실무 데이터 분석할 때 반드시 거쳐야 하는 EDA (Exploratory Data Analysis, 탐색적 데이터 분석) 과정은
데이터를 "분석하기 좋은 상태로 만들고", "패턴과 특이점을 발견"하기 위한 핵심 단계이다.

 

📊 EDA(탐색적 데이터 분석)란?

데이터를 분석하기 전에 전반적인 구조, 분포, 이상치, 관계 등을 파악해
가설을 세우거나 인사이트의 방향을 잡기 위한 과정

정략 분석 전 EDA를 수행해야 '지표 왜곡'없이, 정확한 해석과 인사이트 도출이 가능하다. 

 

이미 타파트에서 요청 받은 사항에 따라 가설이 세워진 상황이지만

이 가설에 대해서 확인해보기 위해서는 EDA 과정이 필수라고 생각한다.

 

📊 EDA 전체 프로세스

🧭 EDA 프로세스 요약
1. 구조 이해 > 2. 통계 요약 > 3. 결측/이상치 파악 > 4. 변수 간 관계 파악 > 5. 시계열 탐색 (선택) > 6. 요약 및 분석 방향 설정

✅ 1단계: 데이터 구조 이해
  • 컬럼 수, 데이터 타입, Null 여부 확인
  • 각 컬럼이 어떤 의미를 갖는지 해석

🔎 체크 포인트

  • 각 컬럼의 단위, 범위, 역할 파악했는가?
  • 식별자, 날짜, 수치, 범주형 구분 가능한가?

✅ 2단계: 기본 통계 확인
  • 수치형 변수: 평균, 중간값, 표준편차, 최대/최소값
  • 범주형 변수: 고유값 수, 빈도 상위 항목

🔎 체크 포인트

  • 분포가 비정상적인 변수는 없는가?
  • 극단값이 포함된 평균값인가?

✅ 3단계: 결측치/이상치 탐색
  • Null 비율 확인
  • 수치형 이상값 확인 (boxplot, z-score 등 활용)

🔎 체크 포인트

  • 결측치는 무시할 수 있는 수준인가?
  • 이상치는 실제 값인가 오류인가?

✅ 4단계: 변수 간 관계 탐색
  • 수치형: scatter plot, 상관계수
  • 범주형 vs 수치형: boxplot, groupby 평균
  • 범주형 vs 범주형: 교차표, bar chart

🔎 체크 포인트

  • 변수 간 상관관계나 구조적 패턴이 있는가?
  • 변수별 그룹 간 차이가 있는가?

✅ 5단계: 시계열/패턴 분석 (있을 경우)
  • 시간 흐름에 따른 변화 확인 (trend, seasonality)
  • 이상 구간 탐지

🔎 체크 포인트

  • 트렌드/주기성 있는가?
  • 특정 날짜 이후 이상치가 반복되는가?

✅ 6단계: 핵심 요약 및 정리
  • 데이터의 특징 요약: “OO 컬럼은 편향되어 있고, OO는 결측이 많다”
  • 이후 분석에 사용할 컬럼 결정
  • 필요시 가설 도출

🔎 체크 포인트

  • 분석 방향성 설정에 필요한 정보는 충분히 확보했는가?
  • 분석에 쓸 변수만 선별되었는가?

📌 EDA 진행 시 실무 팁
상황
컬럼이 많다 처음엔 범위 좁혀서 분석, 이후 점차 확장
분포가 심하게 치우침 로그 변환 고려
이상치가 많음 시각화 먼저, 제거 기준 명확히 설정
변수간 관계가 안 보임 파생변수 생성도 고려 (ex: 비율, 시간차 등)

? 현재 상황, 제품 기획을 위해 고객 및 제품 현황 파악이 필요한 상황

💪🏻 주요 질문 POINT 
☑️ 최근 12~24개월 동안 신규 고객 수는 증가하고 있는가?
☑️ 재구매 고객 수는 얼마나 늘고 있나?
☑️ 전체 고객 중 신규 vs 재구매 고객의구성 비율은?
☑️ 신규 고객 증가/감소는 특정 시기/계절에 반복되는가?
☑️ 고객 1인당 평균 LTV는 얼마인가?
☑️ LTV가 높은 고객은 어떤 제품군에서 시작했나?
☑️ 제품군별 고객 수 / 재구매율은 어떻게 다른가?

 

📌 제품 기획을 위한 EDA 전략 프레임워크

🧭 1단계: 목적 중심의 질문 세우기 (EDA의 방향 설정)

아래와 같이 확인하고자 하는 질문을 먼저 명확히 한 뒤, 그에 맞는 데이터 속 패턴을 찾아야 함

전략 질문 분석 목적
① 신규 고객이 줄고 있는 게 사실인가? 문제 진단
② 재구매 고객은 어떤 제품/속성에 반응하나? 충성도 기반 확장 가능성
③ 어떤 제품 시리즈가 성장하고 있고, 어떤 건 정체되어 있나? 히어로 제품 발굴
④ 첫 구매 제품이 매출에 어떤 영향을 미치는가? 전환 유도 제품 전략 설정
⑤ 시즌성 매출이 매년 어떤 패턴을 보이나? 재고 및 기획 타이밍 개선

📊 2단계: EDA 분석 항목 세팅 (정량 기반)

 

✅ 고객 중심 분석 (Growth & Behavior)

지표 설명
월별 신규/재구매 고객 수 & 성장률 문제 진단 (앞서 완료함)
고객당 평균 구매 수량, 객단가 세그먼트 분류 가능성 확보
첫 구매 이후 재구매율 구매 유입 제품의 유효성 판단
고객 LTV (Lifetime Value) 제품군/세그먼트별 중요도 판단

✅ 제품 중심 분석 (Trend & Demand)

지표 설명
제품군별 판매량 & 고객 수 제품 그룹별(카테고리별) & 시리즈별 분석
시리즈별 성장률 추이 (3개월 단위) 신제품 유사 카테고리 포착
USP별 반응률 기능성/소재/컬러 태그 기반 반응 확인
시즈널 제품군의 판매 패턴 시즌 진입/이탈 시기 분석 + 재고 전략 참고

📌 각 분석 주제별로 EDA가 필요한 이유

1. 신규/재구매 고객 추이

표면적 지표만 보면 "성장/감소"만 알 수 있지만
EDA로 고객 행동 분포, 시기별 편차, 비정상 구간을 같이 살펴봐야 정확한 파악이 필요하다.

 

✅ 필요한 EDA 요소

  • 이상치 탐색 (이벤트/프로모션 영향 확인)
  • 고객별 첫 구매/재구매 간격 분포
  • 계절성 시각화 (월, 요일, 분기별 차이)

2. LTV 분석

LTV는 단순히 구매금액 누적이 아니라
고객별 구매 간격, 지속기간, 집중도 등을 봐야 ‘충성도 세그먼트’를 제대로 정의할 수 있다. 

 

 필요한 EDA 요소

  • 고객별 구매 분포 (구매횟수, 구매금액)
  • 첫 구매 ~ 마지막 구매 사이 기간 분포
  • 반복 고객 vs 단발 고객 비중

3. 제품군/시리즈 흐름 분석

단순 판매량만 보면 인기제품/시리즈를 구분하기 어렵다,
제품 수명이 짧은 경우, 재고 한정 판매 등도 분석 왜곡 요인이 될 수 있기에 EDA 과정 필요하다. 

 

 필요한 EDA 요소

  • 제품별 판매 시작/종료일 분포
  • 시리즈별 평균 판매기간, 피크 시점 확인
  • 제품군별 반품률 or 단가별 구매 분포

🧠 EDA가 필요한 이유는

단계 질문 역할
문제 정의 이전 EDA “우리가 뭘 봐야 하지?” 분석 설계 도움
문제 정의 이후 EDA “그걸 어떻게 보면 더 명확할까?” 분석 정밀도 향상 + 인사이트 정제
 

✨ 결론: EDA는 지표 해석 전 반드시 필요한 전처리 + 정밀도 확보 작업

 데이터 분석 프로세스의 과정 핵심

[문제 정의][EDA로 흐름과 이상 탐색][정량 지표 분석][인사이트 도출][기획 연결]