데이터 분석

[TIL 14] 데이터, 지표 정의의 중요성

쭈경잉 2025. 6. 14. 12:09

이번 데이터 분석을 진행하며 "데이터", "지표"는 다르고

이를 잘 구분해서 "정의"하는 게 분석에 있어서 얼마나 중요한 지 느끼게 되었다.

 

이번 분석 과정에서 어느 "컬럼"을 활용해서 "지표"로 만들 것이냐

이 분석 안건에 대해서는 어떤 것으로 얘기를 할 수 있지?에 대해서 고민을 많이 했다.

 

그래도 그 안에서 구체적으로 정의를 내리진 못했던 것 같다. 

이러한 기획 과정이 빠지긴 했지만 그래도 나름의 고민을 했기에 무난하게 분석 완료 -

 

그 안에서 이번 과정 확실히 느꼈던 데이터와 지표에 대해서 내가 느낀 바를 적어보려 한다.


 데이터 vs 지표의 차이점

항목 데이터(Data)  지표(Metrics) 
정의 분석에 활용된 원천 테이블, 필드, 로우 기준의 구조화된 정보 데이터를 기반으로 계산/요약된 수치화된 결과
역할 분석의 기반 재료 인사이트 도출의 핵심 결과
예시 member_id, pay_date, product_name,
n_times, category_name 등
신규구매율, 재구매율, 평균 결제 금액, 첫 구매 비중 등
사용 목적 쿼리 작성, 필터링, 조인, 분류 등의 분석 전처리 특정 행동이나 경향성을 수치로 설명하기 위함
정리 형태 필드 설명 + 데이터셋 명세서 형태 정의 + 수식 + 사용 맥락 + 기준선 함께 정리

 

➡️ 가설 및 분석 안건에서 "무엇을" "왜" 보고자 하느냐에 따라 지표를 정의하고 그 지표를 토대로 데이터를 수치적으로 정의하기

✏️ 지표는 항상 데이터의 해석 가능한 형태이고, 분석의 목적에 따라 같은 데이터를 다른 지표로 만들 수도 있다.


✏️ 지표 정의 시 고려해야 할 요소

  1. 분석 목적을 먼저 정리
    • “어떤 문제를 해결하고 싶은가?”
      예: 유입은 많은데 구매가 안 되는 이유 → 상세페이지 전환율?
  2. 정의 가능한 데이터 컬럼을 체크
    • 목적에 맞는 컬럼이 실제 로그에 존재하는지 확인
      예: 장바구니 클릭 로그가 없다면 장바구니 전환율은 만들 수 없음
  3. 집계 방식 명확히
    • 분모와 분자를 어떻게 정의할 것인지 정리
      예: 전환율 = 구매자 수 / 방문자 수? or / 상세페이지 진입자 수?
  4. 중복 여부와 기준 시점
    • 중복 제거 여부: 일별 vs. 유저별
    • 기준 시점: 분석 대상 기간, 유입 기준일, 구매일 기준 등

🤔 왜 중요할까?

  1. 문제 해결의 정확한 출발점 제공
    • 데이터를 어떤 기준으로 지표화하느냐에 따라 인사이트 방향이 완전히 달라짐
    • 예: 클릭수 vs. 클릭률 → 같은 데이터라도 지표 정의에 따라 해석이 다름
  2. 구체적 액션 도출 가능
    • 애매하게 “이 상품이 안 팔려요”가 아니라,
      → “이 상품은 유입 대비 장바구니 추가율이 낮음”이라고 말하면
      개선 포인트(상품 설명, 혜택, 사진 등)를 도출하기 쉬움
  3. 조직 커뮤니케이션 효율 증가
    • 여러 부서와 협업할 때 ‘정의된 지표’를 기준으로 이야기하면 커뮤니케이션이 쉬워지고 설득력이 생김 

 

✅  데이터 정리 시 포함하면 좋은 항목

📘 분석 로직이나 쿼리 재사용, 협업 전달 효율성 향상 목적

항목 설명 예시
데이터 출처 BigQuery 테이블 이름: order_detail_product
분석 기간 '2025-01-01' ~ '2025-05-31'
주요 필드 member_id, pay_date, product_name, n_times, category_name, product_pay_value, product_quantity
전처리 내용 - category_name 기준으로 제품 구분 
- n_times 기반으로 브랜드 재구매자 구분(2회차 이상) 
- 모달 컬렉션 제품 리스트 필터링
파생 필드 예시 - cloth_purchase_flag
- first_n_times
- first_category_date
- total_product_pay_value
주의점 - 중복된 member_id 주의
- pay_date vs n_times 기반 판단 차이점 인지 필요

 

➡️ 제품을 첫구매하는 사람을 구하는 것인 지, 브랜드에서 생애 최초 첫구매하는 사람을 구하는 것인 지 대상과 기간, 그리고 비교 대상은 누구로 할 것인 지에 대해 생각하는 과정을 거쳐보는 게 필요하다. 


지표 정리 시 포함하면 좋은 항목

📊 인사이트 전달 / 대시보드화 / 결과 근거로 사용 목적

항목 설명 예시 
지표명 교차 구매율(상의+하의 모두 주문) 
정의 동일 시점 또는 순차적으로 상의, 하의 제품을 구매한 사람의 비율
수식 cross_purchase_user / total_collection_user
분석 기준 member_id 단위, pay_date 기준
사용 쿼리 cross_purchase_flag = 'simultaneous' OR 'sequential' 기준 필터
기준선 / 비교값 전체 교차 구매율: 9%, 컬렉션 내 교차 구매율: 10.8%
활용 맥락 컬렉션의 카테고리 확장 기획의 유효성 검증 지표로 활용
변화 추이 캠페인 전후 추이 시각화 통해 전환 변화 파악 가능

 

➡️ 처음 지표를 기획할 때, 정의되는 부분과 수식, 분석 기준과 사용 쿼리, 기준 및 비교 값, 활용 맥락 등

구체적으로 지표를 어떻게 표현할 것인 지에 대해 예측 시나리오 과정을 거치는 게 필요함을 느꼈다. 

 


분석 설계 및 기획 단계에서 체크하기

위의 사항들을 분석 설계와 기획 단계에서 구체화해보는 게 좋다.

다소 지표가 모호할 때가 많아서 이 지표를 수치화하고 구체화하는 게 중요한 것 같다.

 

✏️ 지표 중 어떤 대상 & 기간으로 비교할 것인 지 1차 시나리오 예측해 작성해보기

 

📝 다음 번 꼭 적용할 점 

  • 고객 단위 분석, 비회원 제외해야 할 경우 base가 되는 테이블에 조건 추가하는 것 잊지 말기
  • 데이터 및 지표를 정의할 때 용어를 수치화할 수 있나?에 대한 부분을 고민하기
    • ex. 상당히 많은 사람 → 상당히 많은 사람..? 재구매율이 높은 편 → 높은 “편”..?
  • 지표, 데이터 정의할 때 “기간” “대상” “조건” 3가지를 고민하기
  • 비교군이 되는 대상 선정하는 데에 고민하기 → 단, 이것은 기본적인 "비즈니스"에 대한 이해도가 선행되어야 하는 부분인 것 같다. 

📝 다음 번 추출 단계에서 함께 고려할 점 

  • 데이터 및 지표에 대한 정의를 구체화한 뒤 컬럼 리스트업 진행하기 → 데이터셋에 대한 이해도!
  • 로직 및 필터링 조건에 대해서 예측해보고 샘플 데이터로 1차 진행 후 추출하기 (*정합성 및 원하는 데이터 추출되었는 지 체크 용도) 

 

✏️ 데이터 분석에서 "데이터"와 "지표"를 명확히 구분하고 정의하는 것은 분석의 방향성과 실행 가능성을 결정짓는 핵심!

 


🛠️ 실무 적용 팁

  • 데이터 추출 전 Step-by-step 설계
    1. 목적 정의 →
    2. 필요한 지표 →
    3. 지표 정의 (분자/분모) →
    4. 필요한 컬럼 리스트업 →
    5. 추출 SQL 설계
  • 지표 정의 문서화
    • 모든 지표는 “정의서”처럼 정리해두면 협업 및 반복 분석에 좋음
       
      [지표명] : 상세페이지 → 장바구니 전환율
      [정의] : 장바구니 버튼 클릭 유저 수 / 상세페이지 유입 유저 수
      [데이터 컬럼] : user_id, page_type, click_event
      ➡️ 필수적인 요소들은 무조건 포함, 이외의 분석기준, 사용 쿼리, 기준선, 활용 맥락, 변화 추이의 경우 참고사항으로 적어두기!
  • 지표 단위는 목적에 따라 다르게
    • 신규 고객 지표 vs. 재구매 고객 지표 → 분리 관리
    • 페이지 수준 지표 vs. 캠페인 수준 지표 등

 

지표라는 것은 더 의미있게 사용하기 위해서는 어떤 문제를 해결하고자 하는 가,

어떤 것을 수치적으로 확인하고 싶은 이유가 무엇인가를 더 깊게 고민해봐야 하는 것 같다.

 

앞으로 이런 과정에 대해 더 깊게 고민하고 "기획" "설계"하는 데에 힘을 쏟도록 해야겠다. 

 

✏️ 분석을 하면서 느꼈던 점 요약 
✅ 초기 기획 & 데이터셋 정의 단계가 70% 이상이다. 문제를 푸는 데에 가장 큰 시작점 
✅ 어떤 기준, 기간, 데이터, 비교 대상을 통해 볼 것인 지 고민하는 과정도 매우매우 중요하다