이번 데이터 분석을 진행하며 "데이터", "지표"는 다르고
이를 잘 구분해서 "정의"하는 게 분석에 있어서 얼마나 중요한 지 느끼게 되었다.
이번 분석 과정에서 어느 "컬럼"을 활용해서 "지표"로 만들 것이냐
이 분석 안건에 대해서는 어떤 것으로 얘기를 할 수 있지?에 대해서 고민을 많이 했다.
그래도 그 안에서 구체적으로 정의를 내리진 못했던 것 같다.
이러한 기획 과정이 빠지긴 했지만 그래도 나름의 고민을 했기에 무난하게 분석 완료 -
그 안에서 이번 과정 확실히 느꼈던 데이터와 지표에 대해서 내가 느낀 바를 적어보려 한다.
✅ 데이터 vs 지표의 차이점
| 항목 | 데이터(Data) | 지표(Metrics) |
| 정의 | 분석에 활용된 원천 테이블, 필드, 로우 기준의 구조화된 정보 | 데이터를 기반으로 계산/요약된 수치화된 결과 |
| 역할 | 분석의 기반 재료 | 인사이트 도출의 핵심 결과 |
| 예시 | member_id, pay_date, product_name, n_times, category_name 등 |
신규구매율, 재구매율, 평균 결제 금액, 첫 구매 비중 등 |
| 사용 목적 | 쿼리 작성, 필터링, 조인, 분류 등의 분석 전처리 | 특정 행동이나 경향성을 수치로 설명하기 위함 |
| 정리 형태 | 필드 설명 + 데이터셋 명세서 형태 | 정의 + 수식 + 사용 맥락 + 기준선 함께 정리 |
➡️ 가설 및 분석 안건에서 "무엇을" "왜" 보고자 하느냐에 따라 지표를 정의하고 그 지표를 토대로 데이터를 수치적으로 정의하기
✏️ 지표는 항상 데이터의 해석 가능한 형태이고, 분석의 목적에 따라 같은 데이터를 다른 지표로 만들 수도 있다.
✏️ 지표 정의 시 고려해야 할 요소
- 분석 목적을 먼저 정리
- “어떤 문제를 해결하고 싶은가?”
예: 유입은 많은데 구매가 안 되는 이유 → 상세페이지 전환율?
- “어떤 문제를 해결하고 싶은가?”
- 정의 가능한 데이터 컬럼을 체크
- 목적에 맞는 컬럼이 실제 로그에 존재하는지 확인
예: 장바구니 클릭 로그가 없다면 장바구니 전환율은 만들 수 없음
- 목적에 맞는 컬럼이 실제 로그에 존재하는지 확인
- 집계 방식 명확히
- 분모와 분자를 어떻게 정의할 것인지 정리
예: 전환율 = 구매자 수 / 방문자 수? or / 상세페이지 진입자 수?
- 분모와 분자를 어떻게 정의할 것인지 정리
- 중복 여부와 기준 시점
- 중복 제거 여부: 일별 vs. 유저별
- 기준 시점: 분석 대상 기간, 유입 기준일, 구매일 기준 등
🤔 왜 중요할까?
- 문제 해결의 정확한 출발점 제공
- 데이터를 어떤 기준으로 지표화하느냐에 따라 인사이트 방향이 완전히 달라짐
- 예: 클릭수 vs. 클릭률 → 같은 데이터라도 지표 정의에 따라 해석이 다름
- 구체적 액션 도출 가능
- 애매하게 “이 상품이 안 팔려요”가 아니라,
→ “이 상품은 유입 대비 장바구니 추가율이 낮음”이라고 말하면
개선 포인트(상품 설명, 혜택, 사진 등)를 도출하기 쉬움
- 애매하게 “이 상품이 안 팔려요”가 아니라,
- 조직 커뮤니케이션 효율 증가
- 여러 부서와 협업할 때 ‘정의된 지표’를 기준으로 이야기하면 커뮤니케이션이 쉬워지고 설득력이 생김
✅ 데이터 정리 시 포함하면 좋은 항목
📘 분석 로직이나 쿼리 재사용, 협업 전달 효율성 향상 목적
| 항목 | 설명 예시 |
| 데이터 출처 | BigQuery 테이블 이름: order_detail_product |
| 분석 기간 | '2025-01-01' ~ '2025-05-31' |
| 주요 필드 | member_id, pay_date, product_name, n_times, category_name, product_pay_value, product_quantity |
| 전처리 내용 | - category_name 기준으로 제품 구분 - n_times 기반으로 브랜드 재구매자 구분(2회차 이상) - 모달 컬렉션 제품 리스트 필터링 |
| 파생 필드 예시 | - cloth_purchase_flag - first_n_times - first_category_date - total_product_pay_value |
| 주의점 | - 중복된 member_id 주의 - pay_date vs n_times 기반 판단 차이점 인지 필요 |
➡️ 제품을 첫구매하는 사람을 구하는 것인 지, 브랜드에서 생애 최초 첫구매하는 사람을 구하는 것인 지 대상과 기간, 그리고 비교 대상은 누구로 할 것인 지에 대해 생각하는 과정을 거쳐보는 게 필요하다.
✅ 지표 정리 시 포함하면 좋은 항목
📊 인사이트 전달 / 대시보드화 / 결과 근거로 사용 목적
| 항목 | 설명 예시 |
| 지표명 | 교차 구매율(상의+하의 모두 주문) |
| 정의 | 동일 시점 또는 순차적으로 상의, 하의 제품을 구매한 사람의 비율 |
| 수식 | cross_purchase_user / total_collection_user |
| 분석 기준 | member_id 단위, pay_date 기준 |
| 사용 쿼리 | cross_purchase_flag = 'simultaneous' OR 'sequential' 기준 필터 |
| 기준선 / 비교값 | 전체 교차 구매율: 9%, 컬렉션 내 교차 구매율: 10.8% |
| 활용 맥락 | 컬렉션의 카테고리 확장 기획의 유효성 검증 지표로 활용 |
| 변화 추이 | 캠페인 전후 추이 시각화 통해 전환 변화 파악 가능 |
➡️ 처음 지표를 기획할 때, 정의되는 부분과 수식, 분석 기준과 사용 쿼리, 기준 및 비교 값, 활용 맥락 등
구체적으로 지표를 어떻게 표현할 것인 지에 대해 예측 시나리오 과정을 거치는 게 필요함을 느꼈다.
✅ 분석 설계 및 기획 단계에서 체크하기
위의 사항들을 분석 설계와 기획 단계에서 구체화해보는 게 좋다.
다소 지표가 모호할 때가 많아서 이 지표를 수치화하고 구체화하는 게 중요한 것 같다.
✏️ 지표 중 어떤 대상 & 기간으로 비교할 것인 지 1차 시나리오 예측해 작성해보기
📝 다음 번 꼭 적용할 점
- 고객 단위 분석, 비회원 제외해야 할 경우 base가 되는 테이블에 조건 추가하는 것 잊지 말기
- 데이터 및 지표를 정의할 때 용어를 수치화할 수 있나?에 대한 부분을 고민하기
- ex. 상당히 많은 사람 → 상당히 많은 사람..? 재구매율이 높은 편 → 높은 “편”..?
- 지표, 데이터 정의할 때 “기간” “대상” “조건” 3가지를 고민하기
- 비교군이 되는 대상 선정하는 데에 고민하기 → 단, 이것은 기본적인 "비즈니스"에 대한 이해도가 선행되어야 하는 부분인 것 같다.
📝 다음 번 추출 단계에서 함께 고려할 점
- 데이터 및 지표에 대한 정의를 구체화한 뒤 컬럼 리스트업 진행하기 → 데이터셋에 대한 이해도!
- 로직 및 필터링 조건에 대해서 예측해보고 샘플 데이터로 1차 진행 후 추출하기 (*정합성 및 원하는 데이터 추출되었는 지 체크 용도)
✏️ 데이터 분석에서 "데이터"와 "지표"를 명확히 구분하고 정의하는 것은 분석의 방향성과 실행 가능성을 결정짓는 핵심!
🛠️ 실무 적용 팁
- 데이터 추출 전 Step-by-step 설계
- 목적 정의 →
- 필요한 지표 →
- 지표 정의 (분자/분모) →
- 필요한 컬럼 리스트업 →
- 추출 SQL 설계
- 지표 정의 문서화
- 모든 지표는 “정의서”처럼 정리해두면 협업 및 반복 분석에 좋음
[지표명] : 상세페이지 → 장바구니 전환율
[정의] : 장바구니 버튼 클릭 유저 수 / 상세페이지 유입 유저 수
[데이터 컬럼] : user_id, page_type, click_event
➡️ 필수적인 요소들은 무조건 포함, 이외의 분석기준, 사용 쿼리, 기준선, 활용 맥락, 변화 추이의 경우 참고사항으로 적어두기!
- 모든 지표는 “정의서”처럼 정리해두면 협업 및 반복 분석에 좋음
- 지표 단위는 목적에 따라 다르게
- 신규 고객 지표 vs. 재구매 고객 지표 → 분리 관리
- 페이지 수준 지표 vs. 캠페인 수준 지표 등
지표라는 것은 더 의미있게 사용하기 위해서는 어떤 문제를 해결하고자 하는 가,
어떤 것을 수치적으로 확인하고 싶은 이유가 무엇인가를 더 깊게 고민해봐야 하는 것 같다.
앞으로 이런 과정에 대해 더 깊게 고민하고 "기획" "설계"하는 데에 힘을 쏟도록 해야겠다.
✏️ 분석을 하면서 느꼈던 점 요약
✅ 초기 기획 & 데이터셋 정의 단계가 70% 이상이다. 문제를 푸는 데에 가장 큰 시작점
✅ 어떤 기준, 기간, 데이터, 비교 대상을 통해 볼 것인 지 고민하는 과정도 매우매우 중요하다
'데이터 분석' 카테고리의 다른 글
| [TIL 16] 지표와 데이터 정리의 필요성과 중요성(w. 지표 - 분모, 케이스 비교) (0) | 2025.06.18 |
|---|---|
| [TIL 15] SQL 추출 시 쿼리 로직과 조건에 대한 중요성 (0) | 2025.06.16 |
| [TIL 13] 데이터셋 기획, 결과 예측하는 것의 중요성 (2) | 2025.06.06 |
| [TIL 12] 분석 설계, 분석 시나리오 작성 (0) | 2025.06.03 |
| [TIL 12] 분석 2-1차 회고 : 분석 4 STEP 프로세스, 가설 언어화의 중요성 (2) | 2025.06.02 |