데이터 분석

[TIL 13] 데이터셋 기획, 결과 예측하는 것의 중요성

쭈경잉 2025. 6. 6. 21:34

데이터를 추출하면서 처음에는 어떻게 뽑을 지, 어떤 컬럼을 전처리해야 하는 지 감이 잘 오지 않았다.

 

특히 SQL을 이론상으로만 경험해보고 이전에는 데이터 처리가 엑셀로 충분히 가능했던 곳을 다녔다면

이번 회사에서는 감사하게도 데이터 양이 방대해서 SQL을 다루면서 업무를 진행해야 했다. 

 

SQL로 하는 데이터 분석 강의를 기획했을 때는 그저 먼 이야기로 느껴졌는 데

어느새 내가 직접 활용하며 데이터 분석을 해야 한다고 하니 갈길이 험난하다.

 

✏️ 내가 기획 단계를 각 업무마다 거치는 이유

아직 분석 업무에 익숙하지 않기에 기획 단계에 더 힘을 쏟기로 했다.

사전적 정의에 따르면 기획은 어떤 대상에 대해 그 대상의 변화를 가져올 목적을 확인하고,

그 목적을 성취하는 데에 가장 적합한 행동을 설계하는 것을 의미한다.

 

퇴사한 이형 유튜브에서는 이러한 "기획"은 중요한 것이며 초반에는 프레임워크를 잡는 데 오래 걸리고

또 업무를 실제로 수행하는 데 이것들을 모두 고려하기란 쉽지 않다.

 

그러나 지금 내가 이렇게 단계별로 기획을 해나가고 실제로 실행하며 보완하는 건

나를 위해서이기도 하고 앞으로 분석을 더 효율적이게 하기 위한 초반의 노력과 투자라고 생각한다.

 

특히 기획이 중요한 이유는 "결과의 예측성"이기 때문인 것 같다.

데이터 분석 결과가 어떻게 될 것인 지 예측하는 것과 더불어 데이터 추출 단계에서

이러한 데이터셋을 뽑으면 이 다음 단계인 분석에서 용이하게 만들어 줄 것이다.

 

📝 데이터셋 기획의 장단점

☑️ 장점

1️⃣ 기획된 결과로 방향을 잡을 수 있다. 

추출한 것의 결과를 예측하다 보니 맞는 방향으로 추출하는 것인 지 꼬이지 않고 방향을 잡을 수 있다. 

2️⃣ 기록 및 히스토리를 통해 효율적인 업무가 가능하다.

기획된 결과를 가지고 회의를 했고 그러면서 분석 방향도 잡아나갈 수 있었다.

논리적인 방향으로 기획이 된 건지 확인하는 측면에서는 좋다.

하나의 기획서를 가지고 커뮤니케이션할 수 있고 이후 타파트의 이해도를 높일 수 있다. 

3️⃣ 추출하면서 헷갈릴 때 지침서가 되어 준다.

실제로 추출하고 데이터를 보다 보면 이것도 필요한 것 같은 데? 이건 어떻게 되지?라며

혼란스러울 때가 많다. 그때 일종의 지침서로 길을 잃지 않게 해준다.

 

☑️ 단점

1️⃣ 시간이 다소 오래 걸린다. 초기 설계 시간이 걸린다. 

기획하는 것도 물론 좋지만 추출 기획도 세분화해서 하는 건 처음이라 그런지 기획하는 데에 시간이 많이 걸렸다.

원래 기획 3시간 정도면 했었지만 이번에는 2배 정도가 걸렸다.

예측했을 때는 4시간이면 될 줄 알았는 데 커뮤니케이션에 수정까지 하면 거의 6~7시간 소요되었다. 

2️⃣ 실행하는 단계에서 추출 <> 분석은 단계로 쪼갤 수 없다.

실제로 추출 후 분석하면서 추가 추출이 필요한 경우가 꽤나 있더라

그런 경우에는 컬럼 추가가 되어야 할 수 있고 기획서가 일부 다른 부분이 있을 땐 헷갈릴 때도 있다. 

 

결론부터 말하자면 기획하는 단계는 필수라고 생각한다.

 

그렇지만 단기적인 관점에서 본다면 업무 시간이 꽤나 길게 걸리는 편이고

한번 기획 단계에서 꼬여버리면 업무를 하는 데에 어려움이 있다는 것이 있다.

 

✏️ 특히나 빠르게 실행해야 하는 경우에는 이와 같은 단계가 불필요하게 느껴질 수 있다.

그래서 기획 단계를 조금 더 필수 값들 위주로 채워놓고 추출을 하면서 기획서를 업데이트 하는 방향으로 업무를 진행했다. 


✅ 데이터셋 기획 절차

  1. 문제 정의 및 분석 목적 설정
    • 예: “첫 구매율을 높이기 위해 상세페이지 전환률을 분석한다”
  2. 지표 정의 및 주요 변수 설정
    • 예: 유입 채널, 장바구니 클릭, 결제 완료 등
  3. 데이터 구조 설계
    • 어떤 테이블에서 어떤 컬럼을 뽑을지, 조인 여부, granularity(단위) 설정
    • 예: session 단위 vs user 단위
  4. 데이터 수집 및 추출 계획
    • 추출 쿼리 미리 작성, 이벤트 로그 또는 파라미터 유무 확인
  5. 예상 결과 시뮬레이션
    • 샘플 추출 후 분포 확인 → 인사이트 유의미성 검토
  6. 정제/가공 방식 정의
    • 이상값 제거, 파생 컬럼 생성, 전처리 규칙 정리

분석 안건이 무엇이냐에 따라서 달라질 수 있지만 기획 단계를 몇 번 반복하다 보면 

더 필수적인 내용으로 간소화해서 작성할 수 있을 것이라 믿는다.

 

✏️ 지금 나의 고쳐야 할 부분은 모든 정보를 다 녹이고자 하는 것, 필요한 정보만 추리는 것이 필요하다. 

 


데이터 추출할 때 나의 문제점

1️⃣ 가설을 검증하기 위한 데이터 셋을 기획하고 추출하려고 하다 보니 복잡해짐

2️⃣ 특히 데이터 기간 / 기준에 대해서 명확하게 설정하지 않으면 중간에 데이터가 꼬여 다시 추출해야 하는 상황 발생

 

✅ 핵심 문제

  1. 컬럼 정의 누락 or 중복
  2. 데이터 기준(단위, 기준 시점 등)의 혼선
  3. 기간 설정 미흡으로 인한 결과 왜곡
  4. 가설별로 필요한 컬럼이 달라져 복잡성 증가

📌 해결 방안

문제 해결 방법
✅ 기준 혼란 (user vs product) 단위 명시 고정: 이 분석은 product 전략 단위임을 문서에 고정.
모든 컬럼과 지표가 이를 기준으로 쌓이도록.
✅ 기간 꼬임 기준 날짜 = launch_date, 분석 기간 = 기준일 ± N일을 명확히 정의하고, 쿼리에서도 변수로 관리
✅ 필요한 컬럼 중간에 누락 분석 시작 전 지표-컬럼 매핑표를 작성.
“이 지표를 구하려면 어떤 컬럼이 필요한가?”를 구조화해서 미리 확인
✅ 가설별 복잡성 증가 공통 구조는 하나의 베이스 테이블로 만들고, 가설별 필터/컬럼은 이후 추가.
“기본 데이터셋 + 가설 확장” 구조 채택

✏️ 핵심 POINT 비교 그룹을 정의하고 그룹 태그를 구분하는 컬럼을 추가해 분석 시 활용하기 

 

✏️ 분석을 하면서 느꼈던 점 요약 
✅ 결과를 예측하고 기획하는 단계는 필수, 단 여기서 복잡도가 올라가지 않게 "기준"을 통일하는 것이 중요하다.
✅ 가설별로 하나씩 추출 ➡️ 데이터셋 테이블화 하여 SQL로 분석 쿼리까지 진행하는 것도 방법이다. 

 

💪🏻 Next to do 

☑️ SQL로 데이터 분석 및 지표에 대한 추출까지 진행해보기 

☑️ 가설별, 지표별로 추출하는 연습하기 > 하나의 데이터셋으로 뽑으려고 애쓰지 않기