데이터를 추출하면서 처음에는 어떻게 뽑을 지, 어떤 컬럼을 전처리해야 하는 지 감이 잘 오지 않았다.
특히 SQL을 이론상으로만 경험해보고 이전에는 데이터 처리가 엑셀로 충분히 가능했던 곳을 다녔다면
이번 회사에서는 감사하게도 데이터 양이 방대해서 SQL을 다루면서 업무를 진행해야 했다.
SQL로 하는 데이터 분석 강의를 기획했을 때는 그저 먼 이야기로 느껴졌는 데
어느새 내가 직접 활용하며 데이터 분석을 해야 한다고 하니 갈길이 험난하다.
✏️ 내가 기획 단계를 각 업무마다 거치는 이유
아직 분석 업무에 익숙하지 않기에 기획 단계에 더 힘을 쏟기로 했다.
사전적 정의에 따르면 기획은 어떤 대상에 대해 그 대상의 변화를 가져올 목적을 확인하고,
그 목적을 성취하는 데에 가장 적합한 행동을 설계하는 것을 의미한다.
퇴사한 이형 유튜브에서는 이러한 "기획"은 중요한 것이며 초반에는 프레임워크를 잡는 데 오래 걸리고
또 업무를 실제로 수행하는 데 이것들을 모두 고려하기란 쉽지 않다.
그러나 지금 내가 이렇게 단계별로 기획을 해나가고 실제로 실행하며 보완하는 건
나를 위해서이기도 하고 앞으로 분석을 더 효율적이게 하기 위한 초반의 노력과 투자라고 생각한다.
특히 기획이 중요한 이유는 "결과의 예측성"이기 때문인 것 같다.
데이터 분석 결과가 어떻게 될 것인 지 예측하는 것과 더불어 데이터 추출 단계에서
이러한 데이터셋을 뽑으면 이 다음 단계인 분석에서 용이하게 만들어 줄 것이다.
📝 데이터셋 기획의 장단점
☑️ 장점
1️⃣ 기획된 결과로 방향을 잡을 수 있다.
추출한 것의 결과를 예측하다 보니 맞는 방향으로 추출하는 것인 지 꼬이지 않고 방향을 잡을 수 있다.
2️⃣ 기록 및 히스토리를 통해 효율적인 업무가 가능하다.
기획된 결과를 가지고 회의를 했고 그러면서 분석 방향도 잡아나갈 수 있었다.
논리적인 방향으로 기획이 된 건지 확인하는 측면에서는 좋다.
하나의 기획서를 가지고 커뮤니케이션할 수 있고 이후 타파트의 이해도를 높일 수 있다.
3️⃣ 추출하면서 헷갈릴 때 지침서가 되어 준다.
실제로 추출하고 데이터를 보다 보면 이것도 필요한 것 같은 데? 이건 어떻게 되지?라며
혼란스러울 때가 많다. 그때 일종의 지침서로 길을 잃지 않게 해준다.
☑️ 단점
1️⃣ 시간이 다소 오래 걸린다. 초기 설계 시간이 걸린다.
기획하는 것도 물론 좋지만 추출 기획도 세분화해서 하는 건 처음이라 그런지 기획하는 데에 시간이 많이 걸렸다.
원래 기획 3시간 정도면 했었지만 이번에는 2배 정도가 걸렸다.
예측했을 때는 4시간이면 될 줄 알았는 데 커뮤니케이션에 수정까지 하면 거의 6~7시간 소요되었다.
2️⃣ 실행하는 단계에서 추출 <> 분석은 단계로 쪼갤 수 없다.
실제로 추출 후 분석하면서 추가 추출이 필요한 경우가 꽤나 있더라
그런 경우에는 컬럼 추가가 되어야 할 수 있고 기획서가 일부 다른 부분이 있을 땐 헷갈릴 때도 있다.
결론부터 말하자면 기획하는 단계는 필수라고 생각한다.
그렇지만 단기적인 관점에서 본다면 업무 시간이 꽤나 길게 걸리는 편이고
한번 기획 단계에서 꼬여버리면 업무를 하는 데에 어려움이 있다는 것이 있다.
✏️ 특히나 빠르게 실행해야 하는 경우에는 이와 같은 단계가 불필요하게 느껴질 수 있다.
그래서 기획 단계를 조금 더 필수 값들 위주로 채워놓고 추출을 하면서 기획서를 업데이트 하는 방향으로 업무를 진행했다.
✅ 데이터셋 기획 절차
- 문제 정의 및 분석 목적 설정
- 예: “첫 구매율을 높이기 위해 상세페이지 전환률을 분석한다”
- 지표 정의 및 주요 변수 설정
- 예: 유입 채널, 장바구니 클릭, 결제 완료 등
- 데이터 구조 설계
- 어떤 테이블에서 어떤 컬럼을 뽑을지, 조인 여부, granularity(단위) 설정
- 예: session 단위 vs user 단위
- 데이터 수집 및 추출 계획
- 추출 쿼리 미리 작성, 이벤트 로그 또는 파라미터 유무 확인
- 예상 결과 시뮬레이션
- 샘플 추출 후 분포 확인 → 인사이트 유의미성 검토
- 정제/가공 방식 정의
- 이상값 제거, 파생 컬럼 생성, 전처리 규칙 정리
분석 안건이 무엇이냐에 따라서 달라질 수 있지만 기획 단계를 몇 번 반복하다 보면
더 필수적인 내용으로 간소화해서 작성할 수 있을 것이라 믿는다.
✏️ 지금 나의 고쳐야 할 부분은 모든 정보를 다 녹이고자 하는 것, 필요한 정보만 추리는 것이 필요하다.
데이터 추출할 때 나의 문제점
1️⃣ 가설을 검증하기 위한 데이터 셋을 기획하고 추출하려고 하다 보니 복잡해짐
2️⃣ 특히 데이터 기간 / 기준에 대해서 명확하게 설정하지 않으면 중간에 데이터가 꼬여 다시 추출해야 하는 상황 발생
✅ 핵심 문제
- 컬럼 정의 누락 or 중복
- 데이터 기준(단위, 기준 시점 등)의 혼선
- 기간 설정 미흡으로 인한 결과 왜곡
- 가설별로 필요한 컬럼이 달라져 복잡성 증가
📌 해결 방안
| 문제 | 해결 방법 |
| ✅ 기준 혼란 (user vs product) | 단위 명시 고정: 이 분석은 product 전략 단위임을 문서에 고정. 모든 컬럼과 지표가 이를 기준으로 쌓이도록. |
| ✅ 기간 꼬임 | 기준 날짜 = launch_date, 분석 기간 = 기준일 ± N일을 명확히 정의하고, 쿼리에서도 변수로 관리 |
| ✅ 필요한 컬럼 중간에 누락 | 분석 시작 전 지표-컬럼 매핑표를 작성. “이 지표를 구하려면 어떤 컬럼이 필요한가?”를 구조화해서 미리 확인 |
| ✅ 가설별 복잡성 증가 | 공통 구조는 하나의 베이스 테이블로 만들고, 가설별 필터/컬럼은 이후 추가. “기본 데이터셋 + 가설 확장” 구조 채택 |
✏️ 핵심 POINT 비교 그룹을 정의하고 그룹 태그를 구분하는 컬럼을 추가해 분석 시 활용하기
✏️ 분석을 하면서 느꼈던 점 요약
✅ 결과를 예측하고 기획하는 단계는 필수, 단 여기서 복잡도가 올라가지 않게 "기준"을 통일하는 것이 중요하다.
✅ 가설별로 하나씩 추출 ➡️ 데이터셋 테이블화 하여 SQL로 분석 쿼리까지 진행하는 것도 방법이다.
💪🏻 Next to do
☑️ SQL로 데이터 분석 및 지표에 대한 추출까지 진행해보기
☑️ 가설별, 지표별로 추출하는 연습하기 > 하나의 데이터셋으로 뽑으려고 애쓰지 않기
'데이터 분석' 카테고리의 다른 글
| [TIL 15] SQL 추출 시 쿼리 로직과 조건에 대한 중요성 (0) | 2025.06.16 |
|---|---|
| [TIL 14] 데이터, 지표 정의의 중요성 (0) | 2025.06.14 |
| [TIL 12] 분석 설계, 분석 시나리오 작성 (0) | 2025.06.03 |
| [TIL 12] 분석 2-1차 회고 : 분석 4 STEP 프로세스, 가설 언어화의 중요성 (2) | 2025.06.02 |
| [TIL 11] 분석 1차 회고 : 데이터 정제, 추출, 지표 정의의 중요성 (0) | 2025.05.28 |