데이터 분석

[TIL 10] 분석 방향성을 잘 잡는 것, 데이터셋 고민하는 게 중요한 이유

쭈경잉 2025. 5. 22. 00:01

이전에 데이터 분석 건을 맡아서 해왔지만

직접 추출하는 업무까지 하지 않다 보니 데이터 분석의 깊이가 얕았던 것 같다.

 

이번에는 실제로 분석 방향성을 잡고 기획, 그리고 추출과 전처리, 시각화까지

전반적인 흐름을 모두 맡아서 진행해보고 리드와 피드백을 주고 받으며 구체화 해보기로 했다.

 

너무 좋은 기회임과 동시에 잘 할 수 있을까?라는 걱정이 앞섰던 건 사실이다.

그렇지만 그럼에도 불구하고 해내야 하니까 어떤 방향으로 해야 효율적으로 할 수 있을까를 고민했다.

 

현재 내가 해야 하는 분석은 "가설 검증" 분석이고 그렇기 때문에 확증적 데이터 분석 방법론이 필요하다.

 

☑️ 탐색적 데이터 분석과 확증적 데이터 분석의 차이 

구분 탐색적 데이터 분석(EDA)  확증적 데이터 분석(CDA) 
목적 무엇이 있을까?” → 패턴 탐색 이게 맞을까?” → 가설 검증
분석 기준 데이터 흐름 전체를 보며 인사이트 찾기 특정 변수(컬러 출시 등)효과 검증
사례 반복 구매가 일어나는 컬러는 무엇인가? 신규 컬러가 재구매율을 유의하게 높였는가?
컬러 분석 성격 단순 탐색 출시 이후 변화 효과 검증

 

📌 확증적 데이터 분석 프로세스 

문제정의 ➡️ 데이터 수집 ➡️ 데이터 전처리 & 모델링 ➡️ 시각화 및 분석 ➡️ 결과 요약 보고서 

 

 ✏️ 이러한 분석 프로세스를 거치며 문제 정의 ~ 모델링까지의 과정이 매우매우 중요함을 깨닫게 되었다. 여기서 방향성이 정해지고 이에 따라 분석의 결과가 확 달라질 수 있단 생각이 들었다.

 

✏️ 분석 프로세스를 생각하면서 깨달은 점
그렇기에 맞는 방향으로 분석을 하는 것, 즉 분석 착수 전 기획과 예측 시뮬레이션을 돌려보는 것이 필수라는 생각이 들었다.
분석 방향성을 처음에 제대로 기획하지 않으면 "무의미한 데이터 분석, 비효율적인 데이터 분석"이 될 수도 있을 것 같다.

노력은 했는 데 삽질하는 과정은 줄이고 싶다.

그렇기에 문제정의 과정에서 분석 방향성을 1차로 잡고
데이터 수집, 데이터 전처리를 위한 데이터셋 기획시 분석 방향성을 2차로 최종 잡는 게 중요 포인트인 것 같다.

 

요즘 읽고 있는 "로지컬 씽킹"에 따르면 업무를 하는 데에 있어 "결과를 예측해보고 MECE 관점, why so-so what 으로 관찰 & 통찰해야 한다"고 하는 데 그 맥락에서 공감되어 실제 분석 하는 목적과 이유 & 결과를 예측해보고자 했다.

 

실제로 시각화 및 분석 ➡️ 결과 요약 보고서를 만드는 데에 있어서와 분석 중간중간 검증할 때에

특히 이러한 MECE 관점이 중요하다는 생각이 들었다.

 

✏️ why so - so what 의 경우, 논리적 구조를 탄탄하게 만드는 데 중요한 프레임워크로

데이터 분석 인사이트를 정리할 때 필수적으로 고려해서 정리하면 좋을 포인트라고 생각이 들었다.

 

⭐️ 데이터 분석을 통해 얻게 되는 예측 답변과 결과 ⭐️

시뮬레이션 하는 과정이라고 볼 수 있는 데, 분석 업무를 하기 전

어떤 방향으로 분석을 할 것이고 어떤 것을 기대하고 원해서 하는 업무인 지 청사진을 그리는 작업이다.

(*분석은 업무 특성상 리소스가 많이 필요하고 기간이 꽤나 소요되기에 기획을 보다 정확히 하는 것이

삽질하는 시간을 줄이는 것에 도움을 줄 것으로 판단되어 진행한 과정이다) 

 

주요 질문에 따라 예측/검증 가능한 답변과 결과 데이터를 생각하다 보면 필요한 데이터셋 테이블을 구성할 수 있다. 

➡️ 주요 질문에 따라 분석 항목을 구조화하게 되면 분석 방향성이 구체화된다. 

 

아직 분석이 익숙하지 않다 보니 이러한 과정을 거치며 피드백 & 보완을 통해

분석 방향성을 완전히 잡고 추출 및 전처리 ➡️ 시각화 과정을 거치면 된다. 

 

신규 제품 출시가 재구매에 영향을 미쳤을 것이다라는 것의 유효성 검증 관련 질문 및 예측 답변
주요 질문 예측/검증 가능한 답변 결과 해석 관점 
❓ 신규 제품이 재구매를 유도했는가? ✅ “재구매자의 xx%가 신규 제품을 구매함” → 신규 제품 출시 전략이 반복 구매에 실질적 기여
❓ 신규 제품 출시 이후 재구매율이 상승했는가? ✅ “출시 전 7%, 출시 후 11% → +57% 상승” → 정량적 효과 검증으로 전략 유지 근거 확보
❓ 첫 구매자 유입에 신규 제품이 기여했는가? ✅ “신규 제품 구매자의 30%는 첫 구매 고객” → 신규 유입 제품으로도 효과 있음 판단
❓ 신규 제품이 고객의 재구매 주기에 영향을 주었는가? ✅ "이전 회차 구매, 재구매 회차 구매의 주기 간격 변화 10일 감소" → 신규 제품 출시 타이밍 기획 시 활용 

 

📌 데이터 분석 항목 리스트에 따른 so what - why so 의 MECE 관점에서 정리 

분석 항목 Why(왜 필요한가)  So (분석을 통해 알 수 있는 것)  So What(어떤 시사점, 활용이 있는가) 
① 제품재구매 고객 비중 제품에 따라 재구매를 유도하는 효과가 다른지 확인 특정 제품에서 재구매 전환율이 높음 효과적인 제품 중심 반복 구매 유도 전략 수립 가능
신규 제퓸 출시 전후 동일 제품 재구매율 비교 신규 제품 출시가 실제 행동 변화를 유도했는지 검증 출시 재구매율 상승 여부 확인 제품 출시 타이밍 주기 전략에 활용
③ 신규 제품 구매자 중 첫 구매자 비율 신규 유입 트리거로서 기능 여부 확인 신규 고객 유입 효과 여부 판단 신규 컬러 → 구매 유입용 기획 가능 

 

위에서 주요 질문에 따라 이후 분석 결과를 정리할 때에는 

주요 문제 정의에 따른 가설 검증에 있어 so what - why so 구조로 MECE 관점으로 정리하면 논리 구조를 보다 탄탄하게 할 수 있다.

 

이는 로지컬 씽킹에서 상대방을 설득하기 위한 논리적 구조 연습이라고 했고

이 부분이 나에게는 아직도 많이 부족하다고 생각이 들어서 이 업무 프레임워크를 통해 분석 인사이트를 정리할 예정이다!

 

데이터 분석을 통해 얻게 되는 예측 결과 시뮬레이션에 따라 미리 체크해보면 도움될 것 같아 데이터셋을 구성할 때 함께 잡아보았다. 

 

✏️ 데이터 분석 단계별 분석 로드맵과 프로세스 TO DO 의 중요성
✅ 단계별 로드맵, TO DO 를 그리지 않으면 분석 업무가 다소 느려지고 쳐질 수 있다.
✅ 분석 방향성 기획 / 데이터셋 구성을 통해 단계별 데이터 분석을 쪼개고 하나씩 완료 목표로 처리한다.
의외로 이렇게 쪼개는 과정을 통해 자칫 복잡해질 수 있는 분석이 더 가볍게 되는 것 같다.

 

아직은 더 많이 잡아가야 하는 단계이지만 계속해서 고민하고 업무 효율성 / 데이터 추출의 로직 효율성 등

다방면으로 생각하고 데이터 분석 역량을 기를 수 있도록 더 많이 고민하고 또 논의해보도록 해야겠다. 

 

💪🏻 Next to do 

☑️ 데이터셋 구성 및 데이터셋 구성의 중요성 파악하기 
☑️ 데이터셋 추출할 때의 로직 파악하기, 기존 쿼리의 로직 파악하여 확장 적용해보기