데이터 분석

[TIL 11] 분석 1차 회고 : 데이터 정제, 추출, 지표 정의의 중요성

쭈경잉 2025. 5. 28. 08:25

분석을 하면서 느꼈던 나의 개인적인 아쉬움과 이번 데이터 분석을 진행하며

정말 너무나 뼛 속 깊이 느꼈던 지표 정의(w. 단어의 표현), 데이터 정제와 추출 과정의 중요성을 남기고자 한다. 

 

최근 진행했던 "제품의 옵션 값을 더했을 때 재구매자를 유도할 것이다" 라는 가설 검증을 위한 데이터 분석을 할 때

느꼈던 건 이를 검증하고 해결하기 위해서는 수많은 방법들이 있고 그걸 구체화하는 게 필요하단 생각이 들었다.

 

분석 방향성을 기획할 때 어떤 식으로 지표를 정의하고 정제해서 어떤 데이터를 쓸 것인 지에 따라

분석의 방법론이 달라진다는 것을 깨달았던 순간..

 

업무를 하면서 현타도 많이 오고 잘 하지 못하는 나에 대한 자책 + 어려움, 

그럼에도 해야 하는 데 잘 하고 있나?라는 의구심들이 나를 힘들게 했다.

 

그리고 가장 내가 힘들었던 건 의구심 뿐만 아니라 "예측 가능성이 없었기 때문이다."

방법론 > 예측 결과가 있어야 하는 데

구체적인 그림이 그려지지 않으니 SQL 쿼리만 2일 이상, 분석 진행하는 것만 1일 이상 삽질을 했던 것 같다.

 

? 데이터 분석이 어려웠던 원인 파악 

1️⃣ 아무래도 아직까지 내가 분석해온 데이터가 많이 쌓이지 않았기에

이 분석이 맞는 걸까? 검증했다고 볼 수 있나? 이건 아닌 것 같은 데.. 라는

무수히 많은 걱정과 고민, 스스로에 대한 의구심 때문, 즉 나에 대한 예측 가능성이 없기 때문에  

분석을 하면서도 브레이크를 걸리게 하는 것인 것 같다.

 

2️⃣ 요즘엔 챗 GPT 가 잘 되어 있다 보니 의존을 많이 했다. 

오히려 분석 방법론에 대한 많은 케이스를 던져주다 보니까 여기서 계속 실행이 안되고 고민이 깊어졌다.

처음부터 어떤 데이터 / 어떤 지표로 볼 건데? 정의하는 게 최우선 되어야 했는 데 그 과정을 누락했던 것 같다.

 

✏️ 일하면서 느낀 건 지표 정의를 하긴 했어도 "두루뭉술"하게 했다는 점이다.

모두가 공통적 & 직관적으로 이해할 수 있는 지표의 정의가 필요하다. 워싱이 필요한 부분인가?

무튼 지표를 적확하게 이해하고 해석할 수 있는 절차가 필요한 것 같다고 느꼈다.  

 

✅ 서로 데이터를 어떻게 분자/분모의 형태로 써서 지표로 볼 거야?라는 부분에 대한 커뮤니케이션 코스트가 드는 것 같다. 

 

3️⃣ 데이터를 어떤 기준에서 추출하는 지 / 쿼리 로직 등에 대한 배경이 부족했다.

그러다 보니 사실 데이터를 추출하고 여러 방면에서 보는 게 필요한 데, 그 과정은 20~30% 밖에 못 쓰고

쿼리를 짜는 그 행위 자체에만 리소스를 너무 많이 들였다. 필요한 과정이지만 복잡해서 어렵고 힘들었다.

 

4️⃣ 데이터 분석을 하는 목적 뿐만 아니라 논리적으로 사실 판단 > 판단 기준 을 기반으로 판단 내용을 정리해야 한다.

분석은 특히나 "논리성"이 중요한 대목인 데, 이러한 논리 구조의 흐름과 판단 근거&기준이 스스로 부족했다.

 

📝 분석을 하며 깨닫고 느낀점

✏️ 데이터 정제, 추출, 지표 정의의 중요성 이 과정이 데이터 분석의 핵심이다.

이 고민의 과정을 깊게 했다고 생각했지만 배경 지식과 나만의 경험치가 부족했던 탓에 제대로 된 방향성으로 고민을 하지 못했던 것 같다.

 

✏️ 단어 표현의 모호함을 구체화하는 작업이 필요하다. 기준의 구체화!

 

예를 들어 재구매한 사람의 경우,

1️⃣ 이전 구매 이력에서 동일 제품을 구매한 이력이 있는 사람

2️⃣ 이전 구매 이력에서 브랜드의 제품을 구매한 이력이 있는 사람

 

1번은 이전 구매 이력에서 동일 제품을 구매해야 하는 것이고

2번은 동일 제품이 아니더라도 브랜드 내에서 2번째로 구매를 한 사람을 말하는 것이다.

 

즉 만약 연세 우유에서 나온 크림 모찌롤을 산 사람이 연세 우유 크림빵을 샀다면 1번은 해당하지 않지만 2번에는 해당한다.

이렇게 데이터를 구체화 ➡️ 기준과 조건의 명확화가 분석을 함에 있어서 굉장히 중요하다는 것을 깨달았다. 

그러다 보니 앞의 고민만 길어지고 실제로 유의미한 고민은 하지 못했던 것 같다.

 

✏️ 분석을 함에 있어서 "시뮬레이션"한다는 것 자체에 대해서 고민을 해봐야 겠다.

분석 목적, 방향성, 목표 등 분석 기획의 구체화 작업 뿐만 아니라 수집 및 추출 단계에서도 기획이 필요하다.

단 분석을 실행할 때에는 일단 위의 선행 작업들이 진행되면 그에 따라 데이터를 뜯어보는 EDA 과정이 필요하다.

(오히려 나는 분석 실행 때 너무 고민이 깊다 보니 오히려 분석의 진행이 더뎠던 것 같다)


지표 정의, 데이터 정제 & 추출의 중요성을 알았으니 아래의 단계에 따라 키워나가는 게 필요한 것 같다.

이 과정은 계속해서 고민해보고 쌓아나가도록 하기! 나만의 공간에서 계속 Lesson&Learn 하는 것이 올해의 목표! 

✅  지표 정의, 데이터 정제 및 추출의 중요성 

1. 지표 정의가 중요한 이유

  • 방향성을 설정함: 어떤 지표를 추적하느냐에 따라 분석 결과가 달라짐.
  • 정확한 목표 수립 가능: 퍼널 지표, 전환율, 가설 검증 후 기준 확립 같은 핵심 지표 설정이 전략 수립의 기초.
  • 정의가 모호하면 실행도 모호해짐: 예를 들어 "활성 유저" 정의가 불명확하면 이후 분석이 무의미해짐.

2. 데이터 정제의 중요성

  • 잘못된 데이터는 잘못된 인사이트를 낳음: 중복, 결측치, 이상값을 정제하지 않으면 분석 결과가 왜곡됨.
  • 일관성 확보: 서로 다른 소스의 데이터를 통합하거나 비교하려면 동일한 포맷과 기준이 필요.

3. 데이터 추출의 중요성 ➡️ 특히 하나의 테이블로 뽑기 보다는 단계적으로 확인하며 뽑는 과정을 거치자. 

  • 분석의 출발점: 필요한 데이터를 빠르게, 정확하게 뽑아내야 분석이 가능.
  • 비효율 방지: 불필요한 데이터를 많이 뽑아두면 속도, 비용, 정확도 모두 떨어짐.

각 단계에서 필요한 역량

1. 지표 정의 역량

  • 비즈니스 구조와 퍼널에 대한 이해력
  • 문제 해결 관점에서 "측정 가능하고 행동 가능한 지표"를 정의하는 능력
  • 다양한 지표 간 관계 파악 능력 (ex. CAC, LTV, 전환율 간 상관성)

2. 정제 역량

  • SQL 기반 데이터 가공 스킬
  • 결측치, 이상치 처리 능력
  • 실무적으로 의미 없는 컬럼/데이터 제거 기준 판단력

3. 추출 역량

  • BigQuery, SQL, GA4 등 툴을 활용한 쿼리 작성 능력
  • 조건에 맞는 데이터 필터링/조합 능력
  • 속도 최적화 및 리소스 관리 능력

📈 그렇다면 어떻게 역량을 키울 수 있을까? 

챗 GPT에게 물어봤고 이 과정들을 하나씩 쌓아나가야 하는 것 같다. 

 

1. 지표 정의

  • 자사몰 AARRR 퍼널 지표를 직접 정의하고 개선해보기
  • 각 지표가 실제 액션과 어떻게 연결되는지 문서화
  • 타사 사례 벤치마킹하며 핵심 지표 뽑기 연습

2. 정제

  • 크롤링 데이터나 raw 로그 데이터를 받아서 실습
  • 결측/이상치 처리 기준을 다양한 방식으로 적용해보기
  • 엑셀, Python(pandas), BigQuery를 활용한 가공 실습

3. 추출

  • GA4 + BigQuery 연동 후 쿼리 실습
  • 특정 조건(ex. 유입채널별 첫 구매자 수 등)에 따라 쿼리 짜보기
  • 반복해서 사용하는 쿼리 템플릿화 및 최적화 연습

 

✏️ 분석을 하면서 느꼈던 점 요약 
✅ 지표 정의, 데이터 추출 > 수집의 과정 고민과 함께 로직에 대한 히스토리를 남기고 Lesson&Learn 하기 
✅ 단순히 데이터를 보는 것에서 끝나지 않고, “왜 이 데이터를 봐야 하는가”, “이걸 봐서 무슨 의사결정을 도출할 것인가” 스스로 질문하고 답을 내는 습관이 중요하다.
✅ 챗 GPT 는 함께 하는 것, 너무 의존하지 않되 결정과 선택을 내리는 고민의 시간을 함께하기 

 

💪🏻 Next to do 

☑️ 분석 및 기획, 추출에 대한 분석 프로세스 전체를 분석이 끝날 때마다 회고하기(w. 파트 사람들) 
☑️ 결론적으로 한 부분들에 대해서 정리하기  

☑️ 인내하고 지속하기, 꾸준하게 배워나가고 버티기