20240703 TIL
데이터 리터러시란?
- 데이터를 읽는 능력
- 데이터를 이해하는 능력
- 데이터를 비판적으로 분석하는 능력
= 결과를 의사소통에 활용할 수 있는 능력
즉,
1. 데이터 수집과 데이터 원천을 이해
2. 주어진 데이터에 대한 다양한 활용법 이해
3. 데이터 수집과 데이터 원천을 이해하고주어진 데이터에 대한 다양한 활용법을 이해하고데이터를 통한 핵심지표를 이해하며 올바른 질문을 던질 수 있도록 만들어줌
▶ 상관관계 VS 인과관계
상관관계 | 인과관계 |
두 변수가 얼마나 상호 의존전인지를 파악하는 것을 의미 | 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태 |
한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름 | 원인과 결과가 명확한 것 |
- 상관관계는 인과관계가 아닌 것을 항상 유의
- 상관관계만으로 섣불리 의사결정 하지 않기
- 양쪽 모두 활용하여 합리적인 의사판단 하기
▶데이터 리터러시가 필요한 이유
데이터 분석이 목적이 되지 않도록 왜?를 항상 생각
문제 정의
- 데이터 분석 프로젝트의 성공을 위한 초석
- 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
- 프로젝트의 목표를 설정하고 분석 방향을 설정
▶문제 정의 방법론
💡MECE(Mutually Exclusive, Collectively Exhaustive)
- 문제 해결과 분석에서 널리 사용되는 접근 방식
- 문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것
- MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음
→ 잘못된 MECE 예시
- 사람 - 남성, 여성, 아저씨로 나눔: 남성과 아저씨가 중복
- 영화 장르 - 액션, 스릴러, 공포로 나눔: 멜로 코메디 등 누락 장르 존재
- 자동차 - SUV, 세단, 쿠페, 현기차로 나눔: 분류 기준이 다름. 자동차 종류 VS 브랜드3학년 3반 학급원 - 영어 우수 학생, 수학 우수 학생으로 나눔: 분류 기준이 불명확, 서로 중복되고 누락된 정보가 존재
💡로직 트리(Logic Tree)
- MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용
- 상위 문제로부터 시작하여 하위 문제로 계층적 접근
- 일반적으로 도표 형식으로 표현되어 쉽게 파악할 수 있음
- 로직트리는 정해진 답이 없으며, 사용자가 어떤 기준으로 나누냐에 따라 그 깊이와 넓이가 달라짐
- 인과 관계의 순서는 작은가지 → 큰 가지
▶로직트리 Cheet Sheet
앱 서비스에 적용하기 위해 변경해 본다면? (비즈니스에 따라서 정의가 달라짐!)
세그먼트 분류
- 라이트유저, 일반유저, 헤비유저 > 구매 전 고객, 재구매 고객, VIP 고객 ex) 배달의 민족 고마운분, 귀한분, 더귀한분, 천생연분
캡슐 점유율
- 해당 서비스 시장 점유율로 변화
▶문제정의의 핵심은 So What?, Why So?
So what? | Why So? |
수집한 정보와 소재에서 '결국 어떻다는 것인지'를 알아내는 직업 | 왜 그렇게 말할 수 있는지 |
그래서, 따라서, 이렇듯 앞에 오는 정보나 소재에서 과제의 답변에 맞는 중요한 핵심을 추출하는 작업 | 구체적으로 무슨 뜻인지를 검증하고 확인하는 작업 |
나타난 현상을 바탕으로 과제에 비추어 말할 수 있는 내용의 핵심을 추출하는 작업 | So what?한 요소의 타당성을 자료 전체 혹은 그룹핑한 요소로 증명할 수 있다는 사실을 검증하는 작업 |
💡문제정의 팁
- 결과를 공유하고자 하는 사람이 누구인지 정의하기
- 결과를 통해 원하는 변화를 생각하기
- 회사 소속이라면, 경영자의 입장에서 보려고 노력
- 많은 사람들과 의견을 나눠보는 것도 방법
- 반드시 혼자서 오래 고민해보는 시간을 가질 것
데이터의 유형
▶정성적 데이터 VS 정량적 데이터
정량적 데이터 | 정성적 데이터 | |
유형 | -정형 데이터 -반정형 데이터 |
비정형 데이터 |
특징 및 관점 | -여러 요소의 결합으로 의미 부여 -주로 객관적 내용 |
-객체 하나가 함축된 의미 내포 -주로 객관적 내용 |
구성 및 형태 | -수치나 기호 -데이터베이스, 스프레듣 시트 |
-문자나 언어 -웹 로그, 텍스트 파일 |
위치 | DBMS, 로컬 시스템 내부 | -웹사이트, 모바일 플랫폼 등 외부 |
분석 | 통계 분석 시 용이 | 통계 분석 시 어려움 |
- 정성적 데이터
- 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함해요
- 대부분 텍스트, 비디오, 오디오 형태로 존재해요
- 정형되지 않고 구조화 되어있지 않아요
- 데이터를 구조화하기 어려워요
- 새로운 현상이나 개념에 대한 이해를 심화하는데 사용해요
- 정량적 데이터
- 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있어요
- 데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬워요
- 개인의 해석이나 주관이 적게 작용하는 객관성을 가지고 있어요
- 지표로 만들기에 용이해요
- 설문조사, 실험, 인구 통계, 지표 분석 등에 활용해요
지표 설정
▶지표란?
- 특정 목표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준
- 목표 달성도를 평가하고 전략적 결정에 필요한 핵심 정보를 제공
- 정의한 문제에 대해 정확하게 파악하기 위해서 필요
주요 지표
▶Active User(활성유저)
서비스에 들어오는 모든 유저? x
Active User에 대한 정의에 따라 전략과 방향이 달라짐
Active User에 대한 정의로 ‘이탈 유저’가 정의됨
투자를 위한 서비스 지표에 중요한 역할을 하게 됨
→ 정밀도, 허들이 높아질수록 Active User의 수는 낮아지는 구조
지표 | 정의 |
전체 Active User | 앱 적속이 이력이 있는 유저 |
서비스별 Active User | 서비스별 서브메인 이하 추가 액션이 있는 유저 |
DAU | Daily Active User |
WAU | Weekly Active User |
MAU | Monthly Active User |
이탈유저(이탈율) | 전체 DAU로 잡혔지만, 각 서비스의 DAU로 잡히지 않은 유저(비율) |
CVR(Conversion Rate) | 특정 행동을 한 후, 전환된 비율 |
CTR(Click Through Rate) | 어떤 페이지에 접근한 후, 특정 요소를 클릭한 비율 |
▶Retention Ratio(재방문률)
서비스를 사용한 사람이 다시 서비스를 사용하는 비율 %
- 리텐션이란 한번 획득한 유저가 서비스로 다시 돌아왔는가?에 대한 지표
- 리텐션이 높은 서비스는 획득비용에 투자한 비용을 빠르게 회수할 수 있음
- 리텐션은 서비스(특히 앱서비스) 성장에 있어서 매우 중요한 지표
- 일반적으로 리텐션은 시간이 지남에 따라 자연스럽게 감소 (Product B)
- 기울기가 점점 완만해지며 안정화 되는 그래프를 가지고 있다면, 시장에 적합한 서비스라고 할 수 있음 (Product A)
▶Retention 측정 방법
1. N-Day 리텐션 : 최초 사용일로부터 N일 후에 재방문한 Active User의 비율
- 일반적으로 사용하는 리텐션 지표는 N-Day 리텐션
- 게임, 소셜 등 습관적으로 사용하거나 반복적으로 행동을 유도하는 제품에 적합
- 유저가 Active User로 집계된 최초 날을 Day 0으로 설정
- Day 0에 액티브 상태가 된 모든 유저들의 N일차 리텐션을 계산
- N-Week, N-Month도 가능
<활용예제>
- 1월 1일에 회원가입한 5명(프로도, 튜브, 무지, 라이언, 어피치)
- 1월 3일의 리텐션은? 40%
▶N-day 리텐션의 한계
서비스의 사용 주기가 길 경우, N-day 리텐션을 사용하면 실제보다 더 과소평가
N-day 리텐션은 사용자가 매일 접속하는 서비스에 활용하기 적절한 지표:
카카오톡, 인스타그램, 게임
2. Unbounded 리텐션 : 특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율
- 특정일을 포함하여 그 이후에 한 번이라도 재방문한 유저의 비율
- 유저가 정기적으로 반복해서 방문하는 서비스가 아닐 경우 적합
- 해석: Day5는 5일차 이후에 한 번 더 들어온 유저의 비율
- Unbounded 리텐션은 이탈률의 반대 개념
<활용예제>
- 마지막 방문일 이전에는 방문한 것으로 계산
- 실제로 방문하지 않았어도, 계산에는 함께 포함
- N-day 리텐션과 비교시 결과값에 큰 차이가 있음
- 사용 빈도가 높지 않은 서비스에 활용하기 적절한 지표
▶Unbounded 리텐션의 한계
1월 6일에 계속 접속하지 않던 무지가 접속할 경우, 이 전의 리텐션 값들이 전부 변동되는 상황이 발생할 수 있음
해당 지표는 절대적인 수치보다는 지표가 어떻게 변화하는 지에 대해 트렌드를 보는 용도로 활용하는 것을 권장
3. Bracket 리텐션 : 설정한 특정 기간을 기반으로 재방문율을 측정
- Bracket 리텐션은 N-Day 리텐션을 확장한 개념 > 일/주/월 단위가 아닌 지정한 구간으로 나눔
- 1(0일차) / 2(1-3일차) / 3(4-6일차) / 4(7-11일차)
- 활성유저가 특정한 활동을 위해 각 Bracket 내 서비스에 재방문시 잔존 유저로 해석
<활용예제>
- Day 0: 1월 1일 (신규 가입일 or 최초 접속일)
- Day 1~3: 1월 2일 ~ 1월 4일
- Day 4~6: 1월 5일 ~ 1월 7일
- Day 1~3 방문한 유저: 튜브, 어피치, 라이언, 프로도
- Day 4~6 방문한 유저: 튜브, 어피치, 무지
- 하루 정도 서비스에 접속을 안했더라도, 리텐션에 영향을 주지 않기 때문에 기준이 조금 더 널널함
- 서비스 사용주기가 길거나 주기적인 경우 사용하기 적합한 지표
▶ Funnel : 잠재고객을 유입시키며 최종적인 목표 액션을 달성할 때까지의 과정
- 유저들이 어디서 이탈하는가?를 확인하기 위한 구조화
- 모든 서비스와 비즈니스는 각 단계로 갈 수록 이용자 수가 줄어들게 됨
- 각 단계의 전환율 (or 첫 유입 대비 전환율)을 측정
▶ AARRR : 디지털 마케팅시 퍼널을 활용하는 프레임워크
- 단계별 전환율을 지표화 하여 서비스 보완 지점을 찾음
- Acquisition: 유입
- Activation: 활성화
- Retention: 재방문(재구매)
- Revenue: 수익
- Referral: 추천
▶ LTV(Life Time Value, 고객 평생 가치) : 해당 유저가 우리에게 평생 주는 이익은 얼마나 될까?
- 고객 생애 주기: 한 명의 유저가 서비스를 사용하기 시작하여 이탈할 때까지의 기간
- LTV는 한 명의 유저가 생애 주기 동안 얼마만큼의 이익을 주는지를 정량적으로 지표화 한 것
- LTV는 유저와의 관계를 측정하고, 이를 사업적 이익으로 가져가는데 중요한 지표
- LTV가 높다는 것은 해당 서비스와 관계가 좋고, 충성도가 높은 고객이 많다는 것
▶LTV 산출 방법
- 이익 x Life Time x 할인율(미래 비용에 대한 현재 가치)
- 연간 거래액 x 수익률 x 고객 지속 연수
- 고객의 평균 구매 단가 x 평균 구매 횟수
- (매출액 – 매출 원가) / 구매자 수
- 평균 구매 단가 x 구매 빈도 x 구매 기간
- (평균 구매 단가 x 구매 빈도 x 구매 기간) – (신규 획득 비용 + 고객 유지 비용)
- 월 평균 객단가 / 월 가중 평균 잔존율
- LTV를 산출하는 방법은 매우 여러가지이며, 서비스마다, 관점마다 다르기 때문에 다각도로 고민이 필요함
- 사용 주기, 변수, 객단가 등 여러가지를 고려해야 함
- LTV를 늘리기 위한 방안
- 객단가 상승
- 구매 빈도를 높임
- 이탈률 감소, 이용시간을 증가 등
- LTV는 가정을 베이스로 하는 지표이기 때문에 꾸준한 모니터링이 필요
북극성 지표
▶북극성 지표란?
- 제품/서비스의 ‘성공’을 정의
- 제품/서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
- 장기 성장을 위해 필수적으로 모니터링 해야 함
▶좋은 북극성 지표의 특징
- 제품/서비스 전략의 핵심
- 유저/고객이 제품/서비스에서 느끼는 가치
- 회사의 사업 목표를 나타내는 지표 중 선행지표 (후행X)
▶북극성 지표의 유형
북극성 지표 | 수익모델 | 서비스 유형 | 서비스 예시 |
사용기간 | 광고, 사용료 | SNS, 플랫폼, 스트리밍 | 유튜브, 인스타, 넷플릭스 |
거래량 | 판매액, 수수료 | 커머스, 매칭서비스 | 쿠팡, 크몽, 에어비앤비 |
효용 | 사용료 | 생산성 도구, 헬스케어 앱 | 슬랙, 줌, 지라 |
▶북극성 지표가 중요한 이유
1. 방향성 : 제품/사업 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는 지에 대한 방향 제시
- 제품/사업 조직의 진척과 가치창출을 전사에 보여줌
- 지원 조직이 더욱 적극적으로 지원, 제품개발 액션 실행속도가 빨라짐
- 제품/서비스 조직이 결과에 책임을 지도록 함
- 비즈니스 임팩트에 따라 평가가 가능
2. 효율 증대 : 전 직원을 하나의 목표에 집중시킴
- 서로 상반된 목표에 집중하거나, 중복으로 일하는 것을 방지 (MECE한 구조)
▶북극성 지표의 구조
결론 도출
▶결과 vs 결론
결과 | 결론 |
데이터 처리, 분석, 모델링 후에 얻어진 구체적인 데이터의 출력 | 분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰 |
숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음 | 데이터에 기반한 해석, 추론 또는 권고 사항을 포함 |
ex) “고객 설문 조사 데이터를 분석한 결과, 고객 만족도와 구매 빈도 사이에 강한 상관관계가 있음을 보여줄 수 있습니다.” | ex) “고객 만족도와 구매 빈도 사이의 강한 상관관계를 보여주는 결과를 토대로, 고객 만족도 향상이 전반적인 매출 증가로 이어질 수 있다는 결론을 내릴 수 있습니다.” |
계산과 분석을 해서 나온 결과물 | 목적에 대해 어떤 의미가 있는지 설명하는 것 |
→ 실제로 우리가 필요한 것은 ‘결론’이지만, 보통 결과를 많이 이야기 함
▶결론을 잘 정리하는 법
- 앞서 문제 정의, 지표 설정을 할 당시의 목적을 떠올리며 정리
- 결론을 공유할 대상이 누구이며, 어떻게 변화하길 원하는지? 생각하기
1. 단순하고 쉽게 전달
- 핵심 지표 위주로 먼저 공유
- 지표를 해석하는 방법에 대해서도 설명
- 해당 지표에 오너십이 있는 조직에서 활용할만한 포인트 제안
- 액션 아이템을 제안 하는것이 핵심
2. 흥미 유발
- 모든 내용을 담지 않고 흥미로운 부분 위주로 공유
- 상대가 궁금해할만한 내용은 뭘까? 고민하고 필터링 하기
- 궁금한 사람들을 위해서는 디테일한 문서 따로 공유
3. 대상자 관점에서의 접근
- 공유 받는 사람의 시선에서 이해하기 쉽도록 정리
- 지식의 저주에 빠지지 않고 논지를 뒷받침 해줄 자료들을 함께 첨부
- 대상자의 허들이 낮은 시각화 활용
4. 시각화 팁
- 화려한 그래프 보다는 대상이 직관적으로 이해할 수 있도록 구성
- 보통 선, 막대 그래프로 거의 대부분의 리포팅이 가능
- 각 그래프의 범례와 단위 함께 표기해주기
<결론 보고서에 쓰면 좋은 플로우>
- 전체 내용을 한 문장으로 정리하는 요약
- 해당 보고서의 메인 주제
- 해당 보고서를 쓴 이유와 원하는 변화
- 문제 정의 단계
- 핵심 내용 전개
- 결론 및 액션 아이템
🛠️느끼고 배운 점
💡데이터 리터러시가 뭔지 어떤 내용을 가지고 있는지 알게 됨
💡데이터를 보고 분석하는 건 꽤 많이 복습하며 연습을 해야 될 것 같음
💡데이터 분석 착각은 다 내가 하고 있는 착각이었다 .. 여러 툴과 언어를 잘 하는 것이 아닌 데이터 문해력도 갖춘 데이터 분석가가 될 수 있도록 더 노력해야겠다
'✨Today I Learned' 카테고리의 다른 글
머신러닝 기초 : 회귀분석 기초, 심화 (0) | 2024.08.09 |
---|---|
머신러닝 기초(회귀분석 - 선형회귀 이론까지) (0) | 2024.08.08 |
SQL 라이브 3일차 숙제 (0) | 2024.06.28 |
SQL 라이브 세션 1~2일차 숙제 (0) | 2024.06.27 |
SQL코트카타 26번~28번/SQL연습문제1~5 (1) | 2024.06.14 |