20240701 ADsP 3일 차 : 데이터 분석 기획
1. 데이터 분석기획
분석 기획 정의:
- 분석 기획은 실제 분석을 수행하기 전에 과제의 정의와 결과 도출을 관리하는 사전 계획 작
- 목표 달성에 필요한 데이터와 방법을 계획하는 중요한 사전 작업
분석 기획 특징:
데이터 사이언티스트의 요구 역량: 수학/통계학적 지식, 데이터 및 프로그래밍 기술, 비즈니스 이해와 전문성
분석 대상과 방법에 따른 4가지 분석 주제:
- 최적화 : 문제와 방법이 명확할 때
- 솔루션 : 문제는 명확하지만 방법을 모를 때
- 발견 : 문제와 방법 모두 모를 때
- 통찰력 : 문제는 모르는 데 방법을 알 때
목표 시점별 분석 기획:
- 과제 중심 접근 : 빠른 문제 해결 필요시
- 장기 마스터플랜 : 지속적인 분석 내재화 필요시
당면한 분석 주제의 해결(과제 단위) | 지속적 분석 문화 내재화(마스터 플랜) | |
1차 목표 | speed & test | accuracy & deploy |
과제 유형 | Quick & win | long term view |
접근 방식 | problem solving (문제해결을 위한 단기적인 접근 방식) |
problem definition (분석 과제 정의를 위한 중장기적인 마스터 플랜 접근 방식) |
분석 기획 시 고려사항:
- 가용 데이터: 분석을 위한 데이터 확보 필요
- 적절한 활용방안과 유스케이스: 기존 유사 분석 시나리오 및 솔루션 활용
- 장애요소에 대한 사전 계획 : 장애요소 사전 계획 및 변화 관리 필요
데이터 유형:
- 정형 데이터: 연산 가능, 관계형 데이터베이스, 스프레드시트 등
- 반정형 데이터: 연산 불가능, XML, HTML, JSON 등
- 비정형 데이터: 연산 불가능, 소셜데이터, 영상, 이미지, 텍스트 등
2. 분석 방법론
분석 방법론 개요:
- 상세한 절차(Procedure)
- 방법(Methods)
- 도구와 기법(Tools & Techniques)
- 템플릿과 산출물(Templates & Outputs)
- 합리적 의사결정을 가로막는 3가지 요소 : 고정관념, 편향된 생각, 프레이밍 효과
분석 방법론 생성 과정:
- 개인의 암묵지가 조직의 형식지로 발전하고 이를 체계화하여 문서화된 형식지로 전개
분석 방법론 모델:
- 폭포수 모델: 단계별 순차 진행
- 프로토타입 모델: 점진적 시스템 개발
- 나선형 모델 : 반복을 통해 점진적 개발
- 계층적 프로세스 모델 : 단계, 태스크, 스텝으로 구성
전통적 분석 방법론:
KDD 분석 방법론
1. 데이터셋 선택 | 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정, 필요한 데이터 선택 |
2. 데이터 전처리 | 잡음(noise),이상치(outlier),결측치(missing value)를 파악하거나 제거하거나 의미있는 데이터로 재가공 |
3. 데이터 변환 | 데이터의 차원을 축소 |
4. 데이터 마이닝 | 데이터 마이닝 기법을 선택하고 적절한 알고리즘 적용 |
5. 해석과 평가 | 데이터마이닝 결과에 대한 해석과 평가 |
CRISP-DM 분석 방법론: KDD와 유사하지만 더 체계적
1. 업무 이해 | 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
2. 데이터 이해 | 초기 데이터 수집, 데이터 기술 분석, 데이터 암색, 데이터 품질 확인 |
3. 데이터 준비 | 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅 |
4. 모델링 | 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 |
5. 평가 | 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
6. 전개 | 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 |
빅데이터 분석 방법론 5단계 플로우
분석 기획 --> 데이터 준비 --> 데이터 분석 --> 시스템 구현 --> 평가 및 전개
3. 분석 과제 발굴
하향식 접근법
문제 탐색 --> 문제 정의 --> 해결 방안 탐색 --> 타당성 평가
1. 문제 탐색 단계
- 문제를 도출하고 식별
- 문제를 해결함으로써 발생하는 가치에 중점
2. 문제 정의 단계
3. 해결 방안 탐색 단계
기존 시스템으로 가능 | 분석 역량이 있다 | 기존 시스템과 인력으로 수행 |
분석 역량이 없다 | 역량 확보(교육&채용) | |
기존 시스템으로 불가능 | 분석 역량이 있다 | 시스템 고도화 |
분석 역량이 없다 | 전문업체 아웃소싱 |
상향식 접근법
다양한 원천 데이터로부터 통찰과 지식을 얻는 접근 방법
디자인 사고 - 수렴과 발산, 첫 단계로 감정이입을 특히 강조
4. 분석 프로젝트 관리
분석 과제의 5가지 주요 속성을 고려한 관리
1. 데이터의 양
2. 데이터 복잡도
3. 분석의 속도
4. 분석 복잡도
5. 정확도 & 정밀도 : 정확도는 모델과 실제 값 간의 차이가 적다 / 정밀도는 반복적으로 모델을 사용했을 때 모델 값들의 편차 수준