20240630 ADsP 2일차 : 데이터의 가치와 미래
1. 빅데이터 정의
가트너그룹의 더그래니의 정의(3V)
-데이터의 양(Volume) -데이터 유형과 소스 측면의 다양성(Variety) -데이터수집과 처리 측면에서 속도(Velocity)
빅데이터의 새로운 특징(4V)
3V의 추가로 Value(가치) or veracity(정확성)를 포함해 4V로 설명하기도 함
여기에 Visualization(시각화), variability(가변성) 등을 추가하는 견해도 있음
빅데이터 출현 배경
출현배경 | 내용 | |
산업계 | 고객 데이터 축적 | -양질 전환 법칙으로 설명 가능 -양적인 변화가 축적되면 질적인 변화도 이루어짐 |
학계 | 거대 데이터 활용 과학 확산 | -필요한 기술 아키텍처 및 통계 도구들이 지속적으로 발전 |
기술발전 | 관련 기술의 발달 | -저장 기술의 발전과 가격 하락 -클라우드 컴퓨팅 보편화와 분산처리 기술 |
빅데이터 기능
-산업혁명의 석탄, 철 -21세기의 원유 -렌즈 -플랫폼
빅데이터가 만들어내는 변화
과거에서 현재로의 변화
- 사전처리 > 사후처리
- 표본조사 > 전수조사
- 질 > 양
- 인과관계 > 상관관계
2. 데이터의 가치와 미래
빅데이터 가치 산정이 어려운 이유
데이터 활용 방식
- 빅데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게 활용하는지 파악할 수 없게 되었으며 따라서 가치 산정이 어려워졌음
새로운 가치 창출
- 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 산정하기 어려워졌음
분석 기술의 발전
- 오늘은 가치가 없는 데이터일지라도 추후 새로운 분석 기법이 등장할 경우 거대한 가치를 만들어내는 재료가 될 가능성이 있음
미래의 빅데이터 활용에 필요한 3요소
데이터-모든 것을 데이터화
기술-진화하는 알고리즘, 인공지능
인력-데이터 사이언티스트, 알고리즈미스트
빅데이터 활용 기본 테크닉 7가지
1. 연관규칙 학습 : 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
ex)
- 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
- 우유 구매자가 기저귀를 더 많이 구매하는가?
2. 유형분석 : 새로운 사건이 속할 범주/분류를 찾아내는 방법(이 사용자는 어떤 특성을 가진 집단에 속하는가?)
ex)
- 문서를 어떻게 분류할 것인가?
- 조직을 어떻게 여러 그룹으로 나눌 것인가?
3. 유전 알고리즘 : 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
ex)
- 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
- 최적화된 택배 차량 배치
4. 기계학습 : 훈련 데이터로부터 얻은 특성을 활용해 예측하는 방법(데이터 학습 > 예측모형)
ex)
- 스팸메일 필터링에 사용
- 질병 진단 예측
5. 회귀분석 : 원인과 결과를 이용한 분석(영향력 분석)
ex)
- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
- 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
6. 감정분석 : 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
ex)
- 새로운 환불 정책에 대한 고객의 평가는 어떤가?
- 제품의 사용기에 나타난 고객의 감정은 어떠한가?
7.소셜 네트워크 분석 : 사회관계망 분석으로도 불리며, 유저 사이의 관계를 분석하여 오피니언 리더, 즉 영향력 있는 사람을 찾아내는 데 활용
ex)
- 특정인과 다른 사람이 몇 촌 정도의 관계인가?
- 이 사람이 어느 정도 영향력 있는 인플루언서인가?
위기요인
1.사생활 침해 - 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해 위협을 넘어 사회/경제적 위협으로도 변형될 수 있다
2.책임 원칙 훼손 - 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가
예시)
- 어떤 사람이 특정한 사회/경제적 특성을 가진 집단에 속한다는 이유로 자신의 신용도와 무관하게 부당하게 대출이 거절되는 상황도 알고리즘 예측의 피해 사례가 될 수 있음
3.데이터 오용 - 데이터 과신 혹은 잘못된 지표의 사용으로 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 발생 할 수 있다
통제방안
1. 사생활 침해 >> 동의에서 책임으로
2.책임 원칙 >> 결과 기반 책임 원칙 고수
3.데이터 오용 >> 알고리즘 접근권 허용/인증
빅데이터 활용의 3요소
데이터
- 모든 것을 데이터화하는 추세로 특정 목적없이 축적된 데이터를 통한 창의적인 분석이 가능해져 새로운 가치로 부상
기술
- 대용량의 데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현
인력
- 빅데이터를 처리하기 위한 데이터 사이언티스트와 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석을 통한 인사이트 도출
개인정보 비식별 기술
비식별 기술 | 설명 | 예시) before > | 예시) after |
데이터 마스킹 | 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 식별할 수 없는 임의의 값으로 대체 | ADsP 자격증 | ****자격증 |
가명처리 | 데이터의 값을 다른 값으로 변경하는 기술 | 한지민 | 김우빈 |
총계처리 | 데이터의 총합 또는 평균 값을 보여주며 개별 데이터 값을 보이지 않도록 하는 기술 | 10점, 20점, 30점 | 평균 20점 |
데이터값 삭제 | 필요없거나 개인 식별에 중요한 값을 삭제 | 서울시 강남구 | 서울시 |
데이터 범주화 | 데이터 값을 범주화하여 특정 값을 숨기는 기술 | 29세 | 20세 ~ 30세 |
3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
데이터 사이언스의 핵심 구성요소
Analytics : 분석적 영역
IT(Data Management) : 데이터 처리와 관련된 IT영역
비즈니스 분석 : 컨설팅 영역
데이터 사이언티스트의 요구역량
HARD SKILL
1.빅데이터에 대한 이론적 지식 2. 분석기술에 대한 숙련
SOFT SKILL
1.통찰력있는 분석 2.설득력 있는 전달 3.다분야 간 협력
가트너가 제시한 데이터 사시언티스트 요구 역랑
-데이터 관리 -분석 모델링 -비즈니스 분석 -소프트 스킬
인문학적 사고의 특성
구분 | 정보 | 통찰 |
과거 | 무슨 일이 일어났는가 | 어떻게 왜 일어났는가 |
현재 | 무슨 일이 일어나고 있는가 | 차선 행동은 무엇인가 |
미래 | 무슨 일이 일어날 것인가 | 최악 또는 최선의 상황은 무엇인가 |