20240702 ADsP 6일차 데이터 전 처리
1. 데이터 마트
데이터 마트란?
- 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
- 효율적인 데이터 마트 개발을 위해서는 R에서 제공하는 다양한 패키지 활용
- 데이터 마트로 분리시 시간/공간적인 효율성을 기대할 수 있음
데이터 전처리
- 전처리에는 데이터를 정제하는 과정과 분석 변수를 처리하는 과정 포함
- 데이터 정제 과정은 크게 결측값과 이상값을 처리하는 내용
요약변수
- 원래 데이터로부터 기본적인 통계 자료를 추출한 데이터 마트에서 가장 기본적인 변수
- 많은 모델을 공통으로 사용될 수 있어 재활용성 높음
파생변수
특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미(목적)을 부여한 변수
주관적일 수 있으므로 논리적 타당성을 갖추는 것이 중요
2. 데이터 탐색
-탐색적 데이터 분석(EDA : Exploratory Data Analysis)
- 데이터를 본격 분석하기 전에 데이터의 대략적인 특성 파악
데이터 분석 시 자주 사용하는 함수
head/tail
- 시작 또는 마지막 6개 레코트만 조회
summary
- 수치형 변수, 명목형 변수
-결측값(Missing Data)
- 존재하지 않는 데이터
- 결측값 처리를 위해 시간을 많이 쓰는 것은 비효율적 --> 가능하면 결측값 제외하고 처리하는 게 적합
- 다만, 결측값 자체가 의미있는 예외도 있기 때문에 무조건 제외는 지양
-결측값 대치 방법
단순 대치법(Single Imputation)
- 결측값이 존재하는 데이터를 삭제
- 결측값이 존재 : FALSE, 존재X : TRUE 반환
- 결측값이 많은 대량의 데이터인 경우 데이터 손실 발생 우려
평균 대치법(Mean Imputation)
- 데이터의 평균으로 결측값을 대치하여 완전한 자료로 만드는 방법
- 비조건부 평균 대치법 : 데이터 평균값으로 결측값 대치
- 조건부 평균 대치법 : 실제 값을 분석 후 회귀분석을 활용하는 대치 분석
단순 확률 대치법
- 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법
- 대표적인 방법 : K-Nearest Neighbor
다중 대치법
- 여러 번의 대치를 통해 n개의 가상적 완전 자료를 만드는 방법
-이상값(Outlier)
- 의도하지 않게 잘못 입력한 경우
- 의도하지 않게 입력됐으나 분석 목적에 부합되지 않아 제거해야 하는 경우
- 의도되지 않은 현상이지만 분석에 포함해야 하는 경우
-이상값 판단 방법
ESD(Extreme Studentized Deviation)
- 평균으로부터 3 표준편차 떨어진 값을 이상값으로 인식하는 방법
- 전체 데이터의 0.3퍼센트를 이상값으로 구분
사분위수
- 측정값을 최솟값에서 최댓값까지 오름차순으로 정렬한 자료들을 4등분했을 때 각 위치에 해당하는 값
IOR(Interquartile Range)
- 사분범위, 1분위부터 3분위 수까지의 범위를 의미
- 중앙값 : 2사분
- 일반적으로 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단
- 이상값은 상자그림(boxplot)으로 식별 가능
# 표준정규분포를 따르는 난수 100개 생성
> x=rnorm(100)
> boxplot(x)
# 아래 이미지와 같이 이상값 없음 확인 (R Studio 우측 하단 Plots 창에서 확인)
# 이상값 추가하여 확인해보기
> x=c(x,19,28,36)
> outwith=boxplot(x)
# 아래 이미지와 같이 이상값 있음 확인