자격증/ADsP

ADsP 7일차

임빵빵 2024. 7. 6. 18:39

1. 통계분석의 이해

▶ 통계 개요

 

모집단 - 자료로부터 유용한 정보를 이끌어 낼 때 해당 정보에 대한 대상을 의미

  • 개념적으로 상정된 모집단

통계 자료 획득 방법

  • 전수조사 - 대상 집단 모두를 조사하는 것으로 많은 비용과 시간 소요된다는 단점
  • 표본조사 - 모집단을 대표할 수 있는 표본을 추출하여 조사하는 것

▶ 표본추출 방법

더보기

 

단순 랜덤 추출법(simple random sampling)

  • N개의 원소로 구성된 모집단에서 n개(n ≤ N)의 표본을 추출할 때 각 원소에 1,2,3...N까지의 번호 부여
  • 예시) 사다리 타기, 제비뽑기

 

 

계통 추출법(systematic sampling)

  • 모집단의 모든 원소들에게 1, 2, 3... N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K개(K = N/n)씩 n개의 구간으로 나눈다

집락(군집) 추출법(cluster sampling)

  • 모집단이 몇 개의 집락이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용
  • 집략끼리 동질적인 부분이 있으므로 일부 집락을 랜덤으로 선택된 각 집락에서 표본을 임의로 선택

 

층화 추출법(stratified sampling)

  • 상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법
비례 층화 추출법 전체 데이터의 분포를 반영하여 각 집락별 데이터를 추출하는 방법
불비례 층화 추출법 전체 데이터의 분포를 반영하지 않고 각 집락에서 원하는 개수의 데이터를 추출하는 방법

 

▶ 측정과 척도

  • 측정: 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
  • 척도: 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

측정 방법

질적척도 - 범주형 자료, 숫자 크기 차이가 계산되지 않는 척도

구분 특징 예시
명목척도 측정 대상이 어느 집단에 속하는지 분류할 때 사용되는 척도 성별, 출생지, 대학교 등
순서척도(서열척도) 측정 대상의 특성이 가지는 서열관계를 관측하는 척도 선호도, 신용도, 학년, 순위 등

 

양적척도 - 수치형 자료, 숫자 크기 차이를 계산할 수 있는 척도

구분 특징 예시
구간척도(등간척도) 측정 대상이 갖고 있는 속성의 양을 측정
두 구간 사이의 간격이 의미가 있는 자료
온도, 지수 등
비율척도 절대적 기준이 0값이 존재하고 모든 사칙연산이 가능 무게, 나이. 연간소득, 시간, 거리, 제품가격 등

데이터의 척도에 따라서 분석 방법을 달리하기 위함

 

2. 기초 통계 용어

▶ 기초 통계 용어

  • 평균(기댓값) : 일반적인 평균은 산술평균을 의미하며 데이터를 요약할 때 가장 대표적으로 사용
  • 표본평균(sample mean)

 

  • 중앙값 : 평균의 함정을 피하기 위한 하나의 척도로 자료를 순서대로 나열했을 때 가운데 위치한 값
  • 최빈값 : 평균의 함정을 피하기 위한 하나의 척도로 주어진 데이터 집합에서 가장 자주 등장하는 값

 

  • 분산 : 데이터의 각 관찰값이 평균으로부터 얼마나 떨어져 있는지를 측정하여 데이터의 변동성 표현
  • 표준편차 : 데이터의 흩어진 정도를 나타내는 통계적 측도 중 하나로 분산의 양의 제곱근

 

  • 상관분석 : 두 변수가 함께 움직이는 방향과 그 크기에 대한 것
  • 공분산 : 두 변수 간의 상관 관계를 나타내는 통계적인 측도 즉, 한 변수가 증가할 때 다른 변수가 어떻게 변하는지를 측정
  • 상관계수 : 두 변수 간의 선형 관계의 강도와 방향을 나타내는 통계적 측도

 

3. 확률과 확률분포

▶ 확률

  • 특정사건이 일어날 가능성의 척도
  • 표본공간 - 모든 결과들의 집합

 

  • 독립사건 : 두 사건이 서로 영향을 미치지 않고, 한 사건의 발생 여부가 다른 사건에 아무런 정보를 제공하지 않는 것
  • 배반사건 : 두 사건 A와 B가 동시에 발생할 수 없는 경우 즉, 한 사건이 일어나면 다른 사건은 일어날 수 없는 관계에 있는 두 사건