20240731 TIL
1. 인과관계의 이해
종속변수
-다른 변수의 영향을 받는 변수
-어떤 실험이나 조사에서 변화의 결과로 나타나는 변수
ex) 학업 성적을 예측하고자 할
종속변수 - 학업 성적
독립변수 - 공부시간, 수면시간, 출석률
산점도 - 두 변수 간의 관계를 시각적으로 나타내는 그래픽 표현 방법 중 하나
산점도에서 확인할 사항 (객관식 자주)
- 두 변수 사이의 선형관계(직선관계)가 성립하는가?
- 두 변수 사이의 함수관계(직선관계 또는 곡선관계)가 성립하는가?
- 이상값이 존재하는가?
- 몇 개의 집단으로 구분(층별) 되는가?
2. t-검정
-두 집단 간 평균의 차이가 유의미한지 검정하는 방법(=두 집단의 평균이 다른 것을 말할 수 있는가)
t-value = 평균의 차이/평균의 불확실성
** 평균 차가 클수록 t-value 커짐
일 표본 t-검정 - 한 집단이 평균의 어떤 특정한 값과 차이가 있는지를 검정하는 통계적 방법
일 표본 단측 t-검정 - 특정 방향(한 방향)으로 평균의 차이를 검정하는 통계적 방법
일 표본 양측 t-검정 - 양 방향으로 봐야할 때
ex)
1. 남녀의 키차이
H0 : 남자가 여자보다 키가 작다
H1 : 남자가 여자보다 키가 크다
--> 단측 -> 남자가 여자보다 큰지만 확인하면 됨
2. 남녀의 스트레스 차이
H0: 남녀 스트레스 지수 차이가 없다
H1: 남녀 스트레스 지수 차이가 있다
--> 양측 -> 남 녀 둘 다 스트레스 지수 봐야 함(양쪽)
이(독립) 표본 t-검정
-독립된 그룹 간에 평균 차이가 있는지를 검정하는 통계적 방법 중 하나
-두 그룹이 서로 독립, 각각의 그룹에서의 관측치들이 서로 영향을 미치지 않는 경우 사용
대응 표본 t-검정
-동일한 대상에 대해 두 가지 관측치가 있는 경우 이를 비교하여 차이가 있는지 검정할 때 사용
-실험 전후의 효과를 비교
3. 분산분석
분산분석(Analysis of Variance, ANOVA)
ANOVA - t-test를 확장한 것
- 여러 그룹 간의 평균차이를 비교
- 일반적으로 세 개 이상의 그룹 간의 평균 차이를 비교
- 분산분석에서는 (집단 간 분석) / (집단 내 분산) 으로 계산되는 F-value(일반적으로 1을 기준)가 사용
분산이 0 이다 --> 모든 데이터가 같다(일정하다)
평균이 비슷하다 --> 분산이 ↓
평균이 다르다 --> 분산이 ↑
분산분석의 단점
- 분산분석의 귀무가설을 기각했을 경우 사후검정방법 사용
일원분산분석(one-way Anova) - 하나의 집단에 속하는 독립변수와 종속변수 모두 한 개일때 사용
ex) 연령대별(20대, 30대, 50대) OTT 시청 시간의 차이가 있는지 알아보고 싶다고 가정할 경우
-독립변수 : 연령대별 -종속변수 : OTT 시청 시간
셋 이상의 집단이지만 독립변수는 '연령대별 집단' 하나의 종류로 봐야 한다 --> 하나의 독립변수가 각각 종속변수에 영향
이원분산분석(two-way Anova) - 두 개의 독립변수가 종속 변수에 영향을 미치는 영향
4. 교차분석/상관분석
교차분석 - 범주형 변수 간의 관계를 파악하고자 할 때 사용되는 통계 분석 기법
적합도 검정 - 실험 결과 얻어진 관측값이 예상값과 일치하는지를 검정
독립성 검정 - 두 변수 간의 관계가 독립적인지 여부를 테스트
카이제곱 검정에 의한 독립성 검정 결관느 두 범주형 변수 간에 관계가 있는지 없는지만 나타낼 뿐이며, 두 변수 간 관계의 강도를 말해주진 않음
동질성 검정 - 두 개이 상의 모집단이 동일한 분포를 가지고 있는지를 검정
상관분석 - 두 변수 간의 관계의 정도
상관계수는 두 변수 간의 선형적 관계를 나타낸다
일반적으로 -1에서 1사이의 값을 가지는데 +1에 가까우면 양의 상관관계, -1에 가까우면 강한 음의 상관관계
상관분석의 유형
-피어슨 상관분석(선형적 상관관계) : 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식
-스피어만 상관분석(비선형적 상관관계) : 서열척도인 두 변수들의 상관관계 측정 방식