20240809 TIL
1. 회귀분석 평가지표
회귀 평가지표 - MSE
- 에러 정의방법
- 방법1) 에러 = 실제 데이터 - 예측 데이터 로 정의하기
- 방법2) 에러를 제곱하여 모두 양수로 만들기, 다 합치기
- 방법3) 데이터만큼 나누기
- 에러 정의 방법 수식화
방법2)가 Mean Squared Erorr(MSE)
y값의 머리에 있는 ^ 표기를 hat이라고 하며, 예측(혹은 추정)한 수치에 표기
▶ 선형회귀만의 평가 지표 - R Square
- R Square는 전체 모형에서 회귀선으로 설명할 수 있는 정도
- 기초 용어
- $y_{i}$: 특정 데이터의 실제 값
- $\bar{y}$: 평균 값
- $\hat{y}$: 예측, 추정한 값
R Square 정의 --> ADsP 시험에도 중요하게 나오기 때문에 알아두면 좋음!
2. 선형회귀 심화
▶ 다중선형회귀 - 비선형적
- 단순선형회귀 vs 다항회귀
▶ 수치형 데이터 vs 범주형 데이터
- 수치형 데이터
- 연속형 데이터: 두 개의 값이 무한한 개수로 나누어진 데이터
- ex) 키, 몸무게
- 이산형 데이터: 두 개의 값이 유한한 개수로 나누어진 데이터
- ex) 주사위 눈, 나이
- 범주형 데이터
- 순서형 자료: 자료의 순서 의미가 있음
- ex) 학점,등급
- 명목형 자료: 자료의 순서 의미가 없음
- ex) 혈액형, 성별
▶ 선형회귀 정리
장점 : 이해하기 쉽고 방법도 쉽다
그러나, X-Y 변수 간의 선형적 관계가 좋아야만 좋은 성능을 낸다
▶ 특징
1. 선형성 : 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재
2. 등분산성 : 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 한다. 즉, 오차가 특정 패턴을 보여선느 안되며, 독립 변수 값에 상관없이 일정해야 한다.
3. 정규성 : 오차 항은 정규 분포를 따라야 한다
4. 독립성 : X변수는. 서로 독립적이어야 한다
- 다중공선성 문제 - 독립변수간의 강한 상관관계가 나타나는 것
- 해결방법 - 서로 상관관계가 높은 변수 중 하나만 선택(산점도 혹은 상관관계 행렬), 두 변수를 동시에 설명하는 차원축소(PCA) 실행하여 변수 1개로 축소
장점:
-직관적이며 이해하기 쉽다. X-Y관계를 정량화 할 수 있다.
-모델이 빠르게 학습된다(가중치 계산이 빠르다)
단점:
-X-Y간의 선형성 가정이 필요하다.
-평가지표가 평균(mean)포함 하기에 이상치에 민감하다.
-범주형 변수를 인코딩시 정보 손실이 일어난다.
Python 패키지
-sklearn.linear_model.LinearRegression
3. 데이터 프로세스 개요
<선형회귀분석의 기초, 심화 과정 예습 파일>
'✨Today I Learned' 카테고리의 다른 글
머신러닝 심화 : EDA (0) | 2024.08.14 |
---|---|
머신러닝 기초: 로지스틱 회귀 (1) | 2024.08.13 |
머신러닝 기초(회귀분석 - 선형회귀 이론까지) (0) | 2024.08.08 |
데이터 리터러시 (0) | 2024.07.03 |
SQL 라이브 3일차 숙제 (0) | 2024.06.28 |