✨Today I Learned

머신러닝 기초 : 회귀분석 기초, 심화

임빵빵 2024. 8. 9. 20:22

20240809 TIL

1. 회귀분석 평가지표

 

회귀 평가지표 - MSE

  • 에러 정의방법
    • 방법1) 에러 = 실제 데이터 - 예측 데이터 로 정의하기
    • 방법2) 에러를 제곱하여 모두 양수로 만들기, 다 합치기
    • 방법3) 데이터만큼 나누기
  • 에러 정의 방법 수식화

방법2)가 Mean Squared Erorr(MSE)

y값의 머리에 있는 ^ 표기를 hat이라고 하며, 예측(혹은 추정)한 수치에 표기

 

▶ 선형회귀만의 평가 지표 - R Square

  • R Square는 전체 모형에서 회귀선으로 설명할 수 있는 정도
  • 기초 용어
    • $y_{i}$: 특정 데이터의 실제 값
    • $\bar{y}$: 평균 값
    • $\hat{y}$: 예측, 추정한 값

 

 

R Square 정의 --> ADsP 시험에도 중요하게 나오기 때문에 알아두면 좋음!

2. 선형회귀 심화

▶ 다중선형회귀 - 비선형적

  • 단순선형회귀 vs 다항회귀

▶ 수치형 데이터 vs 범주형 데이터

 

  • 수치형 데이터
    1. 연속형 데이터: 두 개의 값이 무한한 개수로 나누어진 데이터
    2. ex) 키, 몸무게
    3. 이산형 데이터: 두 개의 값이 유한한 개수로 나누어진 데이터
    4. ex) 주사위 눈, 나이
  • 범주형 데이터
    1. 순서형 자료: 자료의 순서 의미가 있음
    2. ex) 학점,등급
    3. 명목형 자료: 자료의 순서 의미가 없음
    4. ex) 혈액형, 성별

 

▶ 선형회귀 정리

장점 : 이해하기 쉽고 방법도 쉽다

그러나, X-Y 변수 간의 선형적 관계가 좋아야만 좋은 성능을 낸다

 

▶ 특징

1. 선형성 : 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재

 

2. 등분산성 : 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 한다. 즉, 오차가 특정 패턴을 보여선느 안되며, 독립 변수 값에 상관없이 일정해야 한다.

 

X축:독립변수 Y축: 에러

3. 정규성 : 오차 항은 정규 분포를 따라야 한다

 

4. 독립성 : X변수는. 서로 독립적이어야 한다

  • 다중공선성 문제 - 독립변수간의 강한 상관관계가 나타나는 것
  • 해결방법 - 서로 상관관계가 높은 변수 중 하나만 선택(산점도 혹은 상관관계 행렬), 두 변수를 동시에 설명하는 차원축소(PCA) 실행하여 변수 1개로 축소
장점:
-직관적이며 이해하기 쉽다. X-Y관계를 정량화 할 수 있다.
-모델이 빠르게 학습된다(가중치 계산이 빠르다)

단점:
-X-Y간의 선형성 가정이 필요하다.
-평가지표가 평균(mean)포함 하기에 이상치에 민감하다.
-범주형 변수를 인코딩시 정보 손실이 일어난다.

Python 패키지
-sklearn.linear_model.LinearRegression

 

3. 데이터 프로세스 개요

 

<선형회귀분석의 기초, 심화 과정 예습 파일>

기초1.ipynb
0.23MB